DI, lietuvių kalba ir Kablelis.lt

2025-04-05

Prieš porą metų, diskutuodami su Jonė Sąlygaitė apie dirbtinio intelekto modelius, iškėlėm prielaidą, jog modelių negebėjimas bendrauti mažesnėmis kalbomis gali paskatinti jų nykimą. Kurti DI modelius sava kalba ar bent užtikrinti patikimiau veikiančius vertimo įrankius tuo metu atrodė valstybinės svarbos projektai. Visos DI modelių lietuvių kalbos žinios, nuo beveik niekinių prieš kelerius metus iki tų, kurias turime šiandien, daugiausia yra keleto JAV įmonių pastangų šalutinis produktas, kai į modelių apmokymui naudojamus interneto archyvus pateko ir lietuviški tekstai.

Bendrai, pažanga yra įspūdinga. Naujausi modeliai palieka tik pavienes gramatines ar skyrybos klaidas, nors jų stilius vis dar atrodo kiek guminis. Vis dėlto, asmeniniam naudojimui su minimaliais pakeitimais tokia kokybė yra OK.

Problema iškyla tada, kai reikia užtikrinti aukštą automatiškai generuojamų tekstų kokybę be žmogaus įsikišimo. Tai aktualu dabar jau pradėtoms automatizuoti sritims – personalizuotam turiniui, pagalbos robotams, klausimų-atsakymų sistemoms, mokymosi įrankiams ar tokiems projektams kaip Apžvalgininkė Vilma.

Šiandien Lietuvoje net neturime mechanizmo, kuris parodytų, kurių kompanijų ir kurie modeliai statistiškai reikšmingai geriausiai komunikuoja lietuviškai. Kokį modelį rekomenduoti angliškai nekalbančiam šeimos nariui? Universitetai, turbūt labiausiai VDU, galėtų aktyviau įsitraukti į tokius tyrimus ir testavimą.

Svarbiausia, jog galime tik spėlioti, kokio lygio lietuvių kalbos gebėjimus modeliai turėtų šiandien, jei prie šios problemos būtų dirbama aktyviau. Tai gana įkyrus klausimas, kuris galiausiai apkramtė tiek mano, tiek Andrius Bernatavičius pastarųjų mėnesių laisvalaikį.

Kaip pirmą eksperimentą pasirinkome skyrybą ir šiandien pristatome rezultatą – Kablelis.lt. Tai nemokamas įrankis, leidžiantis paprastai ir greitai patikrinti tekstų skyrybos klaidas. Prikabintas ir paprastas žodžių rašybos tikrinimas. Svarbiausia, kad mūsų apmokytas modelis „Birutė“ lietuvių kalbos skyrybos užduotis atlieka geriau nei naujausias „Gemini 2.5 Pro“ ar brangusis „GPT-4.5“. Testų rezultatai pateikti komentare.

Nors skyryba ir nėra pati patraukliausia kalbos sritis, o mums dar teks ištaisyti keletą modelio netikslumų, šis eksperimentas įrodo, jog net su minimaliais ištekliais mes patys galime ženkliai prisidėti prie lietuvių kalbos skaitmeninių įrankių tobulinimo, o kartu norime ir paskatinti platesnę diskusiją apie kalbos technologijų svarbą Lietuvoje.

Jei turite idėjų, norite prisidėti ar padiskutuoti apie projektą – rašykite. O dabar kviečiu išbandyti Kablelis.lt ir pasidalinti juo su kolegomis ar draugais, kuriems galbūt trūksta atidumo! Gal po skyrybos imsimės ir kūrybingesnių kalbos užduočių. Palieku jus su „ChatGPT“ išmintimi: „Kablelis svarbu, bet dar svarbiau – kur jį padedame.“

Pranciškus