
Lietuvoje baigtas kurti didžiausias iki šiol lietuvių kalbos šnekos duomenų rinkinys
Lietuvoje baigtas kurti Didysis lietuvių kalbos garsynas LIEPA-3. Vilniaus universiteto ir kitų įstaigų mokslininkai surinko bei anotavo 10 tūkst. valandų lietuvių kalbos įrašų.
Šis kiekis sudaro daugiau nei vienerius metus nenutrūkstamos šnekos. Tai didžiausias iki šiol lietuvių kalbos šnekos duomenų rinkinys, skirtas dirbtinio intelekto technologijoms.
LIEPA-3 sukurtas tam, kad lietuvių kalba turėtų tvirtą šnekos duomenų pagrindą šiuolaikinėms DI sistemoms. Be Vilniaus universiteto, garsyną kūrė Vytauto Didžiojo universiteto ir Lietuvių kalbos instituto mokslininkai.
Lietuvių kalbai iki šiol trūko didelės apimties šnekos duomenų
Šiuolaikinės dirbtinio intelekto sistemos – nuo balso asistentų iki automatinių subtitrų ar pokalbių robotų – veikia tik tada, kai turi didelius kiekius kokybiškų šnekos duomenų. Didžiosios pasaulio kalbos tokių išteklių turi daug, o lietuvių kalbai viešai prieinamų didelės apimties šnekos duomenų iki šiol trūko.
Pasak LIEPA-3 vadovės, Vilniaus universiteto Matematikos ir informatikos fakulteto profesorės Gražinos Korvel, lietuvių kalba technologijose vis dar dažnai neveikia arba veikia prasčiau, nei norėtųsi. Pagrindinė priežastis – dirbtiniam intelektui trūksta lietuviškų balsų pavyzdžių.
„Nors technologijos kasmet sparčiai tobulėja, lietuvių kalba jose vis dar dažnai neveikia arba veikia prasčiau, negu norėtųsi. Priežastis paprasta – dirbtiniam intelektui vis dar trūksta lietuviškų balsų pavyzdžių, iš kurių jis galėtų mokytis suprasti gyvą, autentišką kalbą – tokią, kokia ji vartojama kasdien“, – sako prof. G. Korvel.
Į garsyną įtraukta spontaninė, skaitytinė ir tarminė lietuvių šneka
LIEPA-3 išsiskiria ne tik apimtimi, bet ir įvairove. Į garsyną įtraukti spontaninės, skaitytinės ir tarminės šnekos pavyzdžiai, surinkti iš radijo laidų, telefoninių pokalbių, viešai prieinamų įrašų ir specialiai garsynui įskaitytų tekstų.
Projekto LIEPA-3 Vilniaus universiteto dalies vadovas, projekto ekspertas, VU Matematikos ir informatikos fakulteto lektorius Gediminas Navickas pabrėžia žiniasklaidos partnerių vaidmenį. Pasak jo, didelė spontaninės šnekos garsyno dalis nebūtų buvusi įmanoma be garso archyvų įrašų.
„Esame dėkingi LRT, Žinių radijui ir Lietuvos nacionalinei Martyno Mažvydo bibliotekai už suteiktą galimybę panaudoti jų garso archyvų įrašus. Ši partnerystė leido sukaupti vertingą lietuvių kalbos šnekos medžiagą ir svariai prisidėjo prie lietuvių kalbos technologinių išteklių stiprinimo“, – teigia G. Navickas.
Daugiau nei 7000 Lietuvos gyventojų prisidėjo prie skaitytinės šnekos įrašų
Dirbtinio intelekto algoritmų mokymui labai svarbi duomenų įvairovė ir reprezentatyvumas. Projekto ekspertas, Vytauto Didžiojo universiteto profesorius dr. Gailius Raškinis sako, kad renkant sakytinės šnekos garsyno dalį fonetinė įvairovė buvo užtikrinama pasitelkiant kompiuterinius algoritmus.
Algoritmai buvo naudojami tam, kad parinktų kuo įvairesnį skaitomą tekstą. Tokiu būdu siekta, kad garsynas geriau atspindėtų realią šiuolaikinę lietuvių kalbą, skirtingus kalbėjimo stilius, tarties bruožus ir akustines aplinkas.
Projekto Vytauto Didžiojo universiteto dalies vadovė prof. Daiva Vitkutė-Adžgauskienė teigia, kad įrašų reprezentatyvumui reikėjo plataus visuomenės įsitraukimo. Pasak jos, LIEPA-3 skaitytinės šnekos garsyno daliai balso įrašų pavyzdžius pateikė daugiau nei 7000 Lietuvos gyventojų.
Atskira LIEPA-3 dalis skirta lietuvių kalbos tarmėms
Lietuvių kalba skirtinguose regionuose skamba nevienodai, todėl LIEPA-3 garsyne atskira dalis skirta tarmėms. Lietuvių kalbos instituto projekto dalies vadovė prof. Danguolė Mikulėnienė pabrėžia, kad žmonės Alytaus, Utenos, Telšių ar Mažeikių apylinkėse kalba skirtingai.
Projekte surinkta ir anotuota 100 valandų tarminės medžiagos. Ji sistemiškai ir tolygiai surinkta iš viso ploto, todėl fiksuoja XXI a. trečiojo dešimtmečio vietinių lietuvių kalbos atmainų situaciją.
Pasak prof. D. Mikulėnienės, ši medžiaga leidžia matyti tradicinėms tarmėms būdingų ypatybių paplitimą ir jų kaitos tendencijas. Ji taip pat padės pastebėti naujų vietinių lietuvių kalbos darinių formavimąsi ir numatyti galimas ilgalaikės raidos perspektyvas.
Visi įrašai anotuoti, kad juos galėtų naudoti dirbtinio intelekto sistemos
Vien garso įrašų dirbtinio intelekto mokymui neužtenka. Tam reikia anotuotų įrašų, kuriuose šneka užrašyta tekstu ir susieta su konkrečiais frazių pradžios bei pabaigos laiko momentais.
Visi LIEPA-3 garsyno įrašai buvo anotuoti frazių lygmeniu. Dalis garsyno – 500 valandų – papildomai anotuota leksinių vienetų ir fonemų lygmeniu.
Toks anotavimo lygis leidžia garsyną naudoti pažangių lietuvių šnekos atpažinimo technologijų kūrimui ir mokymui. Tai ypač svarbu sistemoms, kurios turi ne tik atpažinti pavienius žodžius, bet ir suprasti gyvą, įvairiai tariamą kalbą.
Informatikų ir filologų bendradarbiavimas tapo vienu svarbiausių projekto rezultatų
Vienas svarbiausių LIEPA-3 projekto privalumų yra ne tik sukurtas Didysis lietuvių kalbos garsynas. Projekto metu sustiprintas informatikų ir filologų bendradarbiavimas, kuris svarbus tiek DI technologijoms, tiek lietuvių kalbos tyrimams.
Vilniaus universiteto Filologijos fakulteto profesorius Vytautas Kardelis teigia, kad tokio masto garsynas reikalingas ne tik šnekos technologijoms. Jis taip pat svarbus norint suprasti, kokia yra šiuolaikinė lietuvių kalba.
Pasak prof. V. Kardelio, projekto metu informatikai ir filologai geriau suprato, kaip galima sujungti skirtingų sričių žinias. Tokia jungtis gali būti taikoma ne tik technologijoms, bet ir lingvistiniams tyrimams, įsisenėjusių hipotezių tikrinimui bei naujų teorinių prieigų kūrimui.
LIEPA-3 garsynas nemokamai prieinamas mokslininkams, universitetams ir verslui
LIEPA-3 garsynas jau publikuotas ir yra laisvai prieinamas pagal atvirąją licenciją. Tai reiškia, kad jo duomenis gali naudoti mokslininkai, universitetai, įmonės ir technologijų kūrėjai, kuriantys lietuvių kalbos dirbtinio intelekto sprendimus.
Garsynas paskelbtas CLARIN-LT atviroje kalbos išteklių saugykloje ir Lietuvos atvirų duomenų portale data.gov.lt. Atvira prieiga sudaro sąlygas ne tik akademiniams tyrimams, bet ir praktinių lietuvių kalbos technologijų plėtrai.
Prof. G. Korvel pabrėžia, kad LIEPA-3 nereikėtų vertinti kaip galutinio produkto. Pasak jos, tai ilgalaikė investicija į lietuvių kalbos ateitį skaitmeninėje erdvėje.
Lietuvių kalbos garsynas taps pamatu naujiems DI sprendimams
„LIEPA-3 yra ne galutinis produktas, o pamatas, ant kurio bus statomi lietuvių kalbos dirbtinio intelekto sprendimai“, – teigia prof. G. Korvel. Šis garsynas gali būti naudojamas kuriant šnekos atpažinimo, subtitravimo, balso asistentų, pokalbių robotų ir kitus lietuvių kalbai pritaikytus sprendimus.
Didysis lietuvių kalbos garsynas bus svarbus ir moksliniams tyrimams. Jis padės tirti, kaip lietuvių kalba vartojama skirtinguose regionuose, skirtingose kartose ir skirtingose kalbėjimo situacijose.
Atvirai prieinami duomenys sudarys galimybes tyrėjams ir verslo bendruomenei kurti naujus produktus bei paslaugas. Tai svarbu tam, kad lietuvių kalba išliktų aktyviai vartojama šiuolaikinėse technologijose ir inovacijų ekosistemoje.
Daugiau informacijos
Liudmila Januškevičienė
Viešosios komunikacijos projektų vadovė
Vilniaus universitetas
Komunikacijos ir rinkodaros skyrius
Tel. +370 601 17080
El. p. [email protected]
DAO narių vertinimas
Straipsnio publikavimą patvirtino 5 iš 5 priskirtų DAO narių
Straipsnis aiškiai paaiškina, kas yra šnekos garsynas ir kaip jis prisidės prie lietuvių kalbos vystymo, todėl jis yra vertingas ir suprantamas paprastam skaitytojui.
Straipsnis pateikia tikslią informaciją apie šnekos garsyną ir jo naudą lietuvių kalbai, be dezinformacijos ar manipuliacijos. Informacija yra aiški ir atitinka žurnalistikos etikos standartus.
Straipsnis yra aktualus, nes apima dirbtinio intelekto technologijų taikymą lietuvių kalboje, kas yra svarbu šiuolaikiniame kontekste. Be to, informacija apie šnekos garsyną gali sudominti tiek mokslininkus, tiek kūrėjus, kurie dirba su kalbos technologijomis.
Straipsnis pateikia svarbią informaciją apie lietuvių kalbos šnekos garsyno sukūrimą, kuris gali turėti teigiamą poveikį kalbos technologijoms. Tai naudinga tiek mokslininkams, tiek kūrėjams, todėl rekomenduoju publikuoti.
Straipsnis pateikia informaciją apie šnekos garsyną ir jo naudą lietuvių kalbai, be to, jis yra informatyvus ir nesukelia nepagrįsto nerimo. Tonas yra neutralus ir psichologiškai saugus.