“Latgaliešu valoda ir neatņemams Latvijas lingvistiskais un kultūrvēsturiskais mantojums un būtiska nacionālās identitātes daļa aptuveni 165 000 mūsu valsts iedzīvotāju, tādēļ ir svarīgi nodrošināt latgaliešu valodas pilnvērtīgu pastāvēšanu un attīstību arī digitālajā telpā,” norāda LU MII Mākslīgā intelekta laboratorijas vadītājs Normunds Grūzītis. “Esam gandarīti, ka kopā ar partneriem mums ir izdevies izveidot pirmo praktiski izmantojamo MI modeli, kas spēj saprast un pierakstīt latgaliešu valodā runāto. Latviešu valodai šādi risinājumi ir pieejami jau vairāk nekā desmit gadus, un nu arī latgaliešu valodai runas tehnoloģiju nodrošinājums pietuvinājies līmenim, kāds tas ir latviešu valodai.”
Jaunā MI modeļa mašīnapmācība latgaliešu valodas runas atpazīšanai tika paveikta vien mēneša laikā, sagatavojot vairāku gadu laikā iegūtos valodas datu paraugus modeļa apmācībai un izmantojot LU MII mākslīgā intelekta skaitļošanas infrastruktūru. Lai iegūtu nepieciešamos datus, Valsts pētījumu programmā “Letonika” kopš 2022. gada tika veidoti runas korpusi latviešu un latgaliešu valodai – daudzveidīgi runas datu paraugi ar transkripcijām un lingvistisko marķējumu, kopumā vairāku simtu stundu apjomā. Tas ietver arī sabiedrisko iniciatīvu “Balsu talka” un “Bolsu tolka” laikā savāktos latviešu un latgaliešu valodas runas paraugus. Paralēli tam ES finansētajā izglītības un pētniecības projektā “Valodu tehnoloģiju iniciatīva” tika izveidota tehnoloģiskā bāze valodas modeļu mašīnapmācībai.
“Pirms MI modeļa izveides latgaliešu valodai vispirms izveidojām šādu modeli latviešu valodai, jo tai ir pieejams ievērojami vairāk apmācības datu. Pēc tam izveidoto latviešu valodas modeli turpinājām apmācīt ar latgaliešu valodas datiem,” piebilst Normunds Grūzītis.
LU MII izstrādātais latgaliešu valodas runas transkribēšanas rīks LATE-LTG ir brīvi pieejams vietnē https://ltg.late.ailab.lv, savukārt apmācītais MI modelis ir pieejams ar atvērtā pirmkoda licenci, tostarp komerciālai izmantošanai. LATE platforma paver plašas pielietojuma iespējas, tostarp teksta diktēšanai, audio un video ierakstu atšifrēšanai, subtitru veidošanai, kā arī latgaliešu rakstu valodas apguvei.
Latgaliešu un latviešu valodas MI modeļu apmācībai nepieciešamo runas korpusu izveidē un attīstībā piedalās Rēzeknes Tehnoloģiju akadēmijas, LU Matemātikas un informātikas institūta un LU Literatūras, folkloras un mākslas institūta pētnieki, savukārt Latvijas Atvērto tehnoloģiju asociācijai bijusi būtiska loma “Balsu talkas” veiksmīgā organizēšanā un īstenošanā.
Papildu informācija un demonstrācijas video sociālajos tīklos:
https://www.facebook.com/AiLab.lv/videos/433863696450191
https://x.com/AiLab_lv/status/1904087578581549151
Par AiLab.lv LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija (AiLab.lv) ir viena no vadošajām pētniecības grupām Latvijā, kas strādā valodu tehnoloģiju un mākslīgā intelekta jomās, nu jau vairāk nekā 30 gadus. AiLab.lv misija, sadarbojoties ar akadēmiskajiem un industrijas partneriem, ir attīstīt digitālos resursus un tehnoloģijas latviešu valodas, tostarp latgaliešu valodas, automatizētai analīzei un apstrādei, nodrošinot tās stabilu pastāvēšanu globālajā daudzvalodu digitālajā vidē. |