Datorzinātnieks: Latviešu valodā ir vismaz 20 miljoni vārdformu

Pērn saņēmāt Latvijas Zinātņu akadēmijas gada balvu par izstrādāto jauno neironu mašīntulkošanas tehnoloģiju. Savukārt janvāra sākumā esat viens no 12 personībām zinātnē, par kuru izcilu un inovatīvu pētniecību Latvijas Nacionālajā bibliotēkā veidota izstāde #ZinātneLatvijai. Cik ilgu laiku strādājāt datorzinātnē, un kāds bijis ceļš uz izcilajiem panākumiem?

Interesēties par programmēšanu sāku pamatskolā, kādā 9. vai 10. klasē. Bet 11. klasē jau skaidri zināju, ka vēlos kļūt par programmētāju. Strādāt pie valodas tehnoloģijām gan sāku vēlāk, 2006. gadā, bakalaura studiju 2. kursā, Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā. “Tildei” pievienojos 2011. gadā, kad arī sāku darbu pie mašīntulkošanas tehnoloģijām. Tātad ar to nodarbojos jau astoņus gadus.

Kas ir panākumu pamatā? Svarīgi, ka “Tilde” mašīntulkošanās jomā strādā kopš tiem laikiem, kad šīs tehnoloģijas tika plaši izmantotas industrijā, un šai jomai velta visus spēkus. Uzņēmuma mašīntulkošanas tehnoloģiju attīstības uzplaukums sākās pirms desmit gadiem – ap 2010. gadu, kad kompānija iesaistījās Eiropas Komisijas finansētā starptautiskā statistiskās mašīntulkošanas projektā, kurā tapa spēcīgākā statistiskās mašīntulkošanas programma. Tā ir pamattehnoloģija, kuru izmantojam vēl šodien, lai attīstītu savus mašīntulkošanas risinājumus.

“Tildē” strādā spēcīga un pieredzes bagāta pētniecības un izstrādes komanda, turpinām iesaistīties dažādos starptautiskos projektos, kas ļauj attīstīt tehnoloģijas kopā ar citiem spēlētājiem šajā jomā. Svarīgi, ka tehnoloģijas izstrādājam tirgum – visu laiku jātur sevi formā un jāspēj piedāvāt konkurētspējīgi produkti. Darbs ar produktiem prasa praktiskāku pieeju problēmu risināšanai, kas arī ļauj nonākt pie rezultāta.

Pēdējos trīs gadus uzņēmums “Tilde” starptautiskajās sacensībās uzrādījis labākos rezultātus Baltijas valodu mašīntulkošanas tehnoloģiju izstrādē: tulkojot no latviešu, lietuviešu un igauņu valodas uz angļu valodu un otrādi. Kā izdevies apsteigt IT tehnoloģiju zemi – Igauniju?

Jā, igauņi mūs ir uzteikuši par mašīntulkošanas sistēmu kvalitāti. Bijušais kaimiņvalsts prezidents Tomass Hendriks Ilvess pat tviterī bija atsaucies uz “Tildi”, kad uzvarējām mašīntulkošanas sacensībās ar igauņu-angļu valodu. Pat Igaunijā izskanēja, ka latvieši ir soli priekšā.

Ar mašīntulkošanu nodarbojas pētniecības grupa Tartu Universitātē, taču atšķirība starp zinātniekiem un privātuzņēmumu ir tāda, ka “Tilde” mērķtiecīgi attīsta šo tehnoloģiju – ir daudz lielāka pētniecības un izstrādes atdeve. Igauņiem nav tādu uzņēmumu, kas izstrādā mašīntulkošanas tehnoloģijas. Igaunijas uzņēmumi izmanto “Tildes” risinājumus.

“Tildes” zinātnieku komanda ir izstrādājusi unikālu mākslīgā intelekta neironu mašīntulkošanas sistēmu – mākslīgā intelekta tehnoloģiju, kas radīta pēc analoģijas ar cilvēka smadzeņu neironiem. Kā darbojas šī tehnoloģija? Ko īsti nozīmē neironu tīkli? Kā notiek tulkošanas process?

Mašīntulkošanas jomā kopš 2016. gada vadošās ir neironu mašīntulkošanas tehnoloģijas. Tās tekstu tulko, izmantojot mākslīgos neironu tīklus, kurus apmācām, rādot tiem daudzus jo daudzus cilvēku tulkotus teikumus. Apmācības procesā parādām neironu tīklam avotvalodas teikumu un ļaujam tam pašam izdrukāt tulkojumu. Ir skaidrs, ka neironu tīkls sākumā izdrukās muļķības (kaut ko nepareizu). Tā kā zinām, kādam bija jābūt pareizajam tulkojumam, neironu tīklu varam pielabot (intuitīvi – saslēgt neironus nedaudz citādi), lai nākamajā reizē, kad tam tiks pieprasīts iztulkot līdzīgu teikumu (vai to pašu teikumu), tulkojums būtu precīzāks. Parādot neironu tīklam vairākus desmitus miljonu teikumu, tas pamazām iemācās tulkot pareizi.

Neironu tīkli, kādus izmantojam mašīntulkošanā, ļauj teikumu aplūkot kopumā, analizēt visu teikuma nozīmi. Tas ir būtiskākais šīs tehnoloģijas pārākums pār iepriekšējo paaudžu tehnoloģijām, kas nespēja izanalizēt visu teikumu kopumā. Tāpēc arī šī tehnoloģija mūsdienās ir vadošā mašīntulkošanā lietotā tehnoloģija visā pasaulē.

Lasīju, ka “Tilde” ir pirmais uzņēmums pasaulē, kas neironu tīklus izmantojis mazo valodu mašīntulkošanā. Kāpēc to nedara citas kompānijas, piemēram, “Google” un “Microsoft”? Kādās valodās piedāvājat tulkojumus?

Mūsdienās lielie uzņēmumi (“Google” un “Microsoft”) Baltijas valodām mašīntulkošanā jau izmanto neironu tīklus. Būtiski ir saprast, ka lielie uzņēmumi vispirms tehnoloģijas izstrādā valodām, kurās ir pietiekami liels tirgus, lai šiem uzņēmumiem būtu ekonomiski izdevīgi radīt kaut ko jaunu. Tad, ja lielās kompānijas šīs pašas tehnoloģijas var izmantot arī mazajām valodām, tās to mēdz darīt, bet nav garantijas, ka tehnoloģijas piedāvās visām valodām. Piemēram, tehnoloģijas “Apple Siri”, “Microsoft Cortana” un “Google Assistant” nav pieejamas latviešu valodai (un nav dzirdēts, ka tuvāko gadu laikā būtu plānotas).

“Tilde” bija pirmā, kas latviešu-angļu-latviešu un igauņu-angļu-igauņu neironu mašīntulkošanas sistēmas sāka piedāvāt lietotājiem. Varam izstrādāt mašīntulkošanas sistēmas jebkuram tulkošanas virzienam starp Eiropas oficiālajām valodām, kā arī biznesa klientiem risinājumus citām pasaules valodām, ja vien ir pieejami dati, kurus varam izmantot. Laika gaitā esam izstrādājuši mašīntulkošanas iespējas, piemēram, angļu-korejiešu, ķīniešu, arābu (un otrādi) valodām.

Vai nav izaicinājums piedāvāt tulkojumus latviešu valodā, kurā ir tik daudz locījumu? Cik liels vārdu apjoms jāapstrādā datoram, lai tas spētu nekavējoties iztulkot iedoto tekstu?

Pēc “Tildes” aprēķiniem, latviešu valodā ir vismaz 20 miljoni dažādu vārdformu dažādos locījumos. Datos, kādus izmantojam neironu mašīntulkošanas sistēmu apmācībai, parasti ir sastopami aptuveni viens miljons vārdformu. Tātad – būtiski mazāk. Neironu mašīntulkošanas sistēmas gan spēj pašas apgūt zināšanas par vārdu locīšanu, tāpēc visiem locījumiem datos obligāti nav jāparādās.

Kad tiek apmācītas neironu tīklu sistēmas, nepietiek ar to, ka sistēma vārdu ir redzējusi tikai vienu reizi. Vārdi ir jāredz dažādos kontekstos, lai sistēma iemācītos vārdu atpazīt un saprast. Parasti neironu mašīntulkošanas sistēmu apmācībai izmantojam tulkotāju gatavotus teikumu tulkojumus. Vienas (vispārējas jomas) sistēmas apmācībai parasti tiek izmantoti 10–30 miljoni teikumu pāru.

2019. gada otrajā pusē atbalstījām Somijas prezidentūru Eiropas Savienības Padomē. Angļu-somu sistēmu apmācībai tika izmantoti apmācības dati, kas sastāvēja no 22,7 miljoniem teikumu pāru. Angļu valodas pusē šajos 22,7 miljonos teikumu bija 374,2 miljoni tekstvienību (vārdu, pieturzīmju, skaitļu). Lai šādu apjomu sagatavotu, vienam tulkotājam būtu jāstrādā apmēram 409 gadus. Viena cilvēka dzīves laikā nav iespējams sagatavot šādu datu apjomu.

Cik tālu esat savā mašīntulkošanas tehnoloģiju izstrādē? Kā šī tehnoloģija attīstīsies nākotnē?

Mašīntulkošanas sistēmas, kā visas mākslīgā intelekta sistēmas, ir paredzētas konkrētiem lietojumiem. Vispārējās sistēmas, kuras tiek publiski piedāvātas (piemēram, “Tildes birojā” un translate.tilde.com), ir domātas, lai lietotājiem ļautu piekļūt informācijai, t. i., sistēmas dod iespēju iztulkot jebkādu tekstu tā, lai lietotājs varētu saprast, kas tekstā ir rakstīts. Jāņem vērā, ka vispārējās sistēmas nav informētas par nozarēm specifisku terminoloģiju un specifiskiem rakstības stiliem, tāpēc tās var kļūdīties. Klientiem, kuriem ir nepieciešamas sistēmas kādai konkrētai jomai (piemēram, medicīnas tekstu tulkošanai), izstrādājam īpaši pielāgotas sistēmas, kuras pārvalda konkrētās jomas terminoloģiju un rakstības stilus.

Mašīntulkošanas sistēmas mūsdienās ir sasniegušas jau tādu līmeni, lai tulkotājiem darbu būtu iespējams veikt ātrāk, izmantojot mašīntulkošanas sistēmas, nevis tulkojot tekstu no nulles. Tas, ka mašīntulkošanas sistēma sagatavo tulkojuma uzmetumu, ļoti atvieglo darbu un, kā atzinīgi ir teikuši Somijas prezidentūras tulkotāji pagājušā gada nogalē, ļauj veltīt laiku citiem jautājumiem, piemēram, teksta harmonizēšanai.

Pie kā pašreiz strādājat? Kādas problēmas mašīntulkošanā vēl nav atrisinātas?

Pašreiz strādājam pie tā, lai iemācītu neironu mašīntulkošanas sistēmām labāk tulkot terminus, cenšamies sistēmām iemācīt būt noturīgākām situācijās, kad lietotāji pārrakstās vai arī raksta gramatiski nepareizi. Vēl mēģinām izstrādāt risinājumu, kas ļaus neironu mašīntulkošanas sistēmām mācīties no lietotāju labojumiem (ar uzsvaru gan uz profesionāliem tulkotājiem). Tāpat pētām runas tulkošanas metodes, lai klientiem varētu piedāvāt ne tikai teksta tulkošanas, bet arī runas, t. i., audiosignāla, tulkošanas iespējas.

Pašreizējās neironu mašīntulkošanas metodes vēl nerisina dažas problēmas. Piemēram, situācijās, kad datos kaut kas ir sastopams ļoti reti (kā mēdz būt ar personvārdiem, vietvārdiem un dažādām nozarēm specifiskiem terminiem), neironu mašīntulkošanas sistēmas nespēj iemācīties šādus vārdus tulkot pareizi. Paredzu, ka tuvākā vai tālākā nākotnē pētnieki nopietni ķersies klāt šīs problēmas risināšanai.

Otra problēma – pašreiz publiski pieejamās sistēmas dokumentus, kas sastāv no vairākām rindkopām/teikumiem, tulko atsevišķi pa vienam teikumam, neanalizējot kontekstu. Nākotnē redzēsim sistēmas, kas spēj tulkot uzreiz veselus dokumentus, tādējādi nodrošinot daudz plūstošākus un precīzākus dokumentu tulkojumus.

“Tildes” vadītājs Andrejs Vasiļjevs ir izteicies, ka latviešu valodas iedabūšana datorā nav tikai bizness, to var saukt par misiju.

Taisnība! Lai valodas pastāvētu un tiktu lietotas digitālajā vidē, tām ir jānodrošina tehnoloģiskais atbalsts visās tehnoloģijās, kādās tās tiek lietotas. Piemēram, šobrīd ar tādiem risinājumiem kā “Google Home” vai “Amazon Alexa” nav iespējams sarunāties latviski. Tas nozīmē – tie, kas šos produktus lieto, latviešu valodu nevar izmantot, pat ja gribētu to darīt. Ja šīs tehnoloģijas sāks arvien vairāk ienākt mūsu mājās, pamazām sāksim valodu izstumt no aprites. Tādēļ aktīvi strādājam, lai latviešu valodai nodrošinātu dažādu valodas tehnoloģiju atbalstu.

“Tildes” piedāvājumu klāstā ir arī citi izgudrojumi, kā virtuālais asistents “Laura” (piedāvā iespēju uzdot jautājumus un saņemt informāciju par bibliotēku pakalpojumiem), Uzņēmumu reģistra virtuālais asistents “Una” un Valsts ieņēmuma dienesta virtuālais asistents “Toms”. Tie ir tā sauktie sarunboti, kas palīdz uzņēmumiem komunikācijā ar klientiem. Ko tie prot, kādā līmenī var sarunāties un sniegt konsultācijas? Ko tie pratīs pēc dažiem gadiem?

Tas, ko sarunbots vai virtuālais asistents prot, ir atkarīgs no tā, kādam mērķim tas ir paredzēts. “Laura”, kas pieejama mobilajās lietotnēs, ir paredzēta, lai uzturētu sarunu. Viņai nav precīzi definēts kāds konkrēts mērķis. Viņa spēj atbildēt uz sarunvalodas jautājumiem, pārtulkot tekstu no angļu valodas uz spāņu valodu, atrast dažādas atbildes dažādās datubāzēs (piemēram, Vikipēdijā).

“Una” un “Toms” savukārt ir jaunākas paaudzes risinājumi, kas paredzēti mērķorientētiem dialogiem. Viņu uzdevums ir atbildēt lietotājiem uz jautājumiem par un ap Uzņēmumu reģistru un Valsts ieņēmumu dienestu. Šie virtuālie asistenti ir izstrādāti, izmantojot spējīgākas dabiskās valodas sapratnes metodes, kas izmanto neironu tīklus. Šie asistenti spēj arī uzturēt dialogu, kuram ir nepieciešamas vairākas mijiedarbības ar lietotāju, kā arī atcerēties lietotāja iepriekš rakstīto. Protams, šiem asistentiem ļoti svarīga ir dialogu pārvaldība – kādam ekspertam ir jādefinē, par kādām tēmām lietotāji varēs uzdot jautājumus un kādas atbildes tie varēs sniegt.

Kā mākslīgais intelekts un valodu tehnoloģijas turpinās palīdzēt uzlabot valsts pārvaldi? Vai tā ir valsts pārvaldes nākotne?

Viens no valsts pārvaldes uzdevumiem ir nodot informāciju iedzīvotājiem. Mākslīgais intelekts paplašina iespējas piekļūt informācijai, piemēram, ārzemniekiem – ar mašīntulkošanas risinājumu palīdzību.

2018. gada decembrī tika publicēta “Tildes” izstrādātā valsts pārvaldes valodas tehnoloģiju platforma www.hugo.lv, kas sevī ietver gan mašīntulkošanas, gan runas atpazīšanas un sintēzes risinājumus, kuri ļauj gan automatizēt dažādu sanāksmju un sēžu protokolēšanu, gan piekļūt datoram cilvēkiem ar ierobežotām iespējām.

Jāsaprot – katra tehnoloģija ir jāattīsta. Mainās tēmas un problēmas, par kurām runājam, arī valoda nav statiska.

Mākslīgais intelekts ļauj aizvietot cilvēkresursus situācijās, kad tie kādu funkciju veikšanai nav pieejami vai arī būtu izšķērdīgi cilvēkiem likt veikt kādas funkcijas, kuras var veikt mākslīgais intelekts.

Tehnoloģijas savulaik ļāva mehanizēt fizisko darbu, tagad tās ļauj automatizēt intelektuālo darbu. Ko ar laiku spēs mākslīgais intelekts? Vai pilnībā aizstāt cilvēku vai tomēr tikai darīt rutīnas darbu?

Ir grūti prognozēt, kādi darbi izzudīs pilnībā, bet viena daļa noteikti transformēsies. Skaidrs, ka dažos amatos nepieciešamo cilvēku skaits samazināsies. Piemēram, nebūs vajadzīgi tik daudzi šoferi, jo ienāks autonomo automašīnu tehnoloģijas. Ar laiku komplicētāks darbs varētu kļūt operatoriem, kuri atbild uz jautājumiem, – viņi varētu nodarboties ar sarežģītu jautājumu risināšanu, nevis atbildēt uz rutīnas jautājumiem.

Tulkotāja darbs jau tagad transformējas un pamazām saplūst ar redaktora darbu. Lai arī tulkošanu varam noformulēt matemātiski, literāru darbu tulkošanu neveido tikai tulkošana vien. Literāra darba tulkotājs tekstu adaptē valodai. Šo adaptēšanas jeb radošo procesu vēl neprotam formulēt matemātiski.

Lai veiktu kādu darbību, bieži ir jāzina arī ārēja informācija, kas mākslīgajam intelektam var nebūt zināma. Piemēram, lai iztulkotu vārdu “ceļu” (vai tas ir vārds “ceļš” akuzatīva formā vai vārds “celt” īstenības izteiksmes tagadnes formā) vai teikumu “Es ēdu!” (vai darbības vārds “ēdu” ir tagadnes vai pagātnes formā?), ir jāzina konteksts. Bieži konteksts sistēmai nav pieejams. Tāpēc var būt nepieciešams cilvēks, kas mākslīgo intelektu pakoriģē situācijā, ja tas kļūdās.

Mākslīgā intelekta metodes turpinās attīstīties un uzlaboties. Pēdējie gadi dabiskās valodas apstrādes jomā ir bijuši ļoti strauji.