Kolmapäeval KUKUs: keeletehnoloogiad

Saatekülaline Einar Meister saatis 16.10.2002 Tehnokrati tarbeks veidi olu- & tulevikukirjeldust mille tema lahkel loal ka siinkohal avaldame. [pets]

KUKUs 16.10.2002 tahaks rääkida kolmest teemast:

  1. Keeletehnoloogia arengust pisut laiemalt
  2. Uuest eestikeelsest kõnesüntekast
  3. Kõnetuvastuse andmebaasi projektist

Keeletehnoloogia areng maailmas on evolutsiooniline, mitte revolutsiooniline (nagu näiteks geenitehnoloogia). Aastakümneid on kestnud uurimistöö kõne ja keele seaduspärasuste selgitamiseks, pidevalt on kasvanud keeleressursside (teksti ja kõnekorpused) maht, on loodud ja täiustatud matemaatilisi mudeleid kõnesünteesiks-tuvastuseks, automaatseks tõlkeks, teksti morfoloogiliseks, süntaktiliseks ja semantiliseks analüüsiks. Samaaegselt on kiirelt edasi arenenud elektroonikatööstus ja arvutusvõimsused on kahekordistunud iga pooleteise aasta järel.

See kõik kokku loonud soodad tingimused keeletehnoloogia reaalseks rakenduseks igapäevaelus. Suuremate keelte puhul on arvutiga inimkeelse dialoogi pidamine juba täiesti reaalne. Veendusin selles 26.-27.09.2002 Berliinis toimunud konverentsil Language Technology’2002 (http://www.lang-tech.org/page-1029.shtml)

Konverents näitas, et kõnesünteesi- ja tuvastuse probleemid on rakendusi võimaldava kvaliteediga lahendatud (vähemalt inglise, saksa ja prantsuse keele puhul) ja tehnoloogia loomulikus keeles suhtlemist võimaldavate rakenduste loomiseks on küps.

Eriti muljetavaldavad olid Daimler-Crysler uurimislaboris S-klassi Mercedese tarvis loodud multimodaalse liidesega kommunikatsioonisüsteem (asukoha määramine, navigatsioon, hotelliotsing, telefoni-, e-maili ja Interneti teenused) ning Saarbrückeni Ülikooli tehisintellekti laboris väljatöötatud multimodaalsel kommunikaatoril SmartKom (http://www.smartkom.org/start_en.html) baseeruvad teenused.

Mitmed firmad esitlesid oma dialoogirakenduste tarvis loodud tehnoloogiat (kõnesüntees ja -tuvastus ning kõneleja verifitseerimine) ja edukamaid rakendusi panganduse ning infootsingu valdkondades.

Kommunikatsioonitehnoloogiat arendatakse Star Trek’i visiooni suunas – seadmel on ainult üks nupp, millele vajutades käivitab masin dialoogi, st. küsib, kuidas ma saan sulle kasulik olla. Asjad on juba peaaegu et testimisfaasis ja paari aasta pärast on see reaalselt kasutatav. See tähendab, et paari aasta pärast võime osta ühe nupuga mobiiltelefoni, kus numbrivalik käib ainult kõnega ja mobiili teel teostatavad automatiseeritud teenused kasutavad piiramatu või väga suure sõnastikuga kõnetuvastust. See saab olema tõeline murrang kommunikatsioonitehnoloogias, sest see värk on kõik keele-spetsiifiline. St., et kui meil selleks ajaks ei ole olemas inglise keelega võrreldaval tasemel kõnetuvastust, siis ei ole meil eesti keelega enam midagi peale hakata.

Nagu öeldud, on keeletehnoloogia areng oma olemuselt evolutsiooniline ja samad etapid, mis on läbi käidud inglise, saksa või prantsuse keeles, tuleb paratamatult läbi käia iga keele puhul. Konverentsil kuuldu-nähtu kontekstis on Eesti keeletehnoloogia mahajäämus valdkonniti 5 kuni 10 aastat. Me ei saa üle võtta inglise keele jaoks loodud tehnoloogiat ja lihtsalt kohandada seda eesti keele jaoks. Meil tuleb teha omakeelne kõnesüntees, kõnetuvastus ja kõik muud loomulikuks dialoogiks vajalikud komponendid.

Eestikeelse kõnesünteesi arengus toimus üks oluline vahefiniš eelmisel nädalal, kui tuli välja eestikeelse kõnesüntesaatori uus SAPI-põhine versioon. See töötati välja EL Phare Access-programmi poolt finantseeritud projekti raames, mille eesmärgiks oli nägemispuuetega arvutikasutajale sobiva sünteesirakenduse tegemine. Pimedad kasutavad arvutiga töös ekraanilugemisprogramme, näiteks JAWS, mis vahendavad kõnena arvuti ekraanil olevat infot. Ekraanilugemisprogramm eeldab vastava keele kõnesüntesaatori olemasolu arvutis, senini kasutasid eesti pimedad põhiliselt soomekeelset süntesaatorit, mis luges eesti keelt küll tugeva soome aktsendiga, kuid pimedad said sellest siiski üsna hästi aru.

Eestikeelse kõnesünteesi prototüüp oli meil juba paar aastat tagasi olemas tänu keeletehnoloogia sihtprogrammi poolt finantseeritud projektidele, kuid puudus SAPI-standardile vastav liides. Access-projekti käigus loodi eesti süntekale SAPI-liides, parandati oluliselt kõnesünteesi kvaliteeti ja testiti süntekat pimedate arvutikasutajate poolt. Tulemuseks oli pimedatele sobiv eestikeelse kõnesünteesi programm.

Siinkohal oleks sobiv ette lugeda kõik projekti partnerid:

  • sünteesitegijad: Eesti Keele Instituut (Meelis Mihkla, Indrek Hein) Filosoft (Heiki-Jaan Kaalep, Tarmo Vaino, Rene Prillop) Küberneetika Instituut (Einar Meister, Arvo Eek, Jürgen Lasn, Lya Meister);
  • testijad: Tartu Emajõe Kool (Jaan Aruväli koos õpilastega) ja Artur Räpp TPÜst;
  • finantseerijad: EL Phare ACCESS programm, Soome Pimedate Keskliit;
  • rakendajad-levitajad: Põhja-Eesti Pimedate Ühing, Eesti Pimedate Liit.

Tegelikult on projekti tulemus hoopis suurem – jahiti jänest, kuid lasti karu!

Tänu SAPI-liidesele on sünteesiprogramm lihtsalt integreeritav suvalisse Windows-keskkonna rakendusse ja see loob võimaluse hakata arendama mitmesuguseid sünteeskõnet kasutavaid teenuseid. Näiteks, Peeter Marveti poolt tehtud demorakendus SMS-raadio oskab tuua POP3-sevrerist e-posti, saabunud sõnumeid suvalises järjekorras ette lugeda (vajadusel eelnevalt editeerides), tõmbab endale taskbaril tähelepanu kui post on saabunud, kustutab loetud sõnumid, kirjutab logisse sõnumid, mis eetrisse loetud jne.

Eestikeelse kõnetuvastuse loomisega on asjad palju kurvemad. Selle aasta kevadel kaitsti TTÜs üks magistriväitekiri eestikeelse numbrituvastuse prototüübi loomise teemal, milles kasutati maailmas kõnetuvastuseks laialt rakendatud statistilisi mudeleid (HMM-Hidden Markov Models). See on hea lähtekoht kõnetuvastuse edasiarenduseks. Kuid praegu puudub meil selleks vajalik suuremahuline andmebaas.

Projekt sellise andmebaasi loomiseks käivitati TTÜ Küberneetika Instituudi foneetika ja kõnetehnoloogia laboris selle aasta alguses. Finantseerijaks on Eesti riik läbi Kultuuriministeeriumi ja Haridusministeeriumi.

Projekti eesmärgiks on vähemalt 1000 eesti keelt kõneleva isiku kõnenäidete salvestamine erinevate telefonikanalite kaudu.

Aasta esimene pool on kulunud salvestusteks vajaliku tehnoloogilise keskkonna loomiseks, salvestatavate tekstide koostamiseks, automaatse salvestusprogrammi seadistamiseks, diktorite registreerimissüsteemi väljatöötamiseks, jne.

Tänaseks on asjad nii kaugel, et käivitame aktiivse registreerimiskampaania ja selle alguseks võibki lugeda tänast esinemist KUKU Tehnokrati saates. Igal inimesel on võimalus kaasa aidata eesti keeletehnoloogia arengule osalemisega andmebaasi salvestustes.

Kuidas see käib?

Kõigepealt tuleb end registreerida projekti kodulehel www.phon.ioc.ee/base

Seejärel saadetakse teile kas posti või e-maili teel salvestuseks vajalikud juhised ja tekstid, samuti telefoninumbrid, kuhu helistada. Teie kõnele vastab automaatne salvestuskeskus ja teil palutakse ette lugeda teile saadetud tekstid, mis sisaldavad numbreid, isikunimesid, linnade ja valdade nimesid, arvutitermineid, lauseid, rahaühikuid, kellaaegasid, kuupäevi, jne. Salvestus kestab umbes 20 minutit ja see on EMT ja ET numbritelt helistajale tasuta.

Projekti toetab EMT, kes on andnud selleks spetsiaalse telefoniliini ja garanteerib EMT ja ET klientidele tasuta helistamise salvestuskeskusesse. Läbirääkimised käivad ka Tele2 ja Radiolinja’ga võimaldamaks ka nende klientidele tasuta helistamist.

Registreerimine salvestustes osalemiseks on praegu avatud, salvestusjuhised ja -tekstid saadetakse laiali paari nädala pärast, salvestused algavad novembrikuus.

Ootame aktiivset osavõttu!!!

Postitatud rubriiki Arhiiv. Talleta püsiviide. Kommenteerimine ja trackback-viidete lisamine ei ole lubatud.