Isiklikud vahendid
Oled siin: Algus EKT projektid Kõnetuvastus 2011. a töö kokkuvõte

2011. a töö kokkuvõte

Mobiilirakendused

2011. a valmis projekti raames kolm kõnetuvastustehnoloogial põhinevat rakendust Android nutitelefoniplatvormile. Rakendus “Kõnele” lubab eestikeelse kõne abil sisestada teksti kõikides Androidi rakendustes. Seda saab kasutada näiteks sõnumite, e-kirjade, märkmete ja muude dokumentide dikteerimiseks, kaardirakenduses aadressiotsinguks ja paljuks muuks. Rakendus “Arvutaja” kasutab samuti eestikeelset kõnetuvastust, kuid oskab ka kasutaja poolt öeldule arukalt reageerida: selle abil saab teha matemaatilisi tehteid (näiteks käsk “viis pluss kuus” annab vastuseks “11”), teha ühikuteisendusi (näiteks “viis miili kilomeetrites” annab vastuseks “8.04”), otsida Eesti kohanimesid ja Tallinna aadresse (näiteks päring “Akadeemia tee 21, Tallinn” suunatakse kaardirakendusse, mis näitab otsitud aadressi). Rakenduse “Diktofon” abil saab salvestada pikki kõnelõike (näiteks intervjuud) ning neid automaatselt tekstiks teisendada. Rakendus võimaldab märksõnade põhjal ka juba transkribeeritud salvestustest otsida, tuvastatud teksti e-kirjana edasi saata jpm. Kõik kolm rakendust on Androidi rakendustepoes tasuta kättesaadavad. Lisaks sellele on tasuta ja vaba tarkvara litsentsi alusel saadaval ka rakenduste lähtekood, mis võimaldab eesti kõnetehnoloogiat lihtsalt integreerida ka teistesse muude arendajate poolt loodavatesse rakendustesse. Rakendusi on alla laetud kokku üle 10000 korra.

Lingid:

Lähtekood::

Demo: http://www.youtube.com/watch?v=cLRiWgT85Fg

Reaalajalise kõnetuvastuse server

Mobiilirakendused “Kõnele” ja “Arvutaja” kasutavad kõnetuvastuseks 2011. a implementeeritud reaalajalise kõnetuvastuse serverit. Server on mõeldud lühikeste, kuni umbes 20-sekundiliste kõnelõikude tuvastamiseks. Serveri arhitektuuri väljatöötamisel seati üheks eesmärgiks võimalikult väike latentsus – sisendlausele peaks tuvastustulemuse saama võimalikult ruttu, tüüpiliselt paar sekundit peale lause lõppu. Serveri suhtlusprotokoll on seda vajadust silmas pidades kavandatud. Server kasutab Pockesphinx kõnetuvastusmootorit. Server võimaldab kasutada keelemudelina nii statistilist mudelit kui ka JSGF või Grammatical Framework formaadis grammatikat. Serveri kasutajad saavad uusi grammatikaid ise üles laadida ning tuvastuseks kasutada. Grammatical Framework formaadis grammatika kasutamisel on võimalik ka tuvastatud lause tõlkimine sisendkeelest mingisse teise antud grammatikas implementeeritud keelde. Server on vaba lähtekoodiga. BSD litsents lubab seda vabalt muuta ja kasutada ka kommertsrakendustes. Implementeeriti ka Java teek serveri kasutamise hõlbustamiseks.

Lingid:

Juhendamata andmete kasutamine

Üheks 2011. aastaks seatud eesmärgiks oli juhendamata teel saadud andmete kasutamine akustilise ja keelemudeli treenimiseks. Selle ülesande raames eksperimenteeriti Riigikogu stenogrammide rakendamisega akustiliste mudelite treenimiseks. Riigikogu stenogrammid on traditsiooniliselt akustiliste mudelite treenimiseks kasutatavate transkriptsioonidega võrreldes ebatäiuslikud: seal esineb suhteliselt palju lahknevusi tegelikust kõnest, puuduvad usaldatavad sünkronisatsioonipunktid heli ja teksti vahel, täidetud pausid ei ole transkribeeritud. Nende probleemide lahendamiseks implementeerisime pikkade ja ebatäiuslikult transkribeeritud helisalvestuste transkriptsiooni ja heli sünkroniseerimise süsteemi, mis kasutab juba olemasolevaid kõnetuvastusmudeleid selleks, et leida sellised helilõigud, mille transkriptsioon on usaldatav. Selle süsteemi abil konstrueerisime Riigikogu mitme istungijärgu põhjal u. 80-tunnise kõnekorpuse, mida kasutasime uute akustiliste mudelite treenimiseks. Riigikogu stenogrammide kaasabil treenitud akustilised mudelid ei osutunud siiski juba olemasolevatest mudelitest paremateks. Vastupidi, enamike testide puhul (raadiote vestlussaated, konverentsisalvestused) kõnetuvastuskvaliteet halvenes. Selle põhjuseks võib olla Riigikogu salvestuste heli madalam digitaliseerimissagedus (12 kHz), erinevate kõnelejate vähesus, üksikute kõnelejate domineerimine ja Riigikogus kasutatav kõnestiil (tüüpiliselt dikteeritud kõne).

Juhendmata andmete kasutamine andis siiski häid tulemusi mobiilirakenduste juures. Esialgu kasutasime reaalajalise tuvastuse serveris, mida kasutavad rakendused “Kõnele” ja “Arvutaja”, raadiote vestlussaadetele optimeeritud mudeleid. Nädal pärast rakenduste avalikustamist võtsime serveri logidest kõik tuvastuseks saadetud helifailid, ning transkribeerisime need täpse ja mitmesammulise tuvastusmootori abil. Saadud (vigaste) transkriptsioonide põhjal lõime uued, mobiilirakendustele adapteeritud akustilised mudelid ning optimiseerisime ka statistilise keelemudeli. See andis märgatava tuvastuskvaliteedi paranemise – tuvastuvigade osakaal (word error rate) langes 44%-lt 29%-le.

Pikkade kõnesalvestuste tuvastamise kvaliteet

Tänu aasta jooksul tehtud täiustustele ning uute treeningandmete lisandumisele paranes ka pikkade kõnesalvestuste transkribeerimise kvaliteet. Allolevas tabelis on toodud sõnavigade osakaal mitme erinevat tüüpi testvalimi puhul (kasutades kolmesammulist adapteerimisega tuvastust). Võrdluseks on toodud ka 2010. a lõpu seis:

  • Raadiote vestlussaated (2009. a testkorpus): 26,1 (2010: 28,6)
  • Raadiote vestlussaated (2011. a testkorpus): 27,1 (2010: -)
  • Konverentsiettekanded: 33,9 (2010: 37,1)
  • Telefoniintervjuud raadios: 29,1 (2010: -)

 

 

Tegevused dokumentidega