Eestikeelne korpuspõhine kõnesüntees
Motivatsioon
Aastatel 1997-2002 töötati välja eestikeelne tekst-kõne süntesaator. See kuulub korpuspõhiste kõnesüntesaatorite esimesse põlvkonda, kus igale sünteesis kasutatavale kõneüksusele vastab difoonide andmebaasis täpselt üks kindel häälikult häälikule üleminek (difoon). Süntesaatori väljundkõne on arusaadav, puudusteks monotoonsus, masinlik kõla ja halb sidusus.
Projekti eesmärk ja olulisemad ülesanded
Projekti eesmärgiks on luua kõrgekvaliteediline eestikeelne tekst-kõne süntesaator, mis baseeruks keskmise suurusega (kuni üks tund kõnematerjali) kõnekorpusel. Sellel üksuste valikul põhineval sünteesil on kogu kõnekorpus sünteesi akustiliseks baasiks. Kõneüksuste valikul alustatakse korpuse kõrgematest hierarhilistest tasanditest (fraas, sõna, kõnetakt), eelistades võimalikult pikki kõnestringe, mis minimeeriksid kõnesignaali ühenduspunktide arvu.
Korpuspõhise sünteesi loomine eeldab järgmiste ülesannete lahendamist:
- tekstikorpuse loomine;
- kõnekorpuse salvestamine professionaalsete diktorite esituses;
- kõnekorpuse märgendamine ja segmenteerimine eri tasanditel (fraas, sõna, kõnetakt, silp, foneem);
- korpuse esitamine fonoloogiliste struktuuridena, mida on võimalik kasutada valikalgoritmi realiseerivas programmis;
- kõneüksuste füüsikaliste (kestus, põhitoon, intensiivsus) ja lingvistiliste (üksuse naabrus, asend lausungis, rõhulisus, välde jm) parameetrite väärtuste määramine;
- kõneüksuste valikalgoritmide loomine;
- kõneüksuste heuristilise valiku ja signaalide ühendamise süsteem;
- kõnesignaali füüsikalisi ja lingvistilisi omadusi arvestavate heuristikute määramine tajukatsete meetodil;
- kõnesüntesaatori realiseerimine Festival - Multisyn arenduskeskkonnas;
- kõne ajalise struktuuri ja põhitooni modelleerimine statistiliste meetodite abil.
Projektiga seonduvad publikatsioonid:
- Piits, Liisi; Mihkla, Meelis; Nurk, Tõnis; Kiissel, Indrek (2007). Designing a speech corpus for Estonian unit selection synthesis. In: Nodalida 2007 Proceedings: The 16th Nordic Conference of Computational Linguistics. 2007, 367 - 371.
- Mihkla, Meelis (2007). Kõne ajalise struktuuri modelleerimine eestikeelsele tekst-kõne sünteesile - Modelling the temporal structure of speech for the Estonian text-to-speech synthesis., Tartu Ülikool) Tartu: Tartu Ülikooli Kirjastus.
Lisainfo projekti käekäigu kohta. Loodavad ressursid ja sünteesimoodulid on jooksvalt väljas tekst-kõne sünteesi koduleheküljel.
