Eesti emotsionaalse kõne korpus
Mis on eesti emotsionaalse kõne korpus?
Eesti emotsionaalse kõne korpus (EEKK) on Eesti Keele Instituudis riikliku programmi "Eesti keele keeletehnoloogiline tugi" raames loodav korpus, mis sisaldab loetud viha-, rõõmu- ja kurbuselauseid ning neutraalseid lauseid.
Korpus toetub seisukohale, et emotsioonid on hääle põhjal piisavalt hästi ära tuntavad loomulikus mittenäideldud kõnes, ja et mittenäideldud kõne on loomuliku kõnesünteesi eeldus, vt Iida et al. 2003.
Korpusel on kaks eesmärki:
- olla korpuspõhise emotsionaalse tekst-kõne sünteesi akustiline baas;
- olla usaldusväärne andmekogu kõnes ja kirjas avalduvate emotsioonide uurimiseks.
Korpuse usaldusväärsus tagatakse kuulamis- ja lugemistestidega: iga korpuse lause on varustatud testiandmetega emotsiooni äratuntavuse kohta.
Korpuses on testitud u 1700 lauset. Uute lausete salvestamine, tajutestimine ja segmenteerimine jätkub.
Korpus on igati laiendatav: lugejatega, lausetega, emotsioonidega jne.
Korpuse kohta üksikasjalikumalt vt Altrov 2007; 2008; Altrov, Pajupuu 2008; 2010; 2011 ilmumas.
Korpuse tehniline teostus
Korpus on teostatud veebipõhise rakendusena kasutades vabavara: Linux, PostgreSQL, Python, Praat. Kõik andmed peale helifailide on salvestatud PostgreSQL andmebaasi. Veebiliides ja kogu andmetöötlus on teostatud kasutades programmeerimiskeelt Python ja veebikeskkonda Pylons. Rakendus on installeeritav nii Windows kui ka Linux keskkonda. Veebiliides on eesti-, inglise-, soome- ja lätikeelne ning lihtsalt kohandatav ka teistele keeltele.
Tavakasutaja praegused võimalused ja päringud
Korpusest saab otsida viha, rõõmu või kurbuse emotsiooni kandvaid lauseid ja neutraalseid lauseid.
Laused kuvatakse tekstina ja need on klikates kuulatavad
Lause juures kuvatakse emotsiooni tuvastusprotsent.
Tuvastusprotsendi saab ette anda, alates millest lauseid otsitakse.
Päringutes saab seada piirangu, et soovitakse ainult neid lauseid, kus
- tekst ei mõjuta lause emotsiooni tajumist
- tekst mõjutab lause emotsiooni tajumist
Lausete teksti, heli (wav) ja märgenduse (TextGrid) saab endale salvestada.
Kirjandus
Altrov, Rene. Emotsionaalse kõne korpuse loomine eesti keele tekst-kõne sünteesi jaoks. Tekstimaterjali evalvatsioon viha näitel. Magistritöö. Tartu Ülikool, 2007. link
Altrov, Rene. 2008. Eesti emotsionaalse kõne korpus: teoreetilised toetuspunktid. Keele ja Kirjandus 4, 261 - 271. link
Altrov, Rene & Pajupuu, Hille 2008. The Estonian Emotional Speech Corpus: release 1. The Third Baltic Conference on Human Language Technologies. Vytauto Didžiojo Universitetas; Lietuviu kalbos institutas, 9 - 15.
Altrov, Rene & Pajupuu, Hille 2010. Estonian Emotional Speech Corpus: Culture and age in selecting corpus testers. Inguna Skadina, Andrejs Vasiljevs (Eds.). Human Language Technologies - The Baltic Perspective - Proceedings of the Fourth International Conference baltic HLT 2010. Amsterdam: IOS Press, 25 - 32.
Altrov, Rene & Pajupuu, Hille 2011, ilmumas. Estonian Emotional Speech Corpus: Content and options. Marina Bondi (Ed.) R.I.L.A. - Rassegna Italiana di Linguistica Applicata 1-2.
Boersma, Paul & Weenink, David 2007. Praat: doing phonetics by computer (Version 4.6.21) [Computer program]. Retrieved September 4, 2007.
Iida, Akemi; Campbell, Nick; Higuchi, Fumito; Yasumura, Michiaki 2003. A corpus-based speech synthesis system with emotion. Speech Communication 40, 161–187.
Kuula
