Kõnekeele ressursid ja kõnetehnoloogia andmebaasid
Põhitulemused
Uudistekorpus
Korpus sisaldab ca 300 tundi Eesti Raadio lühiuudiste salvestusi ja üle 8000 lk digitaliseeritud uudistetekste. Korpuse märgendamiseks on välja arendatud töökeskkond vabavaralise programmi Transcriber (http://trans.sourceforge.net) baasil, märgendatud on 30 tundi uudistesalvestusi. Märgendamine koosnes kahest etapist: 1. automaatse kõnetuvastuse abil genereeriti signaalifailidele vastavad tekstifailid, 2. Transcriberi abil kontrolliti automaatselt tuvastatud tekstide ja salvestuste vastavust ning korrigeeriti käsitsi tuvastusvead. Korpus on kättesaadav LAMUS-süsteemi kaudu.
Vestlussaadete korpus
Korpus sisaldab ca 20 tundi raadiote vestlussaadete (Rahvateenrid, Olukorrast riigis, Reporteritund, Kukkuv õun, Vastasseis, Linnatund, Välismääraja, Nädala tegija jt) salvestusi, mis kõik on käsitsi märgendatud (Transcriberi abil). Korpus on kättesaadav LAMUS-süsteemi kaudu.
Loengukõne korpus
Korpus sisaldab umbes 350 tundi eri ainevaldkondade akadeemiliste loengute salvestustusi (erinevate lektorite arv on 33) ja üle 20 tunni konverentsiettekandeid (45 isikut). Konverentsiettekannetest on märgendatud (Transcriberi abil) 24 isiku salvestused kogumahuga ca 13 tundi. Korpus on kättesaadav LAMUS-süsteemi kaudu.
Aktsendikorpus
Aktsendikorpus sisaldab eri emakeelega inimeste eestikeelse kõne salvestusi. Salvestatud on umbes 160 keelejuhi kõnematerjal, kelle keeletaust on järgmine: vene (50), soome (30 keelejuhti), saksa (15), prantsuse (12), itaalia (5), inglise (4), leedu (3), hispaania (2), taani (2), hollandi (2), slovaki (2), jaapani (2), hindi (2), rootsi (1), poola (1), läti (1), šoti (1), iiri (1), aserbaidžaani (1), portugali (1), võrdlusmaterjalina on salvestatud 20 eesti emakeelega keelejuhi kõnenäited. Korpus on kättesaadav LAMUS-süsteemi kaudu.
Infrastruktuuri kaasajastamine
On välja ehitatud ja sisustatud kõnesalvestusstuudio, kõnekorpuste tarvis on paigaldatud eraldi server. Kõnekorpuste haldamiseks ja neile ligipääsu loomiseks on kohandatud Hollandis Max Planck’i Psühholingvistika Instituudis välja töötatud korpuste haldussüsteem LAMUS (Language Archive Management and Upload System, http://www.lat-mpi.eu/tools/lamus/).
Vaata projekti kodulehte http://www.phon.ioc.ee/dokuwiki/doku.php?id=projects:ressursid:ressursid.et
