Personal tools
You are here: Home Projektid TÜ eesti keele tesauruse (eesti wordneti) täiendamine

TÜ eesti keele tesauruse (eesti wrdneti) täiendamine

Wordnet-tüüpi tesaurus kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid mõisteliselt sisuseoseid (semantilisi seoseid) pidi. Arvutis eksisteerib tesaurus andmebaasina, kus sisaldub info nii märksõnade tähenduste kui nendevaheliste seoste kohta. 

Tuntuim ja põhimõtteline eeskuju teistele tesaurustele on Princetoni Ülikoolis loodud WordNet (WN, http://wordnet.princeton.edu/), mida loojad iseloomustavad kui “leksikaalsete viidete süsteemi, mille ülesehitus põhineb psühholingvistilisetel teooriatel inimpsüühika leksikaalsest organisatsioonist ja mälust.”(Beckwith jt 1990). Wordnet-tüüpi tesauruseid kui leksikaal-semantilisi andmebaase on maailmas loodud erinevate keelte jaoks u 50  (vt http://www.globalwordnet.org/gwa/wordnet_table.htm) ja neid luuakse veelgi, kuna tegemist on väärtusliku keeletehnoloogilise ressursiga. Keele leksikaal-semantiline andmebaas, kus lisaks sõnade tähenduste eristamisele on fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui rakendusteks nagu sisupõhine infootsing, automaatne refereerimine, masintõlge, keeleõpe.
Eesti keele tesauruse loomine käivitati 1998 aastal EuroWordNeti projekti (http://www.illc.uva.nl/EuroWordNet/) käigus, kus samade põhimõtete järgi koostati 8 erineva keele tesaurused. EstWN koostamise töid tehti natuke ka pärast projekti lõppu, kuid rahastamiseks eraldi projekti polnud, siis töö soikus.
Riikliku keeletehnoloogia projekti eesmärgiks on andmebaasi laiendamine, täiendamine ja täiustamine. Eesmärgiks oleme võtnud kvalitatiivse lähenemise, mistõttu enamus tesauruse mahu suurendamise töid tehakse käsitsi.

Eesti wordnetis on praeguse seisuga (aprill 2010) u 33 000 mõistet. Tähendusüksuste vahel kehtestatakse 45 erinevat semantilist seost, nagu alam-/ülemmõisted, antonüümia, osa-terviku suhe jms. Eestikeelsed mõisted on seotud ka nende inglisekeelsete vastetega. Eesti keele tesauruse lehitsemiseks töötavad lingid http://www.cl.ut.ee/ressursid/teksaurus/ või www.keeleveeb.ee.

 

 

 

 

 

Document Actions