Název:
Rozšíření lexikální sítě DeriNet
Překlad názvu:
Extending the Lexical Network DeriNet
Autoři:
Vidra, Jonáš ; Žabokrtský, Zdeněk (vedoucí práce) ; Hlaváčová, Jaroslava (oponent) Typ dokumentu: Bakalářské práce
Rok:
2015
Jazyk:
eng
Abstrakt: [eng][cze] DeriNet is a database of Czech lexical derivates. It is a wordnet in which nodes represent lemmas sampled from the Czech National Corpus and edges represent derivational relations between them (such as work → workable → unworkable). Sourcing the lemmas from a corpus brings two problems: errors and missing lemmas that could link together currently unconnected clusters. Therefore, a more reliable and more complete source of lemmas is needed. The goal of this thesis is to extend the lexicon of DeriNet using lemmas sourced from MorfFlex CZ, a Czech morphological dictionary, and to correct the derivational rules that produce errors with the new lexicon. Error rate is measured by comparing the relations in the database with manually annotated data created as part of the thesis. Powered by TCPDF (www.tcpdf.org)DeriNet je databáze českých lexikálních derivátů - lexikální síť, ve které uzly odpovídají lemmatům vybraným z Českého národního korpusu a hrany derivačním vztahům mezi nimi (například práce → pracovat → vypracovat). Vybírání lemmat z korpusu s sebou nese dva hlavní problémy: chybovost a chybějící lemmata, která by mohla sloužit jako spojnice mezi dosud nespojenými komponentami slovní sítě. Proto je potřeba najít spolehlivější a bohatší zdroj lemmat. Cílem této práce je rozšířit slovní zásobu DeriNetu pomocí lemmat z českého morfologického slovníku MorfFlex CZ a opravit derivační pravidla, která s novými slovy produkují chyby. Chybovost je měřena porovnáváním vztahů v databázi s ručně anotovanými daty vytvořenými v rámci práce. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
DeriNet; derivace; lexikální síť; MorfFlex; DeriNet; derivation; lexical network; MorfFlex