Název:
Český morfologický guesser
Překlad názvu:
Czech morphological guesser
Autoři:
Suchánek, Michal ; Mírovský, Jiří (oponent) ; Hlaváčová, Jaroslava (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2009
Jazyk:
cze
Abstrakt: [cze][eng] C ílem práace je implementace guesseru pro českýy jazyk, kter ý využívá slovní kov á data. První m krokem při analýze textu je p ři řazení morfologick ých tag ů jednotlivým slov ům v textu. Morfologick é tagy popisují slovní druh a tvar slova, co ž je informace pot řebn á pro další anal ýzu textu. Morfologick é tagy se přiřazují na základě automatick ého vyhledání pří slu šného slovn í ho tvaru ve slovní ku. Morfologický guesser přiřazuje tagy slovům, která ve slovn í ku nebyla nalezena. Zde popsan ý guesser využí v á podobnost nerozpoznan ých slov se slovy již ve slovní ku obsa ženými.The first step of text analysis is tagging word forms with morphological tags. These tags describe the part of speech, person (where applicable), number, etc. This information is used for further analysis of the text. Tags are automatically assigned by looking up the word form in the morphological dictionary. This gives good results for the Czech language because the word forms express the morphological categories to some extent. Unlike English words, Czech words often change their ending when their morphological category changes. Words that are not present in the dictionary can be tagged with a guesser. The guesser described here uses the similarity of unrecognized words with words already present in the dictionary.