Název:
Návrh souboru pravidel pro analýzu anafor v českém jazyce
Překlad názvu:
Rules for analyzing anaphora in Czech
Autoři:
Nguy, Giang Linh ; Hajičová, Eva (oponent) ; Hajič, Jan (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2006
Jazyk:
cze
Abstrakt: [cze][eng] S rostoucí důležitostí počítačového zpracování přirozeného jazyka narůstá i množství výzkumů na téma automatické analýzy anafory. Příspěvkem k výzkumu této problematiky je rovněž naše diplomová práce, jejímž cílem je vytvořit soubor pravidel pro analýzu anafory v českém jazyce. Vytvořený soubor pravidel obsahuje jak ručně psaná pravidla, tak i pravidla vznikající pomocí systému strojového učení C4.5. K trénování a testování pravidel byla použita anotovaná data z Pražského závislostního korpusu, ve kterém je zachycena zájmenná anafora, kontrola, reciprocita a závislostní vztah doplňků. Právě těmto druhům anafory je věnována naše práce. Vyhodnocení pravidel je provedeno standardními metodami pro hodnocení úplnosti a přesnosti.With the increasing importance of natural language processing there is growing number of research with the theme automatic anaphora resolution.. The contribution to the research on this problem is also this thesis. The aim of the work is to propose a set of rules for anaphora resolution in Czech. The created set of rules consists of handwritten rules as well as rules developped with the aid of machine learning system C4.5. For the rules training and testing were used anoted data from the Prague Dependency Treebank, in which following types of anaphora are captured: pronominal anaphora, control, reciprocity and dependency relation of adjuncts. Our work is focused on these types of anaphora. The evaluation of the rules is done with standard methods for interpretation of recall and precision.