Název:
Rozpoznávání anafory metodou strojového učení
Překlad názvu:
Machine Learning Approach to Anaphora Resolution
Autoři:
Novák, Michal ; Žabokrtský, Zdeněk (vedoucí práce) ; Mírovský, Jiří (oponent) Typ dokumentu: Diplomové práce
Rok:
2010
Jazyk:
eng
Abstrakt: [eng][cze] Anaphora resolution is the key task for some of the Natural Language Processing (NLP) tasks like the information extraction or dialog systems. It can be also valuable in machine translation. All the previous works concerning the anaphora resolution in Czech language mostly focused on the pronoun coreference. Thanks to the recent project of the annotation of extended anaphoric relations in Prague Dependency Treebank 2.0 his work goes further. It attempts to resolve noun phrase coreference, identity-of-sense anaphora and part-whole bridging relations. It has adopted some of the stateof-the-art approaches in the area of machine learning approaches to anaphora resolution, particularly the ranking and the joint anaphor identi cation with the antecedent selection. It introduced a plenty of features and analyzed their contribution on the success rate. The best model of noun phrase coreference achieves the F-score of 39.4%.Rozpoznávání anafory je klíčové pro některé z úloh zpracování přirozeného jazyka (NLP), jako extrakce informací nebo dialogové systémy. Tato informace může byt hodnotná taky při strojovém překladu. Všechny předešlé práce týkající se rozpoznávání anafory v českém jazyce se soustředily především na zájmennou koreferenci. Díky nedávnemu projektu anotace širších anaforických vztahů v Pražském závislostním korpusu 2.0 však tato práce jde nad rámec zájmenné koreference. Pokouší se o rozpoznání koreference jmenných frází se specifi ckou referencí, generických jmenných frází a rozpoznání asociační anafory. Jsou v ní realizovány některé z nejúspěšnějších postupů v oblasti rozlišování anafor na základě strojového učení, konkrétně "ranking" a společné řešení úloh identi kace anaforu a nalezení antecedenta. Bylo vytvořeno množství rysů a analyzován jejích podíl na míře úspěšnosti. Nejlepší model koreference jmenných frází dosáhl F-hodnoty 39.4%.