Original title:
Extrakce relací v policejních záznamech
Translated title:
Relation extraction in police records
Authors:
Ejem, Richard ; Žabokrtský, Zdeněk (advisor) ; Mareček, David (referee) Document type: Master’s theses
Year:
2017
Language:
eng Abstract:
[eng][cze] This work describes a problem of relation extraction between named entities on the sentence level, assuming that the named entities are already tagged in the text, on the domain of police reports written by the Anti-drug Department of the Police of the Czech Republic. We have used various methods of machine learning in combination with tree kernel functions and methods based on sentence syntax rules. None of the used methods had satisfying results on the data provided by the Police of the Czech Republic. Following analysis showed that tagging of the relations in the data was missing many relations, which were obvious to a human reader. That was found to be the reason why the supervised machine learning was not successful. Later in this work we present several rules for recognizing relations which we have identified manually. Findings in this work may be helpful for future research of processing these police reports.Tato práce popisuje problém extrakce relací mezi pojmenovanými entitami na úrovni vět, za předpokladu, že pojmenované entity jsou již v textu označeny, na doméně policejních zpráv napsaných protidrogovým oddělením Policie České Republiky. Použili jsme různé metody strojového učení v kombinaci se funkcemi stromových kernelů a metodami založenými na pravidlech větné syntaxe. Žádná z použitých metod nedosáhla uspokojivých výsledků na datech poskytnutých Policií České Republiky. Následující analýza odhalila, že v označkování poskytnutých dat chybí mnoho relací, které jsou při čtení člověkem zřejmé. To se ukázalo jako důvod, proč metody strojového učení s učitelem neuspěly. Dále v této práci představujeme několik pravidel pro určení relací, která jsme identifikovali ručně. Poznatky v této práci mohou být nápomocné pro další výzkum a zpracování těchto policejních zpráv.
Keywords:
machine learning; natural language processing; Police of the Czech Republic; relation extraction; tree kernel; extrakce relací; Policie České Republiky; strojové učení; tree kernel; zpracování přirozeného jazyka
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/90996