Original title:
Sémantické anotace
Translated title:
Semantic annotations
Authors:
Dědek, Jan ; Vojtáš, Peter (advisor) ; Maynard, Diana (referee) ; Železný, Filip (referee) Document type: Doctoral theses
Year:
2012
Language:
eng Abstract:
[eng][cze] Four relatively separate topics are presented in the thesis. Each topic represents one particular aspect of the Information Extraction discipline. The first two topics are focused on our information extraction methods based on deep language parsing. The first topic relates to how deep language parsing was used in our extraction method in combination with manually designed extraction rules. The second topic deals with a method for automated induction of extraction rules using Inductive Logic Programming. The third topic of the thesis combines information extraction with rule based reasoning. The core of our extraction method was experimentally reimplemented using semantic web technologies, which allows saving the extraction rules in so called shareable extraction ontologies that are not dependent on the original extraction tool. The last topic of the thesis deals with document classification and fuzzy logic. We are investigating the possibility of using information obtained by information extraction techniques to document classification. Our implementation of so called Fuzzy ILP Classifier was experimentally used for the purpose of document classification.V této práci jsou prezentována čtyři relativně samostatná témata. Každé z nich reprezentuje jeden aspekt extrakce informací z textů. První dvě témata jsou zaměřena na naše metody pro extrakci informací založené na hloubkové lingvistické analýze textu. První téma se týká toho, jak byla lingvistická analýza použita při extrakci v kombinaci s ručně navrženými extrakčními pravidly. Druhé téma se zabývá metodou pro automatickou indukci extrakčních pravidel pomocí Induktivního logického programování. Třetí téma práce kombinuje extrakci informací s odvozováním znalostí (reasoningem). Jádro naší extrakční metody bylo experimentálně implementováno pomocí technologií sémantického webu, což umožňuje export extrakčních pravidel do tzv. přenositelných extrakčních ontologií, které jsou nezávislé na původním extrakčním nástroji. Poslední téma této práce se zabývá klasifikací dokumentů a fuzzy logikou. Zkoumáme možnosti využití informací získaných metodami extrakce informací ke klasifikaci dokumentů. K tomuto účelu byla experimentálně použita naše implementace tzv. Fuzzy ILP klasifikátoru.
Keywords:
document classification; information extraction; machine learning; ontologies; semantic web; extrakce informací; klasifikace dokumentů; ontologie; strojové učení; sémantický web
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/41689