Kontrola konzistence informací extrahovaných z textu
Překlad názvu:
Consistency Checking of Relations Extracted from Text
Stejskal, Jakub ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému.
This bachelor thesis is dedicated to mechanical techniques that are used in the natural language processing and information extraction from particular text. It is approaching the general methods that starting to process the raw text and it continues to the relations extraction from processed language constructs, moreover it provides options for the use of obtained relational data which can be seen for example in the project DBpedia. Another milestone of the described bachelor thesis is the design and implementation of an automated system for extracting information about entities, which do not have their own article on the English version of Wikipedia. Thesis also presents algorithms developed for the extraction of entities with their own name, the verification of the articles ‘existence of the extracted entities and finally the actual extraction of information about individual entities, which can be used during the information consistency checking. In the end, it can be seen the results and suggestions for further development of the created system.
Klíčová slova:
DBpedia; extrakce entit; extrakce informací; kontrola konzistence; koreference; korpus; NLP; Open Information Extraction; rozpoznávání jmenných entit; Wikipedia; consistency checking; coreference; corpus; DBpedia; entity extraction; information extraction; named entity recognition; NLP; Open Information Extraction; Wikipedia
Instituce: Vysoké učení technické v Brně
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/62176