Original title:
Určování typů a atributů entit napříč jazyky
Translated title:
Identifying Entity Types and Attributes Across Languages
Authors:
Švub, Daniel ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2019
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem této práce je analýza článků na internetové encyklopedii Wikipedii a převod jejich textu psaného v přirozeném jazyce na strukturovanou databázi osob, míst a dalších entit. Podstatou implementovaného programu je určení typu entity na základě typických znaků, které ji charakterizují, a extrakce nejdůležitějších atributů této entity v českém a slovenském jazyce. Výsledkem práce je báze znalostí umožňující snadné vyhledávání a třídění informací. Díky snadné rozšiřitelnosti je možné do programu přidat identifikaci dalších typů entit a dalších vlastností, případně i podporu jiných jazyků.
The target of this thesis is to analyze articles on the Wikipedia internet encyclopedia and to convert their text written in natural language into a structured database of persons, places and other entities. The essence of the implemented program is the determination of the type of entity based on its typical characteristics, and the extraction of the most important attributes of this entity in the Czech and Slovak languages. The result of this task is a knowledge base allowing simple searching and sorting of information. Thanks to its easy extensibility, it is possible to add identification of other types of entities and other features to the program, as well as a support of other languages.
Keywords:
entity atributes; information extraction; text mining; Wikipedia; analýza textu; atributy entit; extrakce informací; Wikipedie
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/180235