Original title:
Vytvoření znalostní báze entit z české Wikipedie
Translated title:
Entity Knowledge Base Creation from Czech Wikipedia
Authors:
Sychra, Martin ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2014
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem této práce je navrhnout a implementovat systém pro automatickou extrakci pojmenovaných entit z textů české Wikipedie, vytvořit znalostní báze těchto entit a vyhodnotit úspěšnost a výsledky vytvořeného systému. První část práce vysvětluje základní pojmy z této oblasti zpracování přirozeného jazyka a informuje o existujících systémech podobného charakteru. V ústřední části je popsán vlastní návrh několika metod extrakce a způsobu implementace těchto metod. K extrakci byly vybrány tyto entitní typy: osoby, místa, události a organizace. V závěru jsou popsány výsledky práce, tedy úspěšnost jednolitých metod u daného entitního typu a statistiky extrakce jednotlivých entit vztažené k celkovému složení české Wikipedie.
The aim of this thesis is to propose and implement a system for an automatic extraction of named entities from Czech Wikipedia, to create a knowledge base consisting of these entities and to evaluate results of the created system. The first part explains basic notions of this field and discusses related work. The main part proposes several methods of extraction and details their implementation. The following types of entities are extracted: people, places, events and organizations. The final part of the thesis presents results, i.e., the success of the individual methods for each entity type and statistics on extraction of the individual entities in the whole Czech Wikipedia context.
Keywords:
automatic extraction; Czech Wikipedia; Extraction of named entities; knowledge base; natural language processing; automatická extrakce; Extrakce pojmenovaných entit; znalostní báze; zpracování přirozeného jazyka; česká Wikipedie
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/56558