Original title:
Extrakce informací z Wikipedie
Translated title:
Information Extraction from Wikipedia
Authors:
Musil, Martin ; Otrusina, Lubomír (referee) ; Schmidt, Marek (advisor) Document type: Bachelor's theses
Year:
2011
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato bakalárská práce se zabývá tématem automatické extrakce informací z textu. Cílem je vytvorení aplikace, která za užití extrakcních vzoru získává znalosti z clánku informacního internetového serveru Wikipedie. V úvodu jsou vysvetleny základní pojmy této problematiky, hlavní cást práce se venuje experimentum a predevším samotné implementaci rozdelené do dvou cástí - zpracování textu a následného získávání informací. Vyhodnocením projektu je pak samotná analýza výsledku experimentu a efektivita vytvorených pravidel.
This bachelor thesis deals with the problem of automatic information extraction from text. Goal is to create an application, which captures knowledge out of the articles from online information server Wikipedia, using extraction patterns. At the beginning, we interpret the basic terms of the subject and the main part of the publication is focused to the experiments and above all to the implementation, divided into two parts, processing of the text and following information extraction. The conclusion of the thesis analyses the results coming from experiments and efficiency of created rules.
Keywords:
automatic information extraction; Python; rule-based system; Wikipedia; automatická extrakce informací; pravidlový systém; Python; Wikipedie
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/52963