Original title:
Automatické doplňování a opravy Wikidat a Wikipedie na základě extrakce informací
Translated title:
Automatic Additions and Corrections of Wikidata and Wikipedia Based on Information Extraction
Authors:
Hložek, Matej ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2024
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Táto bakalárska práca sa zaoberá vytvorením systému pre automatickú extrakciu dát z článkov v anglickom jazyku na internetovej encyklopédií Wikipédia. Z textu prirodzeného jazyka a z takzvaných infoboxov jednotlivých článkov na Wikipédií sú extrahované rôzne informácie podľa triedy, ktorá je určená textovým klasifikátorom. Výsledkom tohto systému je vedomostná základňa obsahujúca všetky vyextrahované dáta a klasifikáciu získaných Wikipédia článkov. Súčasťou systému je aj extraktor článkov, ktorý z takzvaného wikidump súboru vyextrahuje infoboxy a úvodné odseky jednotlivých článkov.
This bachelor's thesis is focused on creation of system for automatic extraction of data from articles in English language from internet encyclopedia site Wikipedia. Depending on class given by text classifier, different types of information are extracted from natural language text and from so called infoboxes of individual articles from Wikipedia. Final product of this system is a knowledge base containing all extracted data and classified type. A notable part of this system is an article extractor that extracts infoboxes and first paragraphs of articles from so called wikidump file.
Keywords:
data extraction; machine learning; natural language processing; neuron network; python; spacy; text classification; Wikidata; Wikipedia
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/246606