Název:
Automatické doplňování a opravy Wikidat a Wikipedie na základě extrakce informací
Překlad názvu:
Automatic Additions and Corrections of Wikidata and Wikipedia Based on Information Extraction
Autoři:
Hložek, Matej ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Táto bakalárska práca sa zaoberá vytvorením systému pre automatickú extrakciu dát z článkov v anglickom jazyku na internetovej encyklopédií Wikipédia. Z textu prirodzeného jazyka a z takzvaných infoboxov jednotlivých článkov na Wikipédií sú extrahované rôzne informácie podľa triedy, ktorá je určená textovým klasifikátorom. Výsledkom tohto systému je vedomostná základňa obsahujúca všetky vyextrahované dáta a klasifikáciu získaných Wikipédia článkov. Súčasťou systému je aj extraktor článkov, ktorý z takzvaného wikidump súboru vyextrahuje infoboxy a úvodné odseky jednotlivých článkov.
This bachelor's thesis is focused on creation of system for automatic extraction of data from articles in English language from internet encyclopedia site Wikipedia. Depending on class given by text classifier, different types of information are extracted from natural language text and from so called infoboxes of individual articles from Wikipedia. Final product of this system is a knowledge base containing all extracted data and classified type. A notable part of this system is an article extractor that extracts infoboxes and first paragraphs of articles from so called wikidump file.
Klíčová slova:
data extraction; machine learning; natural language processing; neuron network; python; spacy; text classification; Wikidata; Wikipedia
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/246606