Název:
Určování typů entit na základě extrakce informací z Wikipedie
Překlad názvu:
Identifying Entity Types Based on Information Extraction from Wikipedia
Autoři:
Rusiňák, Petr ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2018
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cílem této práce je identifikovat typy článků na Wikipedii (např. rozlišit články o osobách od článků o sportovních utkáních), přičemž tento systém by měl být použitelný pro libovolný typ extrahované entity. Vstupem pro tento systém je seznam několika vzorových článků patřících do hledané entity a seznam několika článků nepatřících do této entity. Na základě těchto seznamů budou vygenerovány příznaky, které lze použít k nalezení všech článků patřící do této entity. Tyto příznaky mohou být založeny jak na základě strukturovaných informací na Wikipedii (např. šablony, kategorie), tak i na základě analýzy přirozeného textu v první větě článku, kde bude nalezeno definiční podstatné jméno vystihující entitu daného článku. Tento systém podporuje extrakci česky a anglicky psaných článků a je rozšířitelný pro podporu dalších jazyků.
This paper presents a system for identifying entity types of articles on Wikipedia (e.g. people or sports events) that can be used for identifaction of any arbitrary entity. The~input files for this system are a list of several pages that belong to this entity and a list of several pages that do not belong to this entity. These lists will be used to generate features that can be used for generation of the list of all pages belonging to this entity. The fatures can be based on both structured information on Wikipedia such as templates and categories and non-structured informations found by the analysis of natural text in the first sentence of the article where a defining noun that represents what the article is about will be found. This system support pages written in Czech and English and can be extended to support other languages.
Klíčová slova:
asociační analýza; určování typů entit; Wikipedie; association analysis; identifying entity types; Wikipedia
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/85189