Název:
Extrakce vztahů mezi entitami
Překlad názvu:
Entity Relationship Extraction
Autoři:
Šimečková, Zuzana ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] Relationship extraction is the task of extracting semantic relationships between en- tities from a text. We create a Czech Relationship Extraction Dataset (CERED) using distant supervision on Wikidata and Czech Wikipedia. We detail the methodology we used and the pitfalls we encountered. Then we use CERED to fine-tune a neural network model for relationship extraction. We base our model on BERT - a linguistic model pre-trained on extensive unlabeled data. We demonstrate that our model performs well on existing English relationship datasets (Semeval 2010 Task 8, TACRED) and report the results we achieved on CERED. 1Úkol hledání sémantických vztahů mezi entitami na základě předloženého textu oz- načujeme jako extrakci vztahů (relationship extraction). Metodou distant supervision, která spočívá ve spojení báze znalostí (Wikidata) a korpusu (české Wikipedie), jsme vytvořili Český dataset pro extrakci vztahů (CERED). Použitou metodiku a problémy, na které jsme narazili, důkladně rozebíráme. CERED využíváme při tréninku neuronové sítě pro extrakci vztahů. Základem této sítě je BERT - lingvistický model předtrénovaný na velkém množství prostého textu. Navržený model vyhodnocujeme na anglických dat- ech (Semeval 2010 Task 8, TACRED) a porovnáváme jeho kvalitu s ostatními výsledky v oblasti extrakce vztahů. Přikládáme i výsledky naměřené na CEREDu. 1
Klíčová slova:
BERT; entity; extrakce vztahů mezi entitami; pojmenované entity; vztahy mezi entitami; čeština; BERT; Czech; entities; entity relationship; entity relationship extraction; named entities