Original title:
Klasifikace vztahů mezi pojmenovanými entitami v textu
Translated title:
Classification of Relations between Named Entities in Text
Authors:
Ondřej, Karel ; Doležal, Jan (referee) ; Smrž, Pavel (advisor) Document type: Master’s theses
Year:
2020
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato diplomová práce se zabývá extrakcí vztahů mezi pojmenovanými entitami v textu. V teoretické části práce je rozebrána problematika reprezentace přirozeného jazyka pro strojové zpracování. Následně jsou definovány dvě dílčí úlohy extrakce vztahů, a to rozpoznávání pojmenovaných entit a klasifikace vztahu mezi nimi, včetně shrnutí dnešních nejmodernějších řešení. V praktické části práce je navržen systém pro automatickou extrakci vztahů mezi pojmenovanými entitami ze stažených webových stránek. Model pro klasifikaci vztahů mezi entitami je založen na předtrénovaném modelu sítě typu transfomers. V práci jsou porovnány čtyři předtrénované modely, a to BERT, XLNet, RoBERTa a ALBERT.
This master thesis deals with the extraction of relationships between named entities in the text. In the theoretical part of the thesis, the issue of natural language representation for machine processing is discussed. Subsequently, two partial tasks of relationship extraction are defined, namely named entities recognition and classification of relationships between them, including a summary of state-of-the-art solutions. In the practical part of the thesis, system for automatic extraction of relationships between named entities from downloaded pages is designed. The classification of relationships between entities is based on the pre-trained transformers. In this thesis, four pre-trained transformers are compared, namely BERT, XLNet, RoBERTa and ALBERT.
Keywords:
ALBERT; BERT; fine-tuning; named-entity recognition; relationship extraction; RoBERTa; transformers; XLNet; ALBERT; BERT; dotrénování; extrakce vztahů; RoBERTa; rozpoznávaní pojmenovaných entit; transformers; XLNet
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/192476