Original title:
Rozpoznání pojmenovaných entit v textu
Authors:
Süss, Martin Document type: Master’s theses
Year:
2019
Language:
cze Abstract:
[cze][eng] Tato práce se zabývá rozpoznáváním pojmenovaných entit v textu, které je realizované technikami strojového učení. V nedávné době byly představeny techniky vytváření modelů vektorových reprezentací slov, které dokáží do vektorů zakódovat mnoho užitečných vztahů mezi slovy v textových datech, jako např. jejich syntaktickou či sémantickou podobnost. Moderní systémy pro rozpoznávání pojmenovaných entit tyto vlastnosti vektorů využívají, čímž výrazněji zlepšují svoji kvalitu. Málo z nich však detailněji zkoumá, jak velký vliv tyto vektory na rozpoznávání mají a jestli je lze optimalizovat pro ještě větší nárůst kvality rozpoznávání. Tato práce zkoumá různé faktory, které mohou ovlivnit kvalitu modelů vektorových reprezentací slov, a tím i výslednou kvalitu rozpoznávání pojmenovaných entit. V práci je vykonána série experimentů, které tyto faktory, jako je kvalita a velikost korpusu, počet dimenzí vektorů, techniky předzpracování textu či různé algoritmy (Word2Vec, GloVe a FastText) a specifické nastavení jejich parametrů, zkoumají. Jejich výsledky přinášejí řadu poznatků, které lze využít při vytváření vektorových reprezentací slov, a tím i nepřímo navýšit výslednou kvalitu rozpoznávání pojmenovaných entit.This thesis deals with the named entity recognition (NER) in text. It is realized by machine learning techniques. Recently, techniques for creating word embeddings models have been introduced. These word vectors can encode many useful relationships between words in text data, such as their syntactic or semantic similarity. Modern NER systems use these vector features for improving their quality. However, only few of them investigate in greater detail how much these vectors have impact on recognition and whether they can be optimized for even greater recognition quality. This thesis examines various factors that may affect the quality of word embeddings, and thus the resulting quality of the NER system. A series of experiments have been performed, which examine these factors, such as corpus quality and size, vector dimensions, text preprocessing techniques, and various algorithms (Word2Vec, GloVe and FastText) and their parameters. Their results bring useful findings that can be used within creation of word vectors and thus indirectly increase the resulting quality of NER systems.
Keywords:
dolování dat z textu; extrakce informací; FastText; GloVe; neuronová síť; rozpoznávání pojmenovaných entit (NER); strojové učení; vektorová reprezentace slov; vnoření slov; Word2Vec