Název:
Sémantická podobnost textů
Překlad názvu:
Semantic Similarity of Texts
Autoři:
Bradáč, Václav ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2015
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá problematikou určování sémantické podobnosti textů se zaměřením na škálovatelnost. Součástí zpracování je teoretický přehled nástrojů pro implementaci systému na testovaných datech. Testovaný korpus obsahuje odborné články v anglickém jazyce. Cílem práce je tyto články analyzovat, modifikovat pro snadnější analýzu jejich sémantické obdoby. Jedním z nejdůležitějších využitých nástrojů je reprezentace dat ve vektorovém prostoru.
This paper deals with the determination of semantic similarity texts, focusing on scalability. Part of treatment is a theoretical overview of the tools to implement the system on test data. Tested corpus contains expert articles in the English language. The aim is to analyze these articles, modified to facilitate the analysis of their semantic analogues. One of the most utilized tools is a representation of data in a vector space model.
Klíčová slova:
Elasticsearch; Gensim; Latentní Direchletova alokace; Latentní sémantická analýza; Latentní sémantická indexace; MoreLikeThis; PHP; Python; Singulární rozklad; Sémantická podobnost; TF-IDF; Elasticsearch; Gensim; Latent Direchletova allocation; Latent semantic analysis; Latent semantic indexing; MoreLikeThis; PHP; Python; Semantic similarity; Singular value decomposition; TF-IDF
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/52420