Original title:
Sémantická podobnost textů
Translated title:
Semantic Similarity of Texts
Authors:
Hajdin, Martin ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2016
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Táto práca sa zaoberá problematikou určovania sémantickej podobnosti textov so zameraním na kategorizáciu webových dokumentov, v tomto prípade záložiek. Súčasťou spracovania je teoretický prehľad metód, pre implementáciu systému. Popisuje sa aj návrh a implementácia jednotlivých metód použitých v systéme. Práca sa taktiež zaoberá vyhodnotením jednotlivých metód, kde sú vybrané metódy otestované podľa určitých kritérií.
This paper deals with the determination of the semantic similarity of texts focusing on categorization of web documents in this case bookmarks. The part of the process is a theoretical overview of methods for system implementation. It describes the design and implementation of the various methods used in the system, too. This paper also deals with the evaluation of various methods where the chosen method are tested according to specified criteria.
Keywords:
Gensim; LDA; natural language processing; NMF; Python; Scikit-learn; semantic simlarity; SVD; TFIDF; vector space model; Gensim; LDA; NMF; Python; Scikit-learn; spracovanie prirodzeného jazyka; SVD; sémantická podobnosť; TFIDF; vektorový model
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/187207