Název:
Similarity Search in Document Collections
Překlad názvu:
Similarity Search in Document Collections
Autoři:
Jordanov, Dimitar Dimitrov ; Plchot, Oldřich (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2009
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Hlavním cílem této práce je odhadnout výkonnost volně šířeni balík Sémantický Vektory a třída MoreLikeThis z balíku Apache Lucene. Tato práce nabízí porovnání těchto dvou přístupů a zavádí metody, které mohou vést ke zlepšení kvality vyhledávání.
The main objective of this work is to estimate the efficiency of the available software for similarity search in document collections and on two in particular, Semantic Vectors and Lecene's class MoreLikeThis. The paper provides a comparison of those two approaches and introduces methods that can lead to improving the quality of the results generated by a search.
Klíčová slova:
Apache Lucene; Matching technologies; MoreLikeThis.; Natural Language Processing; Random Projection algorithm; Semantic Vectors; Text Clustering; Apache Lucene; Semantic Vectors; Zpracování přirozeného jazyka
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53889