Original title:
Similarity Search in Document Collections
Translated title:
Similarity Search in Document Collections
Authors:
Jordanov, Dimitar Dimitrov ; Plchot, Oldřich (referee) ; Smrž, Pavel (advisor) Document type: Master’s theses
Year:
2009
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Hlavním cílem této práce je odhadnout výkonnost volně šířeni balík Sémantický Vektory a třída MoreLikeThis z balíku Apache Lucene. Tato práce nabízí porovnání těchto dvou přístupů a zavádí metody, které mohou vést ke zlepšení kvality vyhledávání.
The main objective of this work is to estimate the efficiency of the available software for similarity search in document collections and on two in particular, Semantic Vectors and Lecene's class MoreLikeThis. The paper provides a comparison of those two approaches and introduces methods that can lead to improving the quality of the results generated by a search.
Keywords:
Apache Lucene; Semantic Vectors; Zpracování přirozeného jazyka; Apache Lucene; Matching technologies; MoreLikeThis.; Natural Language Processing; Random Projection algorithm; Semantic Vectors; Text Clustering
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53889