Original title:
Návrh vyhledávacího systému pro moderní potřeby
Translated title:
Design of search engine for modern needs
Authors:
Maršálek, Tomáš ; Palovská, Helena (advisor) ; Strossa, Petr (referee) Document type: Master’s theses
Year:
2016
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] V této práci tvrdím, že oblast textového vyhledávání se obecně soustředí na dlouhé textové dokumenty, přičemž vzrůstá potřeba po efektivním vyhledávacím systému soustředícím se na krátký text, na který jsou kladeny odlišné požadavky. Díky tomuto zmenšení objemu prohledávaných dat se stanou některé algoritmické techniky výpočetně dostupnější. Přesnější zaměření této práce je na techniky přibližného a prefixového vyhledávání a ohodnocovacích metod založených čistě na textové shodě, protože statistické metody na krátkém textu ztrácejí význam. Na základě nich byl vytvořen jednoduchý prototyp vyhledávacího systému, jehož vlastnosti jsou zde demonstrovány na několika vyhledávacích případech a porovnány se dvěma dalšími open source vyhledávacími systémy, které reprezentují doporučovaná řešení pro problém vyhledávání v krátkém textu v dnešní době. Dle výsledků porovnání lze usoudit proveditelnost navrhovaného řešení z pohledu vyhledávacích schopnosti i výkonu. Na základě toho je pak představeno několik možností pro budoucí vývoj systému.In this work I argue that field of text search has focused mostly on long text documents, but there is a growing need for efficient short text search, which has different user expectations. Due to this reduced data set size requirements different algorithmic techniques become more computationally affordable. The focus of this work is on approximate and prefix search and purely text based ranking methods, which are needed due to lower precision of text statistics on short text. A basic prototype search engine has been created using the researched techniques. Its capabilities were demonstrated on example search scenarios and the implementation was compared to two other open source systems representing currently recommended approaches for short text search problem. The results show feasibility of the implemented prototype regarding both user expectations and performance. Several options of future direction of the system are proposed.
Keywords:
approximate text search; autocomplete; error tolerant text search; half-inverted index; hybrid index; inverted index; prefix search; proximity search; search-as-you-type; autocomplete; blízkost; hybridní index; invertovaný index; poloinvertovaný index; prefixové vyhledávání; přibližné vyhledávání v textu; search-as-you-type; vyhledávání s tolerancí chyb
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/52929