Original title:
Vyhľadávanie relevantných článkov v rozsiahlych kolekciách
Translated title:
Searching relevant articles in extensive collections
Authors:
Vojt, Ján ; Novák, Jiří (advisor) ; Bartoš, Tomáš (referee) Document type: Bachelor's theses
Year:
2012
Language:
slo Abstract:
[eng][cze] Searching text in articles is usually implemented with fulltext search. Using more advanced techniques however, it is possible to achieve significantly better results. The subject of this work is to create a universal library for searching extensible collections, specialized in czech language. The library makes use of tools capable of working with morphology while considering importance of words. It also conducts an experiment with word pairs, which adds context into the search process. The success rate of this experiment is tried on an extensible collection of data. Created library is a unique tool for processing extensible collections of czech text, while at the same time it is ready for further extension by new languages and methods.Vyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.
Keywords:
information retrieval; morphology; stemming; tf-idf; morfológia; stemming; tf-idf; vyhľadávanie informácií
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/44019