Název:
Vyhľadávanie relevantných článkov v rozsiahlych kolekciách
Překlad názvu:
Searching relevant articles in extensive collections
Autoři:
Vojt, Ján ; Novák, Jiří (vedoucí práce) ; Bartoš, Tomáš (oponent) Typ dokumentu: Bakalářské práce
Rok:
2012
Jazyk:
slo
Abstrakt: [eng][cze] Searching text in articles is usually implemented with fulltext search. Using more advanced techniques however, it is possible to achieve significantly better results. The subject of this work is to create a universal library for searching extensible collections, specialized in czech language. The library makes use of tools capable of working with morphology while considering importance of words. It also conducts an experiment with word pairs, which adds context into the search process. The success rate of this experiment is tried on an extensible collection of data. Created library is a unique tool for processing extensible collections of czech text, while at the same time it is ready for further extension by new languages and methods.Vyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.
Klíčová slova:
morfológia; stemming; tf-idf; vyhľadávanie informácií; information retrieval; morphology; stemming; tf-idf