Original title:
Grafové algoritmy ve vyhledávání textových dokumentů
Translated title:
Graph algorithms in text retrieval
Authors:
Irikovský, Peter ; Kopecký, Michal (advisor) ; Galamboš, Leo (referee) Document type: Master’s theses
Year:
2007
Language:
eng Abstract:
[eng][cze] This thesis surveys use of graph theory and algorithms in information retrieval. It provides an introduction to graph and information retrieval theories and an overview of the overlap between these disciplines. We show application of the graph theory in clustering, document classification, finding communities etc. The most stress is, however, put on ranking algorithms as they aim to improve the most critical property of the information retrieval systems, their precision. The paper presents different graphbased ranking algorithms, provides comments to their time and memory requirements and to realistic usage of these rankings. It also contains a description and test results of our implementation of algorithms for computing the PageRank distribution designed for the Egothor search engine.Tato diplomová práce zkoumá možnosti využití grafových algoritm ů v oblasti information retrieval (vyhledávání informací). Na zač átku je poskytnut p řehled základních pojm ů z oblasti dokumentografických informa čních systém ů a základě teorie graf . Zbytek práce se pak zabývá prů nikem tě chto dvou oblastí. Mezi př íklady z tohoto prů niku patř í např íklad klastrování a kategorizace dokumentů , i hledání komunit. Nejvíc pozornosti je však soust ředě no na algoritmy hodnotící d ůležitost dokument ů s pomocí využití graf ů. Tyto algoritmy vylepšují nejd ůležitě jší vlastnost informa čních systémů , jejich p řesnost. Práce poskytuje přehled rů zných hodnotících algoritmů založených na grafech a uvádí komentář e k jejich praktič nosti, č asovým a paměť ovým nároků m. V práci je taky detailně popsaná implementace algoritmů na poč ítaní PageRanku stránek navržená pro využití ve vyhledáva či Egothor. Popis také obsahuje výsledky m ěření č asové a pam ěťové nároč nosti a uvádí návrhy na další zlepšení.
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/9322