Název:
Webový vyhledávací systém
Překlad názvu:
Web Search Engine
Autoři:
Tamáš, Miroslav ; Galamboš, Leo (vedoucí práce) ; Skopal, Tomáš (oponent) Typ dokumentu: Diplomové práce
Rok:
2014
Jazyk:
slo
Abstrakt: [eng][cze] Academic fulltext search engine Egothor has recently became starting point of several thesis aimed on searching. Until now, there was no solution available to provide robust set of web content processing tools. This master thesis is aiming on design and implementation of distributed search system working primary with internet sources. We analyze first generation components for processing of web content and summarize their primary features. We use those features to propose architecture of distributed web search engine. We aim mainly to phases of data fetching, processing and indexing. We also describe final implementation of such system and propose few ideas for future extensions.Akademický fulltextový vyhľadávač Egothor sa v posledných rokoch stal základom viacerých prác z oblasti vyhľadávania. Doposiaľ však neexistovalo riešenie, ktoré by poskytlo kompletnú sadu nástrojov pre spracovanie webového obsahu vo väčšom merítku. Táto práca sa zaoberá návrhom a implementáciou distribuovaného vyhľadávacieho systému zameraného predovšetkým na internetové zdroje. Analyzuje komponenty prvej generácie systému pre spracovanie webového obsahu a predstavuje ich primárne funkcie. Následne popisuje ich využitie pri návrhu architektúry distribuovanej varianty webového vyhľadávača. Návrh sa zameriava predovšetkým na fázy získavania, spracovania a indexácie dát. Následne popisuje spôsob implementácie uvedeného riešenia. V závere potom predstavuje niekoľko návrhov ako na dosiahnuté výsledky nadviazať.
Klíčová slova:
crawler; dataset; distribuované spracovanie; egothor; galaxy; index; j5m; konektor; procesor; vyhľadávač; wayback; webové služby; worker; connector; crawler; dataset; distributed processing; egothor; galaxy; index; j5m; procesor; search engine; wayback; web services; worker