Název:
Inkrementální stahování webu pomocí systému Bubing
Překlad názvu:
Incremental Web Crawling With Bubing System
Autoři:
Ondřej, Karel ; Fajčík, Martin (oponent) ; Škoda, Petr (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2018
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato bakalářská práce se zabývá úpravou systému BUbiNG pro takzvané inkrementální stahování. V práci jsou dále popsány hlavní problémy spojené s inkrementálním stahováním internetu a využití dalších open-source systémů pro inkrementální stahování. Upravený systém podporuje opětovné navštěvování stránek pomocí dvou běžně používaných strategií. První ze strategií opětovně navštěvuje stránku vždy po stejném intervalu. Druhá strategie přizpůsobuje interval mezi návštěvami podle frekvence změn stránky.
This bachelor thesis deals with modification of BUbiNG system for incremental crawling. The paper describes the main problems related to incremental Internet crawling and the use of other open-source systems for incremental crawling. As a result, BUbiNG system supports re-visiting pages using two commonly used strategies. The first strategy always re-visits page after the same interval. The second strategy adjusts the interval between visits according to the frequency of page changes.
Klíčová slova:
BUbiNG; duplicita textu; inkrementální stahování; politika opětovných návštěv; webový prohledávací modul; BUbiNG; duplicity detection; incremental crawling; re-visit policy; web crawler
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/85150