Název:
Inspektor webových stránek
Překlad názvu:
Web site inspector
Autoři:
Mansurov, Alexandr ; Mareš, Martin (vedoucí práce) ; Veselý, Pavel (oponent) Typ dokumentu: Bakalářské práce
Rok:
2017
Jazyk:
cze
Abstrakt: [cze][eng] Cílem této práce je vyvinout nástroj pro automatickou kontrolu webových strá- nek. V práci jsme vytvořili rozšiřitelný systém, který ověřuje provázanost odkazů a syntax HTML a CSS. K tomu jsme integrovali již existující nástroje a knihovny do jedné aplikace pomocí pluginů. Nástroj hledá odkazy v HTML a sitemaps. Podporuje také robots.txt včetně implementace crawl-delay a nalezení sitemap. Průběh kontrol se zadává konfiguračními pravidly. Kategorizace pluginů umožňuje ovlivňovat běh aplikace a její výstup. Kontrolujeme provázanost jak klasických hypertextových odkazů, tak odkazů přes jiné HTML značky (obrázky, rámce, kaskádové styly, skripty). Zároveň detekujeme kanonické adresy a přesměrování, duplikáty v obsahu, nebo použití nesémantických značek a atributů. Výslednou aplikaci lze snadno rozšířit o další druhy kontrol. 1Our goal is to develop a tool for automatic website checking. We created an ex- tensible system that checks the validity of links as well as HTML and CSS syntax. For that, we integrated existing tools and libraries into one application using plu- gins. Our tool looks for links in HTML and sitemaps. Also, robots.txt including crawl-delay implementation and sitemap discovery is supported. The course of inspection can be affected by configuration rules. Plugin categorization allows for customization of inspection. Not only we verify the validity of standard hypertext links but also links through other HTML tags (images, frames, cascading styles, scripts). In addition, canonical addresses and redirection, duplicates in content or usage of non-semantic tags or attributes are detected. The developed application is extensible for other types of checks. 1
Klíčová slova:
web crawling standardy; web crawling standards