Original title:
Inspektor webových stránek
Translated title:
Web site inspector
Authors:
Mansurov, Alexandr ; Mareš, Martin (advisor) ; Veselý, Pavel (referee) Document type: Bachelor's theses
Year:
2017
Language:
cze Abstract:
[cze][eng] Cílem této práce je vyvinout nástroj pro automatickou kontrolu webových strá- nek. V práci jsme vytvořili rozšiřitelný systém, který ověřuje provázanost odkazů a syntax HTML a CSS. K tomu jsme integrovali již existující nástroje a knihovny do jedné aplikace pomocí pluginů. Nástroj hledá odkazy v HTML a sitemaps. Podporuje také robots.txt včetně implementace crawl-delay a nalezení sitemap. Průběh kontrol se zadává konfiguračními pravidly. Kategorizace pluginů umožňuje ovlivňovat běh aplikace a její výstup. Kontrolujeme provázanost jak klasických hypertextových odkazů, tak odkazů přes jiné HTML značky (obrázky, rámce, kaskádové styly, skripty). Zároveň detekujeme kanonické adresy a přesměrování, duplikáty v obsahu, nebo použití nesémantických značek a atributů. Výslednou aplikaci lze snadno rozšířit o další druhy kontrol. 1Our goal is to develop a tool for automatic website checking. We created an ex- tensible system that checks the validity of links as well as HTML and CSS syntax. For that, we integrated existing tools and libraries into one application using plu- gins. Our tool looks for links in HTML and sitemaps. Also, robots.txt including crawl-delay implementation and sitemap discovery is supported. The course of inspection can be affected by configuration rules. Plugin categorization allows for customization of inspection. Not only we verify the validity of standard hypertext links but also links through other HTML tags (images, frames, cascading styles, scripts). In addition, canonical addresses and redirection, duplicates in content or usage of non-semantic tags or attributes are detected. The developed application is extensible for other types of checks. 1
Keywords:
web crawling standards; web crawling standardy
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/91596