Original title:
Automatizovaná extrakce údajů z HTML
Translated title:
Automated extraction of data from HTML
Authors:
Onderka, Jakub ; Koutný, Martin (referee) ; Vrba, Kamil (advisor) Document type: Bachelor's theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato práce se zabývá problematikou extrakce údajů z webových stránek zapsaných v jazyce HTML. Popisuje metody stažení stránek ze vzdáleného serveru protokolem HTTP, řešení převodu kódování dokumentu a možnosti pro extrakci obsahu elementů. Také uvádí postupy, kterými můžou autoři webových stránek zabránit automatickému web scrapingu a jak tyto postupy obejít. Popsané metody byly užity ve vytvořeních aplikacích v jazyce C# pro extrakci údajů ze dvou databází Policie ČR – Pátrání po osobách a Pátrání po vozidlech. Aplikace umožňují stažení údajů ze vzdálené databáze, uložení do lokální databáze a následné vyhledávání a zobrazování požadovaných dat.
This thesis deals with data extraction from web pages created in HTML language. It describes methods of downloading pages from remote server using HTTP protocol, document charset encoding and options for extraction content from elements. It also shows ways in which authors of web sites can prevent automatic web scraping. These were used to create C# applications for extraction data from two Czech Police databases – Investigation for person and Investigation for cars. These applications allow to download data from remote database, save to local database and search or show required data.
Keywords:
CAPTCHA; Data mining; HTML; HTTP; micro data; microformats; Police of the Czech Republic; search for cars.; search for persons; web scraping; CAPTCHA; Data mining; HTML; HTTP; mikrodata; mikroformáty; Policie ČR; pátrání po osobách; pátrání po vozidlech.; web scraping
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/9702