Original title:
Inteligentní extrakce dat ve webovém prohlížeči
Translated title:
Intelligent Data Scraping in a Web Browser
Authors:
Maštera, František ; Bartík, Vladimír (referee) ; Burget, Radek (advisor) Document type: Bachelor's theses
Year:
2021
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem této práce je získání dat z webových stránek bez znalosti jejich vnitřní struktury. Podstatou je rozpoznání této struktury pomocí algoritmu a zadaným vstupním informacím o obsahu, který chce uživatel extrahovat. Po analýze struktury následuje extrakce samotného obsahu. Na vybraných sadách internetových stránek se podařilo dosáhnout průměrné úspěšnosti přes 80%. Výsledný algoritmus představuje nový přístup k extrakci dat a může být nasazen v reálném světě, nebo může být součástí dalšího vývoje.
The goal of this thesis is to extract data from web pages without the knowledge of their internal structure. The point is to recognize the structure using an algorithm and a given input information about the content that the user wants to extract. The structure analysis is then followed by the content extraction itself. An average success rate of over 80% was achieved on selected sets of websites. The resulting algorithm represents a new approach to data extraction and can be deployed in the real world or can be a part of further development.
Keywords:
data extraction; Document processing; document structure recognition; Puppeteer; TypeScript; web; extrakce dat; Puppeteer; rozpoznávání struktur dokumentu; TypeScript; web; Zpracování dokumentu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/198926