Original title:
Aplikace pro parsování a analýzu obsahu webových stránek
Translated title:
Tool for parsing and analysing of web pages
Authors:
Odstrčil, Štěpán ; Ilgner, Petr (referee) ; Galáž, Zoltán (advisor) Document type: Bachelor's theses
Year:
2019
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato bakalářská práce se zabývá parsováním textu z HTML stránek a jejich analýze a rozboru. Byly použity techniky z Natural Language Processingu, neboli Zpracování Přirozeného Jazyka. Byla napsána knihovna v programovacím jazyce Python, za použitím nejnovějších technologií, postupů a knihoven. Byl zpracován popis těchto knihoven a tříd, jejich použití a příklady. Aplikace dále byla otestována unit testy. Aplikace obsahuje GUI (Graphical User Interface) pro snadnější používání a demonstraci funkcionalit.
This bachelor’s thesis is dealing with parsing of text in HTML pages and its analysis. Practices from Natural Language Processing were used. There were written libraries (or packages) in programming language Python, with use of modern practices, techniques and libraries. The usages and examples of these libraries and classes were made. All these libraries were tested using Unit tests. Application contains GUI (Graphical User Interface) for wasier usefulness and demonstration of functionality.
Keywords:
GUI; HTML Parsing; Natural Language Processing; Python; WEB Parsing; GUI; Natural Language Processing; Parsování HTML stránek Zpracování Přirozeného Jazyka; Parsování webových stránek; Python
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/173542