Original title:
Extrakce dat z popisu zboží
Translated title:
Data Extraction from Product Descriptions
Authors:
Sláma, Vojtěch ; Očenášek, Pavel (referee) ; Burget, Radek (advisor) Document type: Master’s theses
Year:
2008
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá návrhem a implementací systému pro automatizovanou podporu sběru informací o zboží pro účely elektronických obchodů. Uvádí přehled existujících přístupů pro extrakci informací z HTML dokumentů, zejména se zaměřuje na wrappery a metody jejich automatické konstrukce. Zmíněn je i vizuální přístup k extrakci dat z dokumentů. V části zabývající se návrhem jsou formalizovány požadavky na systém a navrženy základní principy systému. Implementační část obsahuje podrobný popis algoritmu pro hledání cest ve stromu dokumentu. V závěru práce jsou zhodnoceny výsledky dosažené při experimentech.
This work concentrates on the design and implementation of an automated support for data extraction from product descriptions. This system will be used for e-shop purposes. The work introduces present approaches to information extraction from HTML documents. It focuses chiefly at wrappers and methods for their induction. The visual approach to information extraction is also mentioned. System requirements and basic principles are described in the design part of the work. Next, a detailed description of a path tracing algorithm in document object model is explained. The last section of the work evaluates the results of experiments made with the implemented system.
Keywords:
DOM.; e-shop; Information extraction; JavaScript; webshop; wrapper; wrapper induction; DOM.; e-shop; elektronický obchod; Extrakce informací; indukce wrapperu; JavaScript; wrapper
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53164