Název:
Rozpoznání významných prvků v textu webových stránek
Překlad názvu:
Important Entity Recognition in Web Page Text
Autoři:
Svítková, Veronika ; Hynek, Jiří (oponent) ; Burget, Radek (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Cieľom tejto práce je natrénovanie modelov pre rozpoznávanie pomenovaných entít na dátovej sade vytvorenej použitím štruktúrovaných dát webových stránok. Dátové sady sú vytvorené z názvov produktov a kníh z štruktúrovaných dát formátu JSON-LD a Microdata. Štruktúrované dáta boli získané zo stránok internetového obchodu a katalogizačnej stránky web scrapingom. Použité boli názvy samostatne a taktiež textový obsah stránok s automaticky anotovanými výskytmi názvov. Bolo natrénovaných celkom osem modelov v českom jazyku pre rozpoznanie názvov produktov a kníh použitím knižnice spaCy. Výsledné modely dosahujú f-score až 89.94 pre triedu produktov a 84.26 pre triedu kníh na vlastnej testovacej dátovej sade.
The aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset.
Klíčová slova:
corpus; information extraction; named entity recognition; spaCy; structured data; web scraping
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211124