Název:
Čištění, extrakce textu a převod webových stránek do vertikálního formátu
Překlad názvu:
Cleaning, extraction of text and transformation of web pages into vertical format
Autoři:
Švaňa, Miloš ; Otrusina, Lubomír (oponent) ; Dytrych, Jaroslav (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2016
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Táto práca za zaoberá problematikou extrakcie textu z webových stránok, rozlíšením dôležitého obsahu a jeho prevodom do vertikálneho formátu, ktorý je vhodný na ďalšie spracovanie z pohľadu analýzy prirodzeného jazyka. Analyzuje existujúce riešenie a jeho komponenty so zameraním predovšetkým na jeho nedostatky a popisuje návrh a implemetáciu riešenia nového využívajúce získané znalosti.
This thesis deals with the topic of extraction of text from web page, recognition of important contents and its transformation to vertical format, which can be used as a suitable input for other natural language processing tasks. It analyzes the existing solution and its components with emphasis on its disadvantages and describes the design and implementation of new solution based on obtained knowledge.
Klíčová slova:
Boilerpipe; CommonCrawl; extrakcia textu; Justext; klasifikácia textu; spracovanie prirodzeného jazyka.; Vertikalizácia; web; Boilerpipe; CommonCrawl; Justext; natural language processing.; text classification; text extraction; Vertcalization; web
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/62205