|
Metody sumarizace dokumentů na webu
Belica, Michal ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Práce se zabývá sumarizací dokumentů ve formátu HTML. Jako jazyk webových dokumentů byla zvolena čeština. Práce je zaměřená na algoritmy sumarizace textů. Součástí práce je však i předzpracování sumarizovaného dokumentu a převod textu na reprezentaci vhodnou pro sumarizační algoritmy. Práce krátce pojednává o všeobecném dolování textů a později se zaměřuje na sumarizaci. Představené jsou dva jednoduché sumarizační algoritmy, přičemž práce se zaměřuje na pokročilý algoritmus využívající latentní sémantické analýzy. Výsledkem práce je návrh a implementace sumarizačního modulu pro jazyk Python. Souhrny generované implementovanými sumarizačními metodami jsou v závěrečné kapitole porovnány pomocí evaluačních metod i z pohledu subjektivního hodnocení autora práce.
|
| |
| |
|
Automated web information extraction
Smotrila, Tomáš ; Mráz, František (vedoucí práce) ; Dokulil, Jiří (oponent)
1 Webové stránky zpřístupňují ohromné množství informací. Často se jedná o stránky generované z dat uložených v databázích. Přitom je kladen důraz na zobrazení informací, ale ne na jejich strojové zpracování. V diplomové práci je navrhnut a implementován prototyp systému na získávání dat z dynamicky generovaných webových stránek technikou programování demonstrací (programming by demonstration). Tento systém umožní uživateli myší ukázat, jak má systém postupovat při sběru informací z dané webové stránky. Na základe této ukázky by systém měl odvodit postup, jak získávat informace na podobných stránkách. Implementovaný systém dokáže posbírat pro uživatele relevantní informace z podobných stránek například do tvaru jednoduché tabulky vhodné na další strojové zpracování.
|
|
Metody sumarizace dokumentů na webu
Belica, Michal ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Práce se zabývá sumarizací dokumentů ve formátu HTML. Jako jazyk webových dokumentů byla zvolena čeština. Práce je zaměřená na algoritmy sumarizace textů. Součástí práce je však i předzpracování sumarizovaného dokumentu a převod textu na reprezentaci vhodnou pro sumarizační algoritmy. Práce krátce pojednává o všeobecném dolování textů a později se zaměřuje na sumarizaci. Představené jsou dva jednoduché sumarizační algoritmy, přičemž práce se zaměřuje na pokročilý algoritmus využívající latentní sémantické analýzy. Výsledkem práce je návrh a implementace sumarizačního modulu pro jazyk Python. Souhrny generované implementovanými sumarizačními metodami jsou v závěrečné kapitole porovnány pomocí evaluačních metod i z pohledu subjektivního hodnocení autora práce.
|