Národní úložiště šedé literatury Nalezeno 2 záznamů.  Hledání trvalo 0.00 vteřin. 
Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Pouzar, Aleš ; Svátek, Vojtěch (vedoucí práce) ; Labský, Martin (oponent)
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě extrakčních pravidel lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní formátovací struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. Dosažená úspěšnost v extrakci nabídek notebooků ukázala, že by extrakční ontologie, popisující jeden nebo několik málo typů produktů, mohla být úspěšně využita v kombinaci s metodami pro indukci wrapperů a tím automaticky extrahovat nabídky všech typů produktů na úrovni webu.
Úloha OCR technologie a její využití v digitalizaci dokumentů
Pouzar, Aleš ; Horný, Stanislav (vedoucí práce) ; Krsek, Libor (oponent)
Optické rozpoznávání znaků se stalo v posledních letech díky boomu informačních technologií oblíbenou a cenově přívětivou technologií, která umožňuje efektivně sdílet velké množství informací obsažených v papírových dokumentech. Tato práce se zaměřuje na systémy určené pro zpracování dokumentů do elektronické editovatelné podoby. Podává přehled o základních metodách OCR technologie, měří výkonnost systémů a zkoumá přínos technik pro vylepšování obrazu pomocí srovnávacích testů na vzorku rozmanitých dokumentů.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.