Národní úložiště šedé literatury Nalezeno 1 záznamů.  Hledání trvalo 0.01 vteřin. 
Information Extraction from structured business documents by learning from similarity
Holeček, Martin ; Maršík, František (vedoucí práce) ; Liwicki, Marcus (oponent) ; Mesiti, Marco (oponent)
Automatizace zpracování dokumentů si v poslední době získává pozornost kvůli velkému potenciálu usnadnění manuální práce prostřednictvím vylepšených výpočet- ních metod a hardwaru. V této oblasti se neuronové sítě uplatňovaly již dříve - i když byly dosud trénovány pouze na relativně malých datasetech se stovkami dokumentů. Aby bylo možné úspěšně prozkoumat techniky hlubokého učení a zlepšit výsledky extrakce informací, byl sestaven, anonymizován a publikován dataset s více než dvaceti pěti tisíci dokumenty (proforma fakturami, fakturami a vrubopisy). V první části výzkumu prozkoumáme dokumenty z hlediska de- tekce tabulek, představíme přehled metod detekce tabulek a nakonec přeformulu- jeme detekci tabulek jako problém označování textových polí, abychom optimal- izovali mikro F1 skóre na jednotlivých slovech. Ukážeme, že můžeme extrahovat specifické informace ze strukturálně odlišných tabulek nebo struktur podobných tabulkám pomocí jednoho trénovatelného modelu, který představuje komplexní reprezentaci stránky pomocí grafu slov, pozičního embeddingu a trénovatelného embeddingu slov. První část je úspěšně vyřešena novou architekturou neuronové sítě, která dosahuje vysoké úspěšnosti na zkoumaném datasetu. Dále je prezen- tována analýza výkonnosti modelu a je ověřeno, že konvoluce, grafové konvoluce a...

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.