Original title:
Uspořádání fragmentů textu s pomocí jazykového modelu
Translated title:
Reordering Text Fragments Using a Language Model
Authors:
Holubec, Michael ; Kocour, Martin (referee) ; Beneš, Karel (advisor) Document type: Master’s theses
Year:
2022
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem této práce je sestrojit a experimentálně ověřit účinnost jazykového modelu při identifikaci posloupnosti čtení (Reading Order). K tomuto účelu byl sestrojen jazykový model využívající rekurentní neuronovou síť LSTM. Práce dále navrhuje a implementuje celkem tři metody, jazykovou analýzu, prostorovou analýzu a kombinovanou analýzu, pomocí kterých je posloupnost čtení identifikována. Jazyková a kombinovaná analýza ke své činnosti přímo používají vytvořený jazykový model. Úspěšnost identifikace posloupnosti prostřednictvím všech tří metod byla změřena na třech datasetech obsahující novinové články s různým rozložením. Jazyková analýza dosahuje úspěšnosti 57,6 %, prostorová analýza dosahuje 91,6 %. Nejlepších výsledků dosahuje kombinovaná analýza, která vykazuje úspěšnost 92,9 %. Práce ukazuje, že jazykový model lze pro identifikaci posloupnosti čtení použít, avšak výsledky experimentů naznačují, že je vhodné zpracování odhadu posloupnosti doplnit o další informace, jako je to například v kombinované analýze, která pracuje jak s jazykovým modelem, tak s prostorovými informacemi.
The aim of this work is to construct and experimentally verify the effectiveness of the language model in identifying the reading order. For this purpose language model with LSTM architecture was constructed. This work designs and implements three methods which are used to identify reading order. These methods are Language analysis, Spatial analysis and Combined analysis. Language analysis and combined analysis used constructed language model. The success of the language model, and all three methods, was measured on three datasets containing newspaper articles. Language analysis reaches 57,6 % and spatial analysis reaches 91,6 %. Combined analysis achieved the best results 92,9 %. The work shows that the language model can be used to identify reading order but use of additional data (e.g. spatial data
Keywords:
Language analysis; Language model; Reading order; Spatial analysis; Jazyková analýza; Jazykový model; Posloupnost čtení; Prostorová analýza
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/207803