Original title:
Generování textu ze strukturovaných dat
Translated title:
Generating text from structured data
Authors:
Trebuňa, František ; Rosa, Rudolf (advisor) ; Kasner, Zdeněk (referee) Document type: Bachelor's theses
Year:
2021
Language:
eng Abstract:
[eng][cze] In this thesis we examine ways of conditionally generating document-scale natural language text given structured input data. Specifically we train Deep Neural Network models on RotoWire dataset containing statistical data about basketball matches paired with descriptive summaries. First, we analyse the dataset and propose several prepro- cessing methods (e.g. Byte Pair Encoding). Next, we train a baseline model based on the Encoder-Decoder architecture on the preprocessed dataset. We discuss several prob- lems of the baseline and explore advanced Deep Neural Network architectures that aim to solve them (Copy attention, Content Selection, Content Planning). We hypothesize that our models are not able to learn the structure of the input data and we propose a method reducing its complexity. Our best model trained on the simplified data manages to outperform the baseline by more than 5 BLEU points. 1V tejto bakalárskej práci skúmame možnosti generovania textu v prirodzenom ja- zyku podmieneného štruktúrovanými vstupnými dátami. Konkrétne trénujeme hlboké neurónové siete na datasete RotoWire, ktorý obsahuje štatistické údaje o basketbalovom zápase spárované s ich súhrnmi. Najprv analyzujeme dataset a navrhneme niekoľko me- tód preprocessingu (napríklad Byte Pair Encoding). Následne trénujeme základný model založený na architektúre Encoder-Decoder na pripravenom datasete. Popíšeme niekoľko problémov základného modelu a skúmame niekoľko pokročilých neurónových architektúr, ktoré majú tieto problémy riešiť (Copy Attention, Content Selection, Content Planning). Naša analýza naznačuje, že modely nedokážu pochopiť štruktúru vstupných dát. Navr- hujeme preto metódu na zjednodušenie jej zložitosti. Náš najlepší model vytrénovaný na zjednodušených dátach prekonáva základný model o viac ako 5 bodov BLEU. 1
Keywords:
text generation|structured data|natural language processing|neural networks; generování textu|strukturovaná data|zpracování přirozeného jazyka|neuronové sítě
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/127962