Original title:
Generování textu z dat pomocí modelů pro editaci textu
Translated title:
Data-to-text generation with text-editing models
Authors:
Grajcar, Peter ; Dušek, Ondřej (advisor) ; Variš, Dušan (referee) Document type: Master’s theses
Year:
2023
Language:
eng Abstract:
[eng][cze] We explore the use of different model extensions of the FELIX neural transformer-based text-editing model for data-to-text generation. Our ap- proach is based on iterative text-editing - transforming the individual items of the input data into short sentences using trivial templates and then it- eratively improving the text by fusing the sentences using a text-editing model. Our extensions include replacing the FELIX's non-autoregressive de- coder with an autoregressive transformer decoder, extending the decoding so that it can preserve the input data in the output text, and adding a pointer network-based clause-level reordering mechanism. Furthermore, we propose our own new dataset versions of the WebNLG and DiscoFuse datasets for training the text-editing models. We evaluate our models on the WebNLG dataset with automatic metrics and manually analyse the outputs of selected models.Skúmame použitie rôznych rozšírení modelu FELIX, neurónovej sieti na úpravu textu založenej na transformeroch, pre generovanie textu z dát. Náš prístup je založený na iteratívnom editovaní textu - transformovaní jednotli- vých vstupných dát do krátkych viet pomocou jednoduchých šablón a násled- nom iteratívnom zlepšovaní textu zlúčením viet pomocou modelu na úpravu textu. Naše rozšírenia zahŕňajú nahradenie neautoregresívneho dekodéra mo- delu FELIX autoregresívnym transformérovým dekodérom, rozšírenie dekó- dovania tak, aby bolo možné zachovať vstupné dáta vo výstupnom texte a pridanie mechanizmu na reorganizáciu klauzí založeného na tzv. pointer ne- tworks. Ďalej navrhujeme vlastné nové verzie datasetov WebNLG a Disco- Fuse pre trénovanie modelov na úpravu textu. Naše modely vyhodnocujeme na datasete WebNLG pomocou automatických metrík a manuálne analyzu- jeme výstupy vybraných modelov.
Keywords:
natural language generation|data-to-text generation|text-editing models|natural language processing; generování přirozeného jazyka|generování textu z dat|modely pro editaci textu|zpracování přirozeného jazyka
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/184140