Název:
Analýza a vizualizace chování jazykového modelu GPT-2
Překlad názvu:
Analysis and visualization of the GPT-2 language model
Autoři:
Šipoš, Daniel ; Mareček, David (vedoucí práce) ; Rosa, Rudolf (oponent) Typ dokumentu: Diplomové práce
Rok:
2022
Jazyk:
slo
Abstrakt: [eng][cze] Visualization of deep neural network models with Transformer architecture is generally a very demanding task which is usually solved by visualizing attention blocks and moni- toring which words these block focus on. However, Transformer models have many layers and there are multiple attention heads on each layer. Therefore, each head may attend to different linguistic features. In this work, we focus on developing an application that is designed to visualize the behaviour of GPT-2 language models more clearly. We propose four visualization methods that examine the dependencies of generated words on pre- vious words in the text. We monitor these dependencies by removing one of the words in the previously generated text or replacing it with a similar word and then observing changes of the probability of the generated word. We show the results of our methods produced on the GPT-2 Medium model and formulate hypotheses with the aim to explain them. 1Vizualizácia komplexných modelov neurónových sietí s architektúrou typu Transfor- mer je vo všeobecnosti veľmi náročná úloha, ktorá sa väčšinou rieši vizualizáciou blokov Attention a sledovaním, na ktoré slová sa tento blok zameriava. Modely Transformer ale majú veľké množstvo vrstiev, na každej vrstve majú veľké množstvo hláv Attention a každá hlava môže sledovať rôzne lingvistické znaky. My sme sa preto v tejto práci za- merali na vytvorenie programu, ktorý je určený na prehľadnejšiu vizualizáciu správania jazykového modelu GPT-2. Prišli sme so štyrmi metódami vizualizácie, ktoré skúmajú závislosti generovaných slov od prechádzajúcich slov v texte. Tieto závislosti sledujeme tak, že skúsime prvé slovo v texte vynechať alebo zameniť za podobné slovo a pozorujeme zmenu v pravdepodobnosti generovaného slova. Metódy sme vyskúšali na modele GPT- 2 Medium a demonštrujeme, aké výsledky dané metódy vytvorili. Zároveň vyslovujeme hypotézy, ktoré sa pokúšajú objasniť, prečo tieto výsledky vyšli práve tak. 1
Klíčová slova:
transformer|jazykový model|GPT-2|vizualizace; transformer|language model|GPT-2|visualization