Original title:
Vizualizace neuronové sítě použité jako jazykový model
Translated title:
Visualizing Neural Network Used as a Language Model
Authors:
Ryšánek, Jakub ; Černocký, Jan (referee) ; Beneš, Karel (advisor) Document type: Bachelor's theses
Year:
2023
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
LSTM sít je typ neuronové sítě, která je určena na analýzu sekvenčních dat. Výhodou LSTM oproti jednoduché rekurentní neuronové síti je schopnost ukládat dlouhodobé závis- losti, což umožňuje dosahovat vyšší úspěšnosti při provádění úloh jako je rozpoznávání řeči nebo jazykové modelování. Avšak vzhledem z jejich komplexitě není zcela jasné jak přesně fungují. Abych prozkoumal jejich vnitřní chování tak jsem vytvořil tři vizualizační metody. Tyto metody se zaměřují na vzor chování jednotlivých prvků modelu nebo na chování celého modelu při zpracování slov s podobným syntaktickým nebo sémantickým významem.
Long short-term memory (LSTM) network is a type of neural network designed to analyze sequence data. The advantage of LSTM over the simple recurrent neural network is the ability to store long-term dependencies, which allows them to reach higher accuracy when performing tasks such as speech recognition or language modeling. However, due to their complexity, the internal processes that lead to these results are still not fully understood. To explore their inner workings, I created three visualization methods. These methods focus on the pattern of the behavior of the single unit present in the model or the behavior of the whole model when processing words with similar syntactic or semantic meanings.
Keywords:
LSTM; neuronové sítě; shlukování; t-SNE; vizualizace; clustering; LSTM; neural networks; t-SNE; visualization
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/211172