Original title:
Analýza entit v psychoterapeutických sezeních
Translated title:
High Level Analysis of the Psychotherapy Sessions
Authors:
Polok, Alexander ; Karafiát, Martin (referee) ; Matějka, Pavel (advisor) Document type: Master’s theses
Year:
2023
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá analýzou psychoterapeutických sezení v rámci výzkumného projektu DeePsy. Jejím cílem je navrhnout a vytvořit sadu příznaků modelujících průběh sezení, jež mohou odhalit na první pohled nepatrné nuance. Zmíněné příznaky jsou automaticky extrahovány ze zdrojové nahrávky s využitím hlubokých neuronových sítí. Příznaky jsou zpracovány, porovnány napříč sezeními a graficky zobrazeny, čímž vzniká dokument plnící roli zpětné vazby o sezení pro terapeuta. Tato zpětná vazba může posloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu. Bylo dosaženo relativního zlepšení detekce řečové aktivity o 37,82 %. Byl zobecněn diarizační systém VBx ke konvergenci ke dvěma mluvčím s minimálním relativním zhoršením chybovosti o 0,66 %. Byl natrénován systém pro automatické rozpoznávání řeči, jehož chybovost je o 17,06 % relativně lepší než nejlepší dostupný hybridní model. Dále byly natrénovány systémy pro klasifikaci sentimentu, typu terapeutických intervencí a detekci překrývající se řeči.
This work focuses on analyzing psychotherapy sessions within the DeePsy research project. This work aims to design and develop features that model the session dynamics, which can reveal seemingly subtle nuances. The mentioned features are automatically extracted from the source recording using neural networks. They are further processed, compared across sessions, and displayed graphically, creating a document that acts as a feedback document about the session for the therapist. Furthermore, this assistive tool can help therapists to professionally grow and to provide better psychotherapy in the future. A relative improvement in voice activity detection of 37.82% was achieved. The VBx diarization system was generalized to converge to two speakers with a minimum relative error rate degradation of 0.66%. An automatic speech recognition system has been trained with a 17.06% relative improvement over the best available hybrid model. Models for sentiment classification, type of therapeutic interventions, and overlapping speech detection were also trained.
Keywords:
colloquial language; contrastive learning; diarization; keyword detection; language models; machine learning; natural language processing; neural networks; overlapping speech; psychotherapy session analysis; self-supervised learning; sentiment detection; speech processing; speech recognition; summarization; therapeutic interventions classification; transformers; wav2vec 2.0; whisper; analýza psychoterapeutických sezení; detekce klíčových slov; detekce sentimentu; diarizace; hovorový jazyk; jazykové modely; klasifikace terapeutických intervencí; kontrastivní učení; neuronové sítě; překrývající se řeč; rozpoznávání řeči; strojové učení; sumarizace; transformery; učení s vlastním dozorem; wav2vec 2.0; whisper; zpracování přirozeného jazyka; zpracování řeči
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/211922