Název:
Analýza entit v psychoterapeutických sezeních
Překlad názvu:
High Level Analysis of the Psychotherapy Sessions
Autoři:
Polok, Alexander ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2023
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá analýzou psychoterapeutických sezení v rámci výzkumného projektu DeePsy. Jejím cílem je navrhnout a vytvořit sadu příznaků modelujících průběh sezení, jež mohou odhalit na první pohled nepatrné nuance. Zmíněné příznaky jsou automaticky extrahovány ze zdrojové nahrávky s využitím hlubokých neuronových sítí. Příznaky jsou zpracovány, porovnány napříč sezeními a graficky zobrazeny, čímž vzniká dokument plnící roli zpětné vazby o sezení pro terapeuta. Tato zpětná vazba může posloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu. Bylo dosaženo relativního zlepšení detekce řečové aktivity o 37,82 %. Byl zobecněn diarizační systém VBx ke konvergenci ke dvěma mluvčím s minimálním relativním zhoršením chybovosti o 0,66 %. Byl natrénován systém pro automatické rozpoznávání řeči, jehož chybovost je o 17,06 % relativně lepší než nejlepší dostupný hybridní model. Dále byly natrénovány systémy pro klasifikaci sentimentu, typu terapeutických intervencí a detekci překrývající se řeči.
This work focuses on analyzing psychotherapy sessions within the DeePsy research project. This work aims to design and develop features that model the session dynamics, which can reveal seemingly subtle nuances. The mentioned features are automatically extracted from the source recording using neural networks. They are further processed, compared across sessions, and displayed graphically, creating a document that acts as a feedback document about the session for the therapist. Furthermore, this assistive tool can help therapists to professionally grow and to provide better psychotherapy in the future. A relative improvement in voice activity detection of 37.82% was achieved. The VBx diarization system was generalized to converge to two speakers with a minimum relative error rate degradation of 0.66%. An automatic speech recognition system has been trained with a 17.06% relative improvement over the best available hybrid model. Models for sentiment classification, type of therapeutic interventions, and overlapping speech detection were also trained.
Klíčová slova:
analýza psychoterapeutických sezení; detekce klíčových slov; detekce sentimentu; diarizace; hovorový jazyk; jazykové modely; klasifikace terapeutických intervencí; kontrastivní učení; neuronové sítě; překrývající se řeč; rozpoznávání řeči; strojové učení; sumarizace; transformery; učení s vlastním dozorem; wav2vec 2.0; whisper; zpracování přirozeného jazyka; zpracování řeči; colloquial language; contrastive learning; diarization; keyword detection; language models; machine learning; natural language processing; neural networks; overlapping speech; psychotherapy session analysis; self-supervised learning; sentiment detection; speech processing; speech recognition; summarization; therapeutic interventions classification; transformers; wav2vec 2.0; whisper
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211922