Original title:
K prozodii mluvené češtiny metodami korpusové lingvistiky
Translated title:
Investigating prosody in spoken Czech: A corpus-linguistic approach
Authors:
Lukeš, David ; Vondřička, Pavel (advisor) ; Volín, Jan (referee) ; Čech, Radek (referee) Document type: Doctoral theses
Year:
2023
Language:
eng Abstract:
[eng][cze] Prosody is a key aspect of spoken language, yet it is currently underrepresented in the spoken Czech corpora on offer at the Czech National Corpus. This is mainly because spoken corpora are very expensive and manual work intensive as it is, and adding more annotation manually is infeasible. The present dissertation thus charts a way to provide an automatic prosodic annotation for the spoken corpora of the CNC using the Prosogram framework, in combination with other tools and various custom postprocessing strategies and heuristics. Acaseisalsomadeinfavoroftheory-light,predominantlydescriptiveapproaches when preparing general-purpose spoken corpus annotations for the consumption of the linguistics research community at large, in a variety of contexts and research tasks. This case is philosophically anchored in a discriminative approach to meaning, which is shown to be the correct, paradox-free alternative to the currently more dominant paradigm of compositionality. Finally, a selection of results based on the Prosogram-generated annotation is presented. A particular focus is given to pitch range, which is characteristically restricted in Czech compared to other languages like English, but other features such as glissandos are also considered. Keywords: Czech, speech, prosody, corpus linguistics,...Prozodie je klíčovým aspektem mluveného jazyka, nicméně v korpusech mluvené češtiny, které jsou aktuálně v nabídce Českého národního korpusu, je reprezen- tována jen okrajově. Primární důvod je ten, že mluvené korpusy jsou už tak velmi náročné co se nákladů a manuální práce týče, takže přidávat další manuálně an- otované prvky není schůdné. Předkládaná práce tak nabízí cestu, jak prozodickou anotaci doplnit do těchto korpusů automaticky, pomocí systému Prosogram v kom- binaci s dalšími nástroji a vlastními postprocessingovými postupy a heuristikami. Součástí teoretického zdůvodnění volby Prosogramu jako anotačního nástroje je i analýza toho, jak funguje v jazyce význam. Filozoficky je ukotvená v diskrimina- tivním pojetí významu, které na rozdíl od aktuálně dominantního kompozičního pojetí neskýtá při důsledné aplikaci žádné paradoxy. Vyplývá z ní, že anotaci obec- ných mluvených korpusů, která cílí na užití širokou lingvistickou komunitou v různýchkontextecha při různých výzkumných úkolech,je vhodné cílit deskriptivně, s minimální poplatností konkrétním teoriím. Prezentované výsledky, získané pomocí zpracování Prosogramem, se soustředí zejména na intonační rozpětí, protože omezené intonační rozpětí je poměrně ná- padným rysem češtiny ve srovnání s jinými jazyky, např. angličtinou. Věnujeme se...
Keywords:
Czech|speech|prosody|corpus linguistics|discriminative|meaning; čeština|mluvený jazyk|prozodie|korpusová lingvistika|diskriminativní|význam
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/180284