Original title:
Automatická tvorba paralelního korpusu z titulků k filmům
Translated title:
Automatic Creation of Parallel Corpus from Movie Subtitles
Authors:
Straňák, Marek ; Černocký, Jan (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2009
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Táto práca sa zaoberá tvorbou paralelného korpusu, ktorého zdrojom sú filmové titulky. Konkrétne sa jedná o zarovnanie českých a anglických viet s využitím slovníkov a morfologických analyzátorov, prípadne zarovnanie titulkov v iných jazykoch na základe časovania jednotlivých komentárov. Práca taktiež pojednáva o obecnej problematike paralelných korpusov.
This work is about the creation of parallel corpus, where movie subtitles is main source. In particulary, it is about alignment czech and english sentences using dictionaries and morphologic analyzers or alignment talks of subtitles in other languages using timing of talks. The work give basic information about parallel corpus.
Keywords:
alignment; parallel corpus; subtitles; tagging; paralelný korpus; titulky; zarovnanie; značkovanie
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/54454