Název:
Paralelní korpusový manažer
Překlad názvu:
Parallel Corpus Manager
Autoři:
Kouřil, Jan ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2011
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cílem diplomové práce bylo implementovat paralelní korpusový manažer, který umí zarovnat paralelní cizojazyčné texty a vložit je do korpusu, kde jsou poskytnuty další funkce pro jejich zpracování. Program poskytuje možnosti automatického zarovnání paralelních textů a jejich interaktivní úpravy. Tyto zarovnané texty se následně vkládají do korpusu. Program umí spravovat několik korpusů, paralelní korpus je identifikován vždy dvojicí jazyků. V korpusu je potom možno vyhledávat podle několika kategorií, zobrazovat a editovat jednotlivé výběry, lemmatizovat a morfologicky značkovat dané texty, provádět různá třídění výběrů, importovat a exportovat data, různými způsoby upravovat korpus pro další snadnou navigaci a přidávat další významy do spravovaných slovníků. Jednotlivé kapitoly popisují úvod ke korpusové problematice, teorii zarovnání paralelních textů, morfologické značkování textu a lemmatizaci, externí nástroje v programu použité, nejčastější formáty titulků a implementační řešení jednotlivých problémů.
The goal of diploma project was to implement parallel corpus manager, which can align parallel texts in different languages and insert them into corpus, where several more processing functions are provided. Program provides possibilities of automatic text alignment and its interactive editing. These aligned texts are then inserted into corpus. Program can work with multiple corpora, parallel corpus is allways identified by a couple of languages. In corpus, there are possibilities to search by many categories, view and edit particular selections, lemmatize and morphologically tag given texts, sort selections, import and export data, in many ways edit corpus for further easy navigation and add new expressions to managed dictionaries. Particular chapters describe introduction to corpus problematics, theory of aligning parallel texts, morphological text tagging and lemmatization, external tools used in program, most common subtitle formats and implementation solution of particular problems.
Klíčová slova:
C++; hunalign; korpus; lemmatizace; manažer; morfologie; paralelní; Qt; subdownloader; titulky; treetagger; zarovnávání; alignment; C++; corpus; hunalign; lemmatization; manager; morphology; parallel; Qt; subdownloader; subtitles; treetagger
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/54071