Národní úložiště šedé literatury Nalezeno 23 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Entity Relationship Extraction
Šimečková, Zuzana ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Úkol hledání sémantických vztahů mezi entitami na základě předloženého textu oz- načujeme jako extrakci vztahů (relationship extraction). Metodou distant supervision, která spočívá ve spojení báze znalostí (Wikidata) a korpusu (české Wikipedie), jsme vytvořili Český dataset pro extrakci vztahů (CERED). Použitou metodiku a problémy, na které jsme narazili, důkladně rozebíráme. CERED využíváme při tréninku neuronové sítě pro extrakci vztahů. Základem této sítě je BERT - lingvistický model předtrénovaný na velkém množství prostého textu. Navržený model vyhodnocujeme na anglických dat- ech (Semeval 2010 Task 8, TACRED) a porovnáváme jeho kvalitu s ostatními výsledky v oblasti extrakce vztahů. Přikládáme i výsledky naměřené na CEREDu. 1
Talk-Level Domain Adaptation of Speech Recognition
Srdečný, Vojtěch ; Bojar, Ondřej (vedoucí práce) ; Straňák, Pavel (oponent)
Tato práce se zabývá doménovou adaptací na úrovni jednotlivých přednášek pro automatické rozpoznávání řeči (ASR) a strojový překlad (MT). Stručně popíšeme existující metodu doménové apdatace pro ASR. Dále navrhneme metodu pro doménovou adaptaci strojového překladu za použití nesupervizovaného systému. Navrheme metriku pro vyhodnocování úspěšnosti adaptace. Provedeme doménovou adaptaci strojového překladu pro pětrůzných domén, ukážeme výsledky adap- tace a prodiskutujeme je. 1
CLARIN-DSpace repository at LINDAT/CLARIN : LINDAT/CLARIN FAIR repository for language data
Straňák, Pavel ; Košarko, Ondřej ; Mišutka, Jozef
Prezentujeme softwarové řešení a zkušenosti s provozem repozitáře pro jazyková data a nástroje pro zpracování přirozených jazyků - LINDAT/CLARIN. Představíme unikátní podporu licencování s důrazem na Open Access a to, jak podporujeme všechny 4 klíčové principy FAIR. Ukážeme vytváření záznamů včetně volby licence, jejich schvalování a publikaci editory, i prostředí pro administraci repozitáře včetně definice licencí, jejich podepisování a kontroly přístupu. Ukážeme také integrace repozitáře s dalšími službami a provozní statistiky.
Plný text: Stranak_Kosarko_Misutka_fulltext - Stáhnout plný textPDF
Prezentace: Stranak_prezentace_EN - Stáhnout plný textPDF
Videozáznam: Stranak_video - Stáhnout plný textMP4
English grammar checker and corrector: the determiners
Auersperger, Michal ; Pecina, Pavel (vedoucí práce) ; Straňák, Pavel (oponent)
Předkládaná práce přistupuje ke kontrole členů v anglickém textu jako ke klasi- fikační úloze řešené metodami strojového učení s učitelem. Každé jmenné frázi v textu je přiřazena jedna ze tří tříd reprezentující určitý, neurčitý nebo nulový člen. V rámci úvodní rešerše byl definován článek dosahující na takto pojaté úloze ne- jlepších výsledků. Daný experiment byl pak zreplikován a překonán. Pomocí jiných signálů a volbou rozdílného učícího algoritmu došlo k poklesu chyby klasifikace o cca. 34%. Výsledný model byl pak porovnán s výkonem expertů na dané úloze. Přes problémy srovnání způsobené rozdílností dat se zdá, že je-li model použit na typu dat, na kterém byl trénován, je jeho úspěšnost srovnatelná s lidskou silou. Použití modelu na jiných datech se ale neosvědčilo. Stejně tak se neosvědčila ani náhrada klasifikátoru za jazykový model, který by předpovídal potenciální člen pro každou pozici ve větě. 1
Natural Language Correction
Náplava, Jakub ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Cílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem.
Creating a Bilingual Dictionary using Wikipedia
Ivanova, Angelina ; Zeman, Daniel (vedoucí práce) ; Straňák, Pavel (oponent)
Název práce: Tvorba dvojjazycného slovníku s použitím Wikipedie Autor: Angelina Ivanova Katedra/ Ústav: Ústav formální a aplikované lingvistiky (32-ÚFAL) Vedoucí diplomové práce: RNDr. Daniel Zeman Ph.D. Abstrakt: Strojove citelné slovníky hrají duležitou roli v pocítacové lingvistice. Osved- cily se v oblastech jako je strojový preklad a mezijazykové dobývání informací. V této práci zkoumáme kvalitu a obsah dvojjazycných anglicko-ruských slovníku automaticky získaných z Wikipedie. Slovníky získané z Wikipedie (zde jim pro jednoduchost ríkáme Wiki-slovníky, ale tento pojem nelze zamenovat s Wikislovníkem na http://cs.wiktionary.org) se podstatne liší od tradicních slovníku: pokrytí základní terminologie z Muellerova slovníku je 7,42 %. Pokusy s Wiki-slovníky zabudovanými do trénovacích dat pro strojový preklad vedly k malému, nicméne statisticky významnému poklesu kvality prekladu ve srovnání s experimenty bez Wiki-slovníku. Predpokládáme, že hlavním duvodem je rozdílnost domén mezi slovníkem a korpusem. Na testovacích datech získaných z clánku Wikipedie naopak slovník kvalitu prekladu zlepšuje. V této práci ukazujeme, jak velký je rozdíl mezi slovníky získanými ze struk- tury Wikipedie a tradicními slovníky. Wiki-slovníky...
hlasové ovládání televize
Černý, Patrik ; Straňák, Pavel (vedoucí práce) ; Peterek, Nino (oponent)
Název práce: Hlasové ovládání televize Autor: Patrik Černý Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: Mgr. Pavel Straňák, Ph.D. Abstrakt: Cílem této práce je vytvořit hlasové ovládání televize, které bude po- užitelné pro jedince s poruchou hybnosti a řeči. Toho je dosaženo propojením počítače s televizí. Základ hlasového ovládání je postaven na známém algoritmu dynamic time warping. Ukázalo se, že hlasové ovládání televize je pro vysokou a často se měnící intenzitu zvuku příliš složitou úlohou. Úspěšnost rozpoznává- ní slov výsledné aplikace není moc vysoká, ale je pro dané potřeby dostačující. Program se dá díky jeho návrhu jednoduše rozšířit o techniky, které by dokázaly zvýšit efektivnost rozpoznávání. Klíčová slova: hlasové ovládání, rozpoznávání slov, dynamic time warping, televize 1
O čem píší dnešní noviny
Jankovský, Petr ; Holan, Tomáš (vedoucí práce) ; Straňák, Pavel (oponent)
Projekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky.
Annotation of Multiword Expressions in the Prague Dependency Treebank
Straňák, Pavel ; Hajič, Jan (vedoucí práce) ; Pala, Karel (oponent) ; Pecina, Pavel (oponent)
This thesis explores annotation of multiword expressions in the Prague Dependency Treebank 2.0. We explain, what we understand as multiword expressions (MWEs), review the state of PDT 2.0 with respect to MWEs and present our annotation. We describe the data format developed for the annotation, the annotation tool, and other soware developed to allow for visualisation and searching of the data. We also present the annotation lexicon SemLex and analysis of the annotation.
Pokročilý korektor češtiny
Richter, Michal ; Straňák, Pavel (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Cílem práce je implementovat český spell-checker, který bude využívat jazykové modely a lexikální morfologické analýzy za účelem nabízení co nejkvalitnějšího seznamu možností oprav pro jednotlivé překlepy a za účelm odhalení překlepů, které jsou zároveň platnými českými slovy. Systém by měl zároveň poskytovat službu obnovy diakritiky v českém textu. Za cílovou platformu byl zvolen operační systém Mac OS X. Během implementace byl kladen důraz zejména na efektivní paměťovou reprezentaci statistických modelů. V práci je podán přehled o použitých metodách - HMMs, language models, Viterbi algorithm. Dále je popsána vlastní implementace systému a trénování statistických modelů. Na závěr pak číselná evaluace úspěšnosti systému a diskuze dosažených výsledků.

Národní úložiště šedé literatury : Nalezeno 23 záznamů.   předchozí11 - 20další  přejít na záznam:
Viz též: podobná jména autorů
3 Straňák, Peter
4 Straňák, Petr
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.