Národní úložiště šedé literatury Nalezeno 78 záznamů.  začátekpředchozí59 - 68další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Metody extrakce víceslovných výrazů z textu
Przywara, Česlav ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
Cílem této práce je efektivní implementace metod (automatické) extrakce víceslovných spojení z textu, tak aby výsledný program dokázal zpracovat rozsáhlé textové korpusy o velikosti v řádu až miliard slov. Další důležitou funkcí programu je možnost ukládání kontextu pro všechny extrahované N-gramy. Pro účely práce je výsledný program implementován speciálně pro extrakci kolokací ze závislostní strukturou z Pražského závislostního korpusu (PDT), ale návrh programu umožňuje jeho snadné rozšíření.
Sumarizace textu
Majliš, Martin ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
V předložené práci jsou vysvětleny základní principy automatické sumarizace, evaluace a základními pojmy, které se v této oblasti používají. Dále obsahuje popis implementace systém pro automatickou sumarizace a evaluaci textů - CsummaK (Czech Summarization Kit). Součástí tohoto systému jsou základní algoritmy pro tvorbu extrakt a jejich evaluaci, jejichž popis je také součástí této práce. Tento systém byl použit pro tvorbu automatických extraktů z novinových článků. Pro získání referenčních extraktů byl vytvoen další systém, který umožňuje uživatelům on-line vytvářet extrakty novinových článků. V práci je také provedeno měření kvality jednotlivých algoritmů, jejich kombinací s různou hodnotou parametrů společně s diskuzí nad možnostmi praktického nasazení.
Lexical Association Measures Collocation Extraction
Pecina, Pavel ; Hajič, Jan (vedoucí práce) ; Semecký, Jiří (oponent) ; Baldwin, Timothy (oponent)
This thesis is devoted to an empirical study of lexical association measures and their application to collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of surface bigrams from the Czech National Corpus provided with automatically assigned lemmas and part-of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole corpus. Collocation candidates in the reference data sets were manually annotated and labeled as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several combination methods that significantly improved the performance in this task. We also propose a model...
Vyhledávání v nesegmentované mluvené řeči
Češka, Pavel ; Peterek, Nino (oponent) ; Pecina, Pavel (vedoucí práce)
V této práci vyhledávám relevantní pasáže v nahrávkách českých svědků holocaustu z projektu MALACH. Zvukové záznamy těchto nahrávek jsou zpracovány systémem pro automatické rozpoznání řeči a přepisy z těchto systémů jsou lemmatizovány a opatřeny morfologickými tagy. V práci představuji skript, který z těchto dat generuje parametrizovatelné kolekce dokumentů. Problém vyhledávání informací v nesegmentované mluvené řeči poté přeformuluji na problém vyhledávání v těchto kolekcích dokumentů. V práci popisuji několik desítek experimentů zkoumajících vliv různých vyhledávacích technik na výsledky vyhledávání na těchto datech. Jedná se zejména o vliv normalizace slovních forem (lemmatizace), volby vyhledávacího modelu (TFIDF modelu, Okapi modelu a Indri modelu), obohacení dotazu o slepou zpětnou vazbu, odstranění nevýznamových slov podle frekvence či podle slovního druhu. Důraz je kladen také na různé hodnoty parametrů délky a přesahu generovaných dokumentů. Zjišťěné poznatky jsou v závěru práce ověřeny na testovacích datech. Přepisy výpovědí ani témata pro vyhledávání nejsou z právních důvodů součástí této práce.
Splitting word compounds
Oberländer, Jonathan ; Pecina, Pavel (vedoucí práce) ; Hlaváčová, Jaroslava (oponent)
Jazyky, jako je němčina, holandština, skandinávské jazyky nebo řečtina, na rozdíl od angličtiny netvoří kompozita jako víceslovné výrazy, ale spojením jednotlivých částí do nového slova bez ortografického oddělení. To představuje problém pro řadu úloh zpracování přirozeného jazyka, jako je například statistický strojový překlad či vyhledávání informací. Většina předešlých prací na téma rozkladu složenin na jejich částí se zaměřovala na němčinu. V této práci jsme vyvinuli nový jednoduchý systém založený na nařízeném strojovém učení pro automatický rozklad složenin pro tři reprezentativní kompozitní jazyky: němčina, švédština a maďarština. Součástí práce je vytvoření multilinguální evaluační datové sady z lékařské domény anotováním složenin získaných z korpusu EMEA a vyhodnocení několika variant našeho systému a srovnání s předchozími přístupy. Powered by TCPDF (www.tcpdf.org)
Vizualizace podobnosti dokumentů
Smejkalová, Lenka ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
V této práci se zabýváme vizuálním porovnáváním textů, především hledáním podobností v textových dokumentech pomocí techniky dotplotu. Pro tento způsob porovnávání byl implementován algoritmus a vytvořena uživatelská aplikace, se kterou je možno pracovat interaktivně. Pro zpracování více textů najednou byla vytvořena i command-line verze. Ovládání obou verzí je popsáno v uživatelské příručce v Příloze A. Dále se v práci zabýváme tím, jaké vzorky vznikají v dotplotu a co vypovídají o původním textu. Je možné hledat podobnosti v rámci jednoho souboru stejně dobře jako porovnávat dva různé soubory.
Automatické čištění HTML dokumentů
Marek, Michal ; Straňák, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek.
Aplikace pro ruční word alignment
Sochna, Jan ; Raab, Jan (oponent) ; Pecina, Pavel (vedoucí práce)
Cílem této práce bylo navrhnou a implementovat na platformě nezávislé, rychlé, flexibilní a přívětivé uživatelské rozhraní pro ruční párovaní (alignment)dvoujazyčných textů. Nové rozhraní nemá nedostatky existujících nástrojů na párování a proces ručního párování zefektivňuje. Jde např. o poloautomatické párování jednoduchých vět, skupinové operace s párováním, párování frází, možnost posunu jedné z párovaných vět podél řádku vůči druhé větě pro zlepšení přehlednosti, mají-li párované věty různou délku, přehledné zobrazování předchozího a navazujícího kontextu párovaných vět v obou jazycích a v neposlední řadě i statistika postupu párování. Vedle obvyklého řádkového pohledu - zobrazení párovaných textů ve dvou řádcích nad sebou, kdy se páruje propojením odpovídajících si slov čarou, byl realizován i pohled maticový - kdy slova věty v jednom jazyce odpovídají popisu řádků matice, slova v druhém jazyce odpovídají popisu sloupců matice a páruje se zvýrazněním průsečíku sloupce a řádku, které mají odpovídající si popisy. Mezi oběma pohledy lze během práce libovolně přepínat.
Hledání téměř identických dokumentů ve velkých kolekcích
Benčík, Daniel ; Kopecký, Michal (oponent) ; Pecina, Pavel (vedoucí práce)
Tato práce se zabývá problematikou vyhledávání dokumentů, které jsou si natolik podobné, že je můžeme považovat za (téměř) stejné, a to v kolekcích čítajících až miliony dokumentů. Největší důraz práce je kladen na porovnání nových, rychlých algoritmů řešících danou úlohu s algoritmy stávajícími, které jsou díky své složitosti pro obrovské kolekce nepoužitelné. Práce obsahuje implementaci obou metod přístupu k dané problematice spolu s aplikacemi umožňujícími experimentální porovnání obou těchto metod.
Grafové algoritmy a závislostní parsing
Wimberský, Antonín ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
V předložené práci studujeme praktické řešení problému závislostního parsingu pomocí grafového algoritmu hledání maximální kostry v orientovaném grafu (multigrafu). Výhodou tohoto přístupu je velmi snadné parsování jak projektivních, tak i neprojektivních větných konstrukcí. Parsovanou větu reprezentujeme orientovaným multigrafem, jehož vrcholy představují slova dané věty a hrany označují (potenciální) vazby mezi jednotlivými dvojicemi slov. Ohodnocení hran se získá z trénovacích dat, vypočítá se například jako pravděpodobnost vazby mezi danou dvojicí slov, případně v kombinaci s dalšími pokročilejšími metodami. Výslednou maximální kostru potom považujeme za závislostní strom dané věty.

Národní úložiště šedé literatury : Nalezeno 78 záznamů.   začátekpředchozí59 - 68další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.