Pecina, Pavel - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: Pecina, Pavel

Hledej:



Tipy pro vyhledávaní :: Jednoduché hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Metody extrakce víceslovných výrazů z textu Przywara, Česlav ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce) Cílem této práce je efektivní implementace metod (automatické) extrakce víceslovných spojení z textu, tak aby výsledný program dokázal zpracovat rozsáhlé textové korpusy o velikosti v řádu až miliard slov. Další důležitou funkcí programu je možnost ukládání kontextu pro všechny extrahované N-gramy. Pro účely práce je výsledný program implementován speciálně pro extrakci kolokací ze závislostní strukturou z Pražského závislostního korpusu (PDT), ale návrh programu umožňuje jeho snadné rozšíření. Úplný záznam
	Sumarizace textu Majliš, Martin ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce) V předložené práci jsou vysvětleny základní principy automatické sumarizace, evaluace a základními pojmy, které se v této oblasti používají. Dále obsahuje popis implementace systém pro automatickou sumarizace a evaluaci textů - CsummaK (Czech Summarization Kit). Součástí tohoto systému jsou základní algoritmy pro tvorbu extrakt a jejich evaluaci, jejichž popis je také součástí této práce. Tento systém byl použit pro tvorbu automatických extraktů z novinových článků. Pro získání referenčních extraktů byl vytvoen další systém, který umožňuje uživatelům on-line vytvářet extrakty novinových článků. V práci je také provedeno měření kvality jednotlivých algoritmů, jejich kombinací s různou hodnotou parametrů společně s diskuzí nad možnostmi praktického nasazení. Úplný záznam
	Lexical Association Measures Collocation Extraction Pecina, Pavel ; Hajič, Jan (vedoucí práce) ; Semecký, Jiří (oponent) ; Baldwin, Timothy (oponent) This thesis is devoted to an empirical study of lexical association measures and their application to collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of surface bigrams from the Czech National Corpus provided with automatically assigned lemmas and part-of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole corpus. Collocation candidates in the reference data sets were manually annotated and labeled as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several combination methods that significantly improved the performance in this task. We also propose a model... Úplný záznam
	Vyhledávání v nesegmentované mluvené řeči Češka, Pavel ; Peterek, Nino (oponent) ; Pecina, Pavel (vedoucí práce) V této práci vyhledávám relevantní pasáže v nahrávkách českých svědků holocaustu z projektu MALACH. Zvukové záznamy těchto nahrávek jsou zpracovány systémem pro automatické rozpoznání řeči a přepisy z těchto systémů jsou lemmatizovány a opatřeny morfologickými tagy. V práci představuji skript, který z těchto dat generuje parametrizovatelné kolekce dokumentů. Problém vyhledávání informací v nesegmentované mluvené řeči poté přeformuluji na problém vyhledávání v těchto kolekcích dokumentů. V práci popisuji několik desítek experimentů zkoumajících vliv různých vyhledávacích technik na výsledky vyhledávání na těchto datech. Jedná se zejména o vliv normalizace slovních forem (lemmatizace), volby vyhledávacího modelu (TFIDF modelu, Okapi modelu a Indri modelu), obohacení dotazu o slepou zpětnou vazbu, odstranění nevýznamových slov podle frekvence či podle slovního druhu. Důraz je kladen také na různé hodnoty parametrů délky a přesahu generovaných dokumentů. Zjišťěné poznatky jsou v závěru práce ověřeny na testovacích datech. Přepisy výpovědí ani témata pro vyhledávání nejsou z právních důvodů součástí této práce. Úplný záznam
	Splitting word compounds Oberländer, Jonathan ; Pecina, Pavel (vedoucí práce) ; Hlaváčová, Jaroslava (oponent) Jazyky, jako je němčina, holandština, skandinávské jazyky nebo řečtina, na rozdíl od angličtiny netvoří kompozita jako víceslovné výrazy, ale spojením jednotlivých částí do nového slova bez ortografického oddělení. To představuje problém pro řadu úloh zpracování přirozeného jazyka, jako je například statistický strojový překlad či vyhledávání informací. Většina předešlých prací na téma rozkladu složenin na jejich částí se zaměřovala na němčinu. V této práci jsme vyvinuli nový jednoduchý systém založený na nařízeném strojovém učení pro automatický rozklad složenin pro tři reprezentativní kompozitní jazyky: němčina, švédština a maďarština. Součástí práce je vytvoření multilinguální evaluační datové sady z lékařské domény anotováním složenin získaných z korpusu EMEA a vyhodnocení několika variant našeho systému a srovnání s předchozími přístupy. Powered by TCPDF (www.tcpdf.org) Úplný záznam
	Vizualizace podobnosti dokumentů Smejkalová, Lenka ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce) V této práci se zabýváme vizuálním porovnáváním textů, především hledáním podobností v textových dokumentech pomocí techniky dotplotu. Pro tento způsob porovnávání byl implementován algoritmus a vytvořena uživatelská aplikace, se kterou je možno pracovat interaktivně. Pro zpracování více textů najednou byla vytvořena i command-line verze. Ovládání obou verzí je popsáno v uživatelské příručce v Příloze A. Dále se v práci zabýváme tím, jaké vzorky vznikají v dotplotu a co vypovídají o původním textu. Je možné hledat podobnosti v rámci jednoho souboru stejně dobře jako porovnávat dva různé soubory. Úplný záznam
	Automatické čištění HTML dokumentů Marek, Michal ; Straňák, Pavel (oponent) ; Pecina, Pavel (vedoucí práce) Tato práce popisuje systém pro automatické čištění HTML dokumentů, který byl použit při účasti Univerzity Karlovy v soutěži CLEAN- EVAL 2007. CLEANEVAL je sdílená úloha (shared task) a soutěž automatických systémů pro čištění libovolných stránek s cílem použít webová data jako korpus v počítačové lingvistice a zpracování přirozeného jazyka. Tuto úlohu řešíme jako problém značkování sekvencí (sequence labeling) a náš experimentální systém je založen na algoritmu Conditional Random Fields, používajícím vlastnosti (features) bloků textu odvozené z textového obsahu a HTML struktury analyzovaných webových stránek. Úplný záznam
	Aplikace pro ruční word alignment Sochna, Jan ; Raab, Jan (oponent) ; Pecina, Pavel (vedoucí práce) Cílem této práce bylo navrhnou a implementovat na platformě nezávislé, rychlé, flexibilní a přívětivé uživatelské rozhraní pro ruční párovaní (alignment)dvoujazyčných textů. Nové rozhraní nemá nedostatky existujících nástrojů na párování a proces ručního párování zefektivňuje. Jde např. o poloautomatické párování jednoduchých vět, skupinové operace s párováním, párování frází, možnost posunu jedné z párovaných vět podél řádku vůči druhé větě pro zlepšení přehlednosti, mají-li párované věty různou délku, přehledné zobrazování předchozího a navazujícího kontextu párovaných vět v obou jazycích a v neposlední řadě i statistika postupu párování. Vedle obvyklého řádkového pohledu - zobrazení párovaných textů ve dvou řádcích nad sebou, kdy se páruje propojením odpovídajících si slov čarou, byl realizován i pohled maticový - kdy slova věty v jednom jazyce odpovídají popisu řádků matice, slova v druhém jazyce odpovídají popisu sloupců matice a páruje se zvýrazněním průsečíku sloupce a řádku, které mají odpovídající si popisy. Mezi oběma pohledy lze během práce libovolně přepínat. Úplný záznam
	Hledání téměř identických dokumentů ve velkých kolekcích Benčík, Daniel ; Kopecký, Michal (oponent) ; Pecina, Pavel (vedoucí práce) Tato práce se zabývá problematikou vyhledávání dokumentů, které jsou si natolik podobné, že je můžeme považovat za (téměř) stejné, a to v kolekcích čítajících až miliony dokumentů. Největší důraz práce je kladen na porovnání nových, rychlých algoritmů řešících danou úlohu s algoritmy stávajícími, které jsou díky své složitosti pro obrovské kolekce nepoužitelné. Práce obsahuje implementaci obou metod přístupu k dané problematice spolu s aplikacemi umožňujícími experimentální porovnání obou těchto metod. Úplný záznam
	Grafové algoritmy a závislostní parsing Wimberský, Antonín ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce) V předložené práci studujeme praktické řešení problému závislostního parsingu pomocí grafového algoritmu hledání maximální kostry v orientovaném grafu (multigrafu). Výhodou tohoto přístupu je velmi snadné parsování jak projektivních, tak i neprojektivních větných konstrukcí. Parsovanou větu reprezentujeme orientovaným multigrafem, jehož vrcholy představují slova dané věty a hrany označují (potenciální) vazby mezi jednotlivými dvojicemi slov. Ohodnocení hran se získá z trénovacích dat, vypočítá se například jako pravděpodobnost vazby mezi danou dvojicí slov, případně v kombinaci s dalšími pokročilejšími metodami. Výslednou maximální kostru potom považujeme za závislostní strom dané věty. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English