Národní úložiště šedé literatury Nalezeno 78 záznamů.  začátekpředchozí69 - 78  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Pravděpodobnostní překladový slovník
Rouš, Jan ; Pecina, Pavel (oponent) ; Žabokrtský, Zdeněk (vedoucí práce)
V této práci popisujeme poloautomatickou metodu trénování pravděpodobnostního překladového slovníku z rozssáhlých automaticky anotovaných paralelních korpusů. Na základě studia překladových chyb a funkce slovníku v rámci překladového systému TectoMT obecně byly navrženy modely různé složitosti. Tyto základní modely byly zkombinovány do hierarchických modelů, jejichž účel je snížit dopad problému řídkých dat. Slovník byl doplněn o rozšíření, která jsou navržena tak, aby odstraňovala časté problémy lexikálního charakteru. Slovník spolu s rozšířeními byl na testovacích datech porovnán s původním slovníkem a výsledky ukazují, že došlo k zvýšení kvality překladu.
Extrakce klíčových slov z dokumentů
Klíč, Radoslav ; Schlesinger, Pavel (oponent) ; Pecina, Pavel (vedoucí práce)
T ato pr aca sa zaober a probl emom extrakcie kl' u cov ych slov z dokumentov. Obsahuje stru cn y uvod do problematiky a opis niektor ych pr stupov k rie seniu tohoto probl emu. Jej s u cast'ou je implement acia niektor ych opisovan ych pr stupova ohodnotenie ich uspe snosti na z aklade kolekcie dokumentov. V r amci pr ace boli vytvoren e dva softv erov e n astroje. Jeden sl u zi na extrakciu kl' u cov ych slov. Druh ym je webov e rozhranie k nemu. To poskytuje aj d'al siu funkciu, ktorou je manu alne prirad'ovanie kl' u cov ych slov k textom.
Lexical Association Measures Collocation Extraction
Pecina, Pavel ; Hajič, Jan (vedoucí práce)
Lexical Association Measures:Collocation Extraction Pavel Pecina Abstract of Doctoral Thesis This thesis is devoted to an empirical study of lexical association measures and their application for collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of the previous from the Czech National Corpus provided with automatically assigned lemmas and part~of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole Corpus. Collocation candidates in the reference data sets were manually annotated and identified as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several...
Entity retrieval on Wikipedia in the scope of the gikiCLEF track
Duarte Torres, Sergio Raul ; Pecina, Pavel (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
This thesis presents a system to retrieve entities specified by a question or description given in natural language, this description indicates the entity type and the properties that the entities need to satisfy. This task is analogous to the one proposed in the GikiCLEF 2009 track. The system is fed with the Spanish Wikipedia Collection of 2008 and every entity is represented by a Wikipage. We propose three novel methods to perform query expansion in the problem of entity retrieval. We also introduce a novel method to employ the English Yago and DBpedia semantic resources to determine the target named entity type; this method is used to improve previous approaches in which the target NE type is based solely on Wikipedia categories. We show that our system obtains promising results when we evaluate its performance in the GikiCLEF 2009 topic list and compare the results with the other participants of the track.
Automatický word alignment
Kravalová, Jana ; Novák, Václav (oponent) ; Pecina, Pavel (vedoucí práce)
Word alignment (párování slov) je klíčovou komponentou moderních systémů statistického strojového překladu. Vstupem je věta ve dvou jazycích a úkolem automaticky spárovat slova v obou jazycích tak, aby se nalezly nejpravděpodobnější překladové ekvivalenty. Jako varianta klasického generativního přístupu (IBM modely) se dnes prosazují i diskriminativní přístupy, které tuto úlohu řeší jako hledání maximálního hranového pokrytí v úplném ohodnoceném bipartitním grafu. Vrcholy grafu jsou tvořeny slovy v jednom a v druhém jazyce, hrany jsou ohodnoceny mírou asociace odhadnutou z trénovacích dat. Práce se zaměřuje na efektivní implementaci algoritmu pro hledání maximálního pokrytí bipartitního grafu, implementaci výpočtu ohodnocení hran bipartitního grafu a provedení základních experimentů.
Využití syntaxe v metodách pro vyhledávání informací
Kravalová, Jana ; Holub, Martin (oponent) ; Pecina, Pavel (vedoucí práce)
V posledních letech výzkumu v oblasti vyhledávání informací je věnována značná pozornost metodám založeným na jazykovém modelování. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina publikovaných experimentů byla prováděna s klasickým n-gramovým modelem (mnohdy pouze s unigramovým modelem). Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model obohatila o použití syntaktické informace získané automaticky (strojově) z dokumentů i dotazů. V předkládané práci se pokusíme vhodným způsobem zavést syntaktickou informaci do jazykových modelů a experimentálně srovnáme navržený přístup s výsledky unigramového a bigramového povrchového modelu. Kromě využití syntaktické informace se zaměříme také na vliv vyhlazování, stemmingu, lemmatizace, použití stopwords a metody rozšiřování dotazů - pseudo relevance feedback. Provedeme také detailní analýzu použitých systémů vyhledávání informace a podrobně popíšeme jejich vlastnosti. Experimenty budou prováděny na české testovací kolekci z Cross Language Evaluation Forum 2007 Ad-Hoc Track ([1]) a předkládané výsledky lze tedy srovnat s výsledky publikovanými v [19] a [4].
Automatické hodnocení kvality paralelních dvojjazyčných dat
Kolovratník, David ; Kuboň, Vladislav (vedoucí práce) ; Pecina, Pavel (oponent)
Statistický strojový překlad je metoda závislá zejména na velkém množství paralelních dvojjazyčných dat. Ty se používa jí pro trénování překladového modelu. Ten pak zastupuje úlohu pravidlového transferu, v některých systémech lexikálního. Věří se, že kvalitu překladu lze zlepšovat přidáváním trénovacích dat. Zkusil jsem naopak trénovací data zmenčovat a sledovat, jak se bude vyvíjet hodnocení překladu. Větné páry, které zůstanou ve zmeněném korpusu jsem vybíral postupně podle těch růných klíčů jednou náhodně, jednou podle poměru délek vět a nakonec podle počtu párů slov, které zná slovník jako překladové ekvivalenty. Ukázal jsem, že nejenže vhodný výběr větných párů do menšího korpusu zpomalí pokles NIST a BLEU ho dno cení se zmenšujícím se korpusem, ale dokonce může vést k lepšímu hodnocení. Zmenšení trénovacích dat vedlo také ke zrychlení vyhodnocení a nižším nárokům na prostor. To může být užitečné při implementaci strojového překladu v malých zařízeních s omezenými systémovými prostředky.
Webcrawler
Lessner, Daniel ; Podveský, Petr (oponent) ; Pecina, Pavel (vedoucí práce)
Práce se zabývá tvorbou webového robota. Jeho úkolem je rekurzivně stahovat z internetu české stránky a čistit je na samotný prostý text (žádné HTML značky, styly nebo skripty). Ten potom bude využit pro tvorbu obrovského jazykového korpusu, užitečného pro další výzkum. Klíčovou vlastností robota je nenápadnost běhu, nezatěžování cizích prostředků a plné respektování nezávazného doporučení Robots Exclusion Standard. Robot je napsán v jazyce Python a intenzivně využívá jeho standardní knihovny a rychlou práci s textovými řetězci. Vzhledem k charakteru úlohy jsme se rozhodli pro paralelní implementaci, která by měla plně využít šířku pásma. S tímto záměrem jsme měli úspěch. Výsledkem práce je tedy robot připravený získat dostatek textů pro korpus. Samozřejmě je ale použitelný i pro jiné účely, zvlášť tam, kde je potřeba šetrnost k cizím prostředkům. Kromě jeho přínosu pro lingvistiku poskytuje i zajímavé informace o obsahu českého internetu.
Segmentace textu
Češka, Pavel ; Pecina, Pavel (vedoucí práce) ; Podveský, Petr (oponent)
Tato bakalářská práce je zaměřena na základní předzpracování (tokenizaci a segmentaci) českého textu, zejména pro potřeby vytvoření českého internetového korpusu. Texty pro tento korpus budou automaticky získávány z Internetu, a proto samotné segmentaci předchází automatické určení kódování, čištění a rozpoznání jazyka dokumentu. Provádíme experimenty se dvěmi metodami rozpoznání jazyka a předkládáme jejich výsledky. První z metod je založena na porovnávání nejčetnějších n-gramů (podřetězců délky n) získaných z neznámého dokumentu a rozsáhlého českého korpusu. Druhá metoda využívá odhadu podmíněné pravděpodobnosti výskytu znakových trigramů získaných ze stejného korpusu. Pro širší použití je vytvořen modul pro tokenizaci a určování konců vět. Hledání konců vět je řešeno použitím seznamů českých zkratek a analýzou nejbližšího kontextu míst, která by mohla být za konce vět považována. Rozhodovací strom byl trénován na ručně označených datech. Vyhodnocení úspěšnosti bylo založeno na úsudcích nezávislé osoby a výsledky jsou předloženy v práci.

Národní úložiště šedé literatury : Nalezeno 78 záznamů.   začátekpředchozí69 - 78  přejít na záznam:
Viz též: podobná jména autorů
3 Pecina, Petr
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.