Národní úložiště šedé literatury Nalezeno 149 záznamů.  začátekpředchozí133 - 142další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Vyhledávání nejčastějších n-tic slov
Holec, Matúš ; Szőke, Igor (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá návrhem a implementací efektivního systému vyhledávání n-tic slov v textu. Systém je založen na principu dávkového zpracování, což umožňuje zpracování rozsáhlých textů. V první části práce jsou shrnuty principy stávajících metod sloužících pro extrakci n-gramů. V další části je popsán implementovaný systém a následně i jeho urychlení pomocí paralelizace dávkového zpracování. V závěru je uvedeno srovnání výkonnosti dostupných implementací s navrženým systémem, jakož i porovnání časové náročnosti sekvenčního přístupu s paralelním.
Zpracování češtiny v Pythonu
Novotný, Zdeněk ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
V této práci jsou představeny některé způsoby zpracování českého jazyka. První část obsahuje obecný popis systému NLTK. Některé později zmíněné funkce byly inspirovány funkcemi ze systému NLTK. Jsou zde popsány funkce zabývající se časováním a skloňováním slov různých slovních druhů v českém jazyce. Další část je zaměřena na zpracování textu v českém jazyce, v němž dochází k vyhledávání a označení jednotlivých vět a jiných částí. Poslední část popisuje možnost aplikace transformačních pravidel na části textu. Výsledek po aplikaci pravidel lze zobrazit graficky.
Czech-English Translation
Petrželka, Jiří ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.
Similarity Search in Document Collections
Jordanov, Dimitar Dimitrov ; Plchot, Oldřich (oponent) ; Smrž, Pavel (vedoucí práce)
The main objective of this work is to estimate the efficiency of the available software for similarity search in document collections and on two in particular, Semantic Vectors and Lecene's class MoreLikeThis. The paper provides a comparison of those two approaches and introduces methods that can lead to improving the quality of the results generated by a search.
Dolování dat v prostředí sociálních sítí
Raška, Jiří ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato práce se zabývala získáváním znalostí ze sociálních médií. Konkrétním cílem této práce bylo získávání názorů na úrovní rysů z uživatelských recenzí. V teoretické části byly uvedeny metody v procesu dolování názorů a zpracování přirozeného jazyka. Hlavní částí této práce byly návrh a implementace knihovny pro dolování názorů pomocí analyzátoru přirozeného jazyka Stanford Parser a lexikální databáze WordNet. Pro identi kaci rysů byla použita závislostní gramatika, implicitní rysy byly dolovány metodou CoAR a názory byly klasi kovány algoritmem typu učení s učitelem. Na závěr byly uvedeny experimenty vyhodnocující implementované řešení a příklady použití.
Klasifikace dokumentů podle tématu
Marek, Tomáš ; Škoda, Petr (oponent) ; Otrusina, Lubomír (vedoucí práce)
Tato práce se zabývá problematikou klasifikace textových dokumentů, a to především metodami klasifikace textu. Hlavním cílem této práce je rozebrat dva algoritmy pro klasifikaci dokumentů, implementovat je a následně porovnat. Byl zvoleny algoritmy Bayesovského klasifikátoru a klasifikátoru založeného na metodě support vector machines (SVM), které jsou v této práci podrobně analyzovány a popsány. Jedním z cílů této práce bylo optimálně vytvořit a vybrat příznaky, které by co nejvíce napomohly klasifikaci textu. V závěru práce je provedeno množství testů, ukazujících účinnost obou klasifikátorů za různých podmínek.
Rozpoznávání pojmenovaných entit
Rylko, Vojtěch ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
V této práci je načrtnuta historie a jsou představena teoretická východiska rozpoznávání pojmenovaných entit, na jejichž základě je implementován systém v jazyce C++ pro detekci a zjednoznačňování pojmenovaných entit.  Systém používá lokální metodu zjednoznačňování a pracuje se statistikami vytvořenými z rozsáhlých webových dat Wikilinks. S vyvinutým systémem jsou prováděny experimenty a je srovnáván s alternativními implementacemi. Experimenty prokazují dostatečnou úspěšnost a rychlost systému. Systém se účastní soutěže  Entity Recognition and Disambiguation Challenge 2014.
Syntaktický analyzátor pro český jazyk
Beneš, Vojtěch ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce)
Diplomová práce popisuje teoretický návrh a vytvoření syntaktického analyzátoru pro český jazyk pracujícího s frázovým přístupem ke stavbě věty. Využívaná frázová syntaxe je založena na slovních druzích, které jsou sdružovány do větších slovních celků - frází. Implementovaný program pracuje s manuálně sestaveným anotovaným vzorkem dat (korpusem češtiny), na základě kterého za běhu vytvoří pravděpodobnostní bezkontextovou gramatiku (strojové učení). Syntaktický analyzátor, jehož jádrem je rozšířený CKY algoritmus, poté pro zadanou českou větu rozhodne, zda-li patří do jazyka generovaného vytvořenou gramatikou, a v kladném případě vrátí nejpravděpodobnější derivační strom této věty. Tento výsledek je následně porovnán s očekávaným řešením, čímž je vyhodnocena úspěšnost syntaktické analýzy.
Extrakce sémantických vztahů z textu
Schmidt, Marek ; Burget, Radek (oponent) ; Smrž, Pavel (vedoucí práce)
Práce se zabývá extrakcí sémantických vztahů z anglických textů. Zaměřuje se především na použití syntaktické analýzy pro extrakci příznaků, které využívá jak pro různé statistické metody, tak i pro metodu založenou na syntaktických vzorech. Je vyhodnocena metoda extrakce vztahu hypernymie srovnáním s anglickým thesaurem WordNet. Na základě zkoumaných metod je pak navržen systém pro extrakci sémantických vztahů z textu spolu s uživatelským rozhraním, které je rovněž implementováno.
Zjednoznačňování slovních významů
Kraus, Michal ; Glembek, Ondřej (oponent) ; Smrž, Pavel (vedoucí práce)
Diplomová práce je zaměřena na rozpoznávání a zjednoznačňování českých slov.  Nejprve se čtenář seznámí s historickým kontextem úkolu, poté jsou mu předvedeny použité algoritmy: naivní Bayesův klasifikátor, klasifikátor AdaBoost, metoda maximální entropie a rozhodovací strom. Použité metody jsou názorně předvedeny na příkladu. V dalších částech práce jsou popsány datové sady a parametry pro klasifikaci. V závěrečné části práce dojde na zhodnocení výsledků a nastínění možných úprav.

Národní úložiště šedé literatury : Nalezeno 149 záznamů.   začátekpředchozí133 - 142další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.