Národní úložiště šedé literatury Nalezeno 9 záznamů.  Hledání trvalo 0.01 vteřin. 
Algoritmus pro detekci pozitívního a negatívního textu
Musil, David ; Harár, Pavol (oponent) ; Povoda, Lukáš (vedoucí práce)
Se svižným vývojem informačních a komunikačních technologií vzrůstá i množství informací produkovaných nejrůznějšími zdroji v elektronické podobě. Třídění a získávání znalostí z těchto dat vyžaduje značné úsilí, které pro člověka není snadné zajistit, do popředí se tedy dostává zpracování strojem. Dolování emocí z textových dat je zajímavou oblastí výzkumu, zažívající v posledních letech nezanedbatelný rozmach, přičemž nachází široké uplatnění. V rámci této diplomové práce byl vytvořen systém sloužící k detekci pozitivní a negativní emoce z textu, dále je provedeno zhodnocení jeho úspěšnosti. Systém je navržen v jazyce Java a je koncipován pro umožnění jeho trénování pomocí velkých objemů dat (Big Data) s využitím knihovny Spark. V práci je popsána struktura a zacházení s textem z databázi, ze které systém čerpá vstupní data. Samotný model klasifikátoru je pak vytvořen za pomoci algoritmu podpůrných vektorů (SVM), přičemž je optimalizován metodou n-gramů.
Detektor plagiátů textových dokumentů
Kořínek, Lukáš ; Horák, Karel (oponent) ; Petyovský, Petr (vedoucí práce)
Diplomová práce se zabývá rešerší metod detekce plagiátů v textových dokumentech a následným návrhem a implementací nového detektoru plagiátů, jehož primárním účelem je odhalování plagiátů v akademických pracích VUT v Brně. Vytvořené řešení aplikuje vícekrokové algoritmy předzpracování na cílové dokumenty, jejichž zpracovaná data jsou následně uložena do vlastního korpusu (báze dokumentů). Úloha hledání shod (možných plagiátů) porovnává vybraný dokument vůči zbytku korpusu, přičemž využívá paralelních výpočtů na grafické kartě. Cílem je dosáhnout co nejrychlejšího srovnání při zachování přijatelné kvality výstupu.
N-grams in the speech of Czech and native speakers of English
Zvěřinová, Simona ; Gráf, Tomáš (vedoucí práce) ; Tichý, Ondřej (oponent)
Diplomová práce se zabývá analýzou opakovaných slovních spojení v projevu pokročilých českých mluvčích angličtiny a rodilých mluvčích angličtiny. Data využitá v analýze jsou čerpána ze dvou korpusů, žákovského korpusu LINDSEI a korpusu rodilých mluvčích LOCNEC. Cílem práce je porovnat dvě skupiny mluvčích, odhalit rozdíly mezi jejich užíváním opakovaných slovních spojení a porovnat výsledky s předešlými pracemi zahrnujícími výzkum mluvčích jiných jazyků. Kvantitativní analýza je provedena na vzorku 50 mluvčích z každého korpusu a frekvenční data jsou užita k porovnání mluvčích na základě toho, kolik typů slovních spojení užívají a jak často. Kvalitativní analýza je provedena na menším vzorku 15 mluvčích z každého korpusu a určuje funkční rozdíly. Během analýzy jsou určeny čtyři kategorie slovních spojení. V závěru jsou kvantitativní i kvalitativní výsledky porovnány s předešlým výzkumem mluvčích jiných jazyků. Klíčová slova: mluvený jazyk, žákovský jazyk, n-gramy, n-gramová analýza, opakovaná slovní spojení, lexikální svazky, žákovský korpus
Detektor plagiátů textových dokumentů
Kořínek, Lukáš ; Horák, Karel (oponent) ; Petyovský, Petr (vedoucí práce)
Diplomová práce se zabývá rešerší metod detekce plagiátů v textových dokumentech a následným návrhem a implementací nového detektoru plagiátů, jehož primárním účelem je odhalování plagiátů v akademických pracích VUT v Brně. Vytvořené řešení aplikuje vícekrokové algoritmy předzpracování na cílové dokumenty, jejichž zpracovaná data jsou následně uložena do vlastního korpusu (báze dokumentů). Úloha hledání shod (možných plagiátů) porovnává vybraný dokument vůči zbytku korpusu, přičemž využívá paralelních výpočtů na grafické kartě. Cílem je dosáhnout co nejrychlejšího srovnání při zachování přijatelné kvality výstupu.
N-grams in the speech of Czech and native speakers of English
Zvěřinová, Simona ; Gráf, Tomáš (vedoucí práce) ; Tichý, Ondřej (oponent)
Diplomová práce se zabývá analýzou opakovaných slovních spojení v projevu pokročilých českých mluvčích angličtiny a rodilých mluvčích angličtiny. Data využitá v analýze jsou čerpána ze dvou korpusů, žákovského korpusu LINDSEI a korpusu rodilých mluvčích LOCNEC. Cílem práce je porovnat dvě skupiny mluvčích, odhalit rozdíly mezi jejich užíváním opakovaných slovních spojení a porovnat výsledky s předešlými pracemi zahrnujícími výzkum mluvčích jiných jazyků. Kvantitativní analýza je provedena na vzorku 50 mluvčích z každého korpusu a frekvenční data jsou užita k porovnání mluvčích na základě toho, kolik typů slovních spojení užívají a jak často. Kvalitativní analýza je provedena na menším vzorku 15 mluvčích z každého korpusu a určuje funkční rozdíly. Během analýzy jsou určeny čtyři kategorie slovních spojení. V závěru jsou kvantitativní i kvalitativní výsledky porovnány s předešlým výzkumem mluvčích jiných jazyků. Klíčová slova: mluvený jazyk, žákovský jazyk, n-gramy, n-gramová analýza, opakovaná slovní spojení, lexikální svazky, žákovský korpus
Framework pro extrakci informací z velkého množství jazykových dat
Kuboň, David ; Križ, Vincent (vedoucí práce) ; Bednárek, David (oponent)
Tato práce popisuje program FAFEFI sloužící k extrakci n-gramů a skip-gramů z velkého množství jazykových dat. Řeší možnosti předání vstupních dat programu, návrh datových struktur pro reprezentaci n-gramů a skip-gramů v paměti, algoritmus jejich extrakce, paměťově úsporné varianty uložení extrahovaných dat a jejich finální zpracování do výstupních vektorů příznaků. Představuje i řadu rozšiřujících funkcí programu, jako jsou například řádkový filtr vstupních dat a modifikátor obsahu řádků, a široké spektrum konfigurovatelných parametrů - oddělovači v souborech počínaje a názvy výstupních souborů konče. Mimoto poskytuje variabilitu prováděných činností v podobě meziukládání trénovací sady dat a prezentuje nástroje pro paralelizaci výpočtu na clusteru. Powered by TCPDF (www.tcpdf.org)
Algoritmus pro detekci pozitívního a negatívního textu
Musil, David ; Harár, Pavol (oponent) ; Povoda, Lukáš (vedoucí práce)
Se svižným vývojem informačních a komunikačních technologií vzrůstá i množství informací produkovaných nejrůznějšími zdroji v elektronické podobě. Třídění a získávání znalostí z těchto dat vyžaduje značné úsilí, které pro člověka není snadné zajistit, do popředí se tedy dostává zpracování strojem. Dolování emocí z textových dat je zajímavou oblastí výzkumu, zažívající v posledních letech nezanedbatelný rozmach, přičemž nachází široké uplatnění. V rámci této diplomové práce byl vytvořen systém sloužící k detekci pozitivní a negativní emoce z textu, dále je provedeno zhodnocení jeho úspěšnosti. Systém je navržen v jazyce Java a je koncipován pro umožnění jeho trénování pomocí velkých objemů dat (Big Data) s využitím knihovny Spark. V práci je popsána struktura a zacházení s textem z databázi, ze které systém čerpá vstupní data. Samotný model klasifikátoru je pak vytvořen za pomoci algoritmu podpůrných vektorů (SVM), přičemž je optimalizován metodou n-gramů.
Reprezentace textu a její vliv na kategorizaci
Šabatka, Ondřej ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Diplomová práce se zabývá strojovým zpracováním textových dat. V teoretické části jsou popsány problémy související se zpracováním přirozeného jazyka a dále jsou představeny různé způsoby předzpracování a reprezentace textu. Práce se také blíže věnuje použití N-gramů jako rysů pro reprezentaci dokumentů a popisuje některé algoritmy sloužící pro jejich extrakci. Další část je pak věnována přehledu používaných klasifikačních metod. V rámci praktické části práce byla navržena a implementována aplikace sloužící pro předzpracování a vytváření různých reprezentací textových dat. V rámci experimentů je pak sledován vliv těchto reprezentací na úspěšnost klasifikačních algoritmů.
Efektivní metody detekce plagiátů v rozsáhlých dokumentových skladech
Přibil, Jiří ; Jiroušek, Radim (vedoucí práce) ; Strossa, Petr (oponent) ; Snášel, Václav (oponent)
Práce se zaměřuje na problematiku detekce plagiátů v rozsáhlých dokumentových skladech. Bere přitom v úvahu reálnou situaci, kterou je třeba v současné době řešit i v prostředí univerzit v České republice a navrhuje takový systém, který bude schopen tuto analýzu provádět v reálném čase a bude přitom schopen zachytit co nejširší spektrum plagiátorských postupů. Hlavním přínosem práce je přitom definice tzv. neuspořádaných n-gramů -- {n}-gramů -- které jsou využitelné právě pro detekci některých pokročilejších forem plagiátorských postupů. Veškerá uváděná doporučení, která se týkají jednotlivých komponent systému pro odhalování plagiátů -- předzpracování dokumentu před vložením do dokumentového skladu; způsob reprezentace dokumentů v dokumentovém skladu; identifikace potenciálních zdrojů plagiá-torství; výpočet měr shodnosti; vizualizace výsledků analýzy plagiátorství -- jsou podrobeny diskuzi a příslušně kvantifikovány. Výsledkem práce je návrh parametrů systému tak, aby byl schopen v podmínkách českého jazyka odhalovat plagiáty rychle, přesně a přitom v co nejvíce formách.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.