Národní úložiště šedé literatury Nalezeno 149 záznamů.  začátekpředchozí113 - 122dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Word2vec modely s přidanou kontextovou informací
Šůstek, Martin ; Rozman, Jaroslav (oponent) ; Zbořil, František (vedoucí práce)
Tato práce se zabývá porozuměním word2vec modelů. Přestože tyto modely vznikly nedávno (2013), staly se velmi populárními. Učením těchto modelů lze obdržet vektorovou reprezentaci slov v~N-dimenzionálním prostoru reálných čísel. Pomocí operací nad těmito vektory je možné určit sémantické vazby mezi slovy. Dále se práce snaží o rozšíření představených modelů za účelem jiné reprezentace slov. K tomuto účelu je navrženo využití obrazové informace. Taktéž je diskutována možnost použití konvolučních neuronových sítí ve spojitosti s poskytnutím odlišné kontextové informace.
Automatizovaná konverzace na sociálních platformách
Korjenevskaya, Anastasi ; Pour, Jan (vedoucí práce) ; Fortinová, Jana (oponent)
Tato práce se zabývá procesem vývoje textové automatizované konverzace neboli chatbotů v rámci sociálních platforem. Dále se zabývá představením a porovnáním jednotlivých platforem, ve kterých lze vytvářet a komunikovat pomocí instant messaging botů, včetně vzniku a vývoje těchto platforem. Poznatky jsou prakticky demonstrovány na chatbotech pro Messenger a Telegram, postup vývoje je popsán v praktické části. Nedílnou součástí práce je také představení jednotlivých instant messaging aplikací a nástrojů rozeznaní lidské řeči.
Natural Language Correction
Náplava, Jakub ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Cílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem.
Automatic Error Correction of Machine Translation Output
Variš, Dušan ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent)
Představujeme MLFix, systém pro automatickou statistickou post-editaci, který je duchovním následníkem pravidlového systému, Depfixu. Cílem této práce bylo prozkoumat možné postupy automatické identifikace nejčastějších morfologických chyb tvořených současnými systémy pro strojový překlad a natrénovat vhodné statistické modely, které by byly postaveny na získaných znalostech. Provedli jsme automatickou i ruční evaluaci našeho systému a výsledky porovnali s Depfixem. Systém byl vyvíjen především na výstupech anglicko-českého strojového překladu, cílem ale bylo zobecnit post-editační proces tak, aby byl aplikovatelný na další jazykové páry. Upravili jsme původní pipeline, aby post-editovala výstupy anglicko-německého strojového překladu, a provedli dodatečnou evaluaci této modifikace. Powered by TCPDF (www.tcpdf.org)
Vícejazyčná databáze kolokací
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Mareček, David (oponent)
Kolokace jsou skupiny slov, které se v daném jazyce vyskytují častěji spolu, nežli odděleně. Patří mezi ně také spojení, která dávají několika nezávislým slovům nový význam. Tato práce se zabývá nalezením kolokací v objemných datech a vytvořením databáze sloužící k jejich vyhledávání. Pro nalezení kolokací v textu počítáme hodnotu Pointwise Mutual Information založenou na počtu výskytů jednotlivých skupin slov v korpusu. Slova s nejvyšší hodnotou PMI jsou kandidáty na vhodné kolokace. Vybrané kolokace jsou uložené do databáze ve formátu použitelném pro vyhledávání pomocí Apache Lucene. Součástí práce je k vytvořené databázi přidat webové rozhraní, které umožňuje rychlý a jednoduchý způsob pro vyhledávání kolokací. Pokud by tato služba byla dostatečně rychlá a kolokace kvalitní, mohli by ji používat překladatelé k nacházení vhodných ekvivalentů v cílovém jazyce. Také může být používána studenty cizího jazyka k rozšiřování slovní zásoby. Taková databáze bude tvořena nezávisle v několika jazycích, mezi nimiž bude minimálně Čeština a Angličtina. Powered by TCPDF (www.tcpdf.org)
Extrakce znalostních grafů z projektové dokumentace
Helešic, Tomáš ; Nečaský, Martin (vedoucí práce) ; Kopecký, Michal (oponent)
Název práce: Extrakce znalostních grafů z projektové dokumentace Autor: Bc. Tomáš Helešic Katedra: Katedra softwarového inženýrství Vedoucí diplomové práce: Mgr. Martin Nečaský, Ph.D. Abstrakt: Cílem této práce je prozkoumat možnosti automatické extrakce infor- mací z firemní projektové dokumentace s využitím nástroje pro strojové zpra- cování přirozeného jazyka a analýza přesnosti lingvistického zpracování těchto dokumentů. Dále navrhnout metody, jak získat klíčové pojmy a vazby mezi nimi. Z těchto pojmů a vazeb se vytváří znalostní grafy, které se uchovávají ve vhodném úložisti s vyhledávací službou. Práce se snaží propojit již ex- istující technologie, implementovat je do jednoduché aplikace a ověřit jejich připravenost pro praktické využití. Cílem je inspirovat budoucí výzkum v této oblasti, identifikovat kritická místa a navhrnout zlepšení. Hlavní přínos tkví v propojení zpracování přirozeného jazyka, metod extrakce informací, sémantické vyhledávání s firemnímy dokumenty. Přínos praktické části spočívá ve způsobu identifikace důležitých informací, které popisují jednotlivé dokumenty a jejich využití ve vyhledávání. Klíčová slova: Znalostní grafy, Extrakce informace, Zpracování...
Japonsko-český strojový překlad
Variš, Dušan ; Bojar, Ondřej (vedoucí práce) ; Popel, Martin (oponent)
Strojový překlad s použitím hloubkového větného rozboru není v současné době ve srovnání s jinými metodami tolik rozšířen, věříme však, že některé jeho aspekty jsou schopny přispět k zlepšení kvality strojového překladu. Je přitom důležité vyzkoušet danou metodu pro různé jazykové páry, v našem případě se jednalo o dvojici japonština-čeština. Nedílnou součástí tohoto úkolu je i získání a zpracování potřebných paralelních dat. Kvůli malému množství těchto dat jsme se snažili vyzkoušet různé postupy, které by nám pomohly potřebná data nahradit. Náš systém je založen na stejném principu jako anglicko- český překladač TectoMT, v rámci této práce jsme jej implementovali do stejného prostředí. Snažili jsme se přitom zachytit alespoň základní jazykové jevy charakteristické pro japonštinu. Při zkoumání našeho systému jsme jej porovnávali s jednoduchým frázovým překladačem. Powered by TCPDF (www.tcpdf.org)
Extrakce znalostních grafů z projektové dokumentace
Helešic, Tomáš ; Nečaský, Martin (vedoucí práce) ; Kruliš, Martin (oponent)
Název práce: Extrakce znalostních grafů z projektové dokumentace Autor: Bc. Tomáš Helešic Katedra: Katedra softwarového inženýrství Vedoucí diplomové práce: Mgr. Martin Nečaský, Ph.D. Abstrakt: S novými poznatky ve zpracování přirozeného jazyka a extrakce infromací z textu se otevírá možnost automatické extrakce znalostí a jejich sdružováním do znalostních grafů, které zachycují sémantické vztahy mezi těmito informacemi. Pro tyto grafy již existují úložiště a taktéž dotazovací jazyky, které uožnují přesnější a relevantnější vyhledávání oproti současným full textovým. Cílem této práce je prozkoumat možnosti automatické extrakce infromací z pro- jektové dokumentace pomocí linguitického zpracování textů, zvolit vhodné da- tové uložiště a vybudovat nad ním vyhledávací službu. Klíčová slova: Znalostní grafy, Extrakce informace, Zpracování přirozeného jazyka, Resource Description Framework 1
How to Create Self-Driven Education: The Social Web & Social Sciences, Coursera & Khan Academy 2014 Case Study
Růžička, Jakub ; Remr, Jiří (vedoucí práce) ; Soukup, Petr (oponent)
Diplomová práce se zabývá možnostmi využití social web dat v sociálních vědách. Teoretická část popisuje změny ve vzdělávání v kontextu dynamiky soudobé společnosti v rámci třech základních (vzájemně souvisejících) dimenzích: technologie (příčina a/nebo nástroj změny); práce (nové modely spolupráce); ekonomie (udržitelnost free a open source obchodních modelů). Hlavní metodologická část práce je zaměřena na problematiku výběru vzorku, reprezentativity výběrového souboru, posouzení validity a reliability, etiky, a sběru dat ve formujícím se se social web výzkumu v sociálních vědách. Výzkumná část obsahuje ilustrativní analýzy sociálního webu a závěry autorova výzkumu "Coursera & Khan Academy on the Social Web" (2014). Závěry kompletní výzkumné zprávy (v přílohách práce) jsou porovnány se závěry teoretické části s cílem poskytnout "naivní" (odvozenou ze zmínek a sítí na sociálním webu) odpověď na základní otázku: "Jak vytvořit samostatně motivované vzdělávání?" Powered by TCPDF (www.tcpdf.org)
Metriky pro optimalizaci modelů strojového překladu
Macháček, Matouš ; Bojar, Ondřej (vedoucí práce) ; Popel, Martin (oponent)
Moderní automatické překladové systémy používají takzvaný loglineární model, který skládá dohromady více dílčích modelů a pomocí nich predikuje pravděpodobnost překladu dané věty. Každý dílčí model má v loglineárním modelu svojí váhu. Tyto váhy jsou dnes obecně optimalizovány na skóre automatické metriky BLEU, přestože jsou k dispozici i jiné metriky, z nichž některé korelují lépe s lidskými anotátory než metrika BLEU. V této práci zkoumáme ruzné metriky (PER, WER, CDER, TER, BLEU a SemPOS) z hlediska korelace s lidskými anotátory. Hloubeji se věnujeme metrice SemPOS a navrhujeme některé její aproximace a varianty. Uvedené metriky jsme použili v metodě MERT při optimalizaci překladového systému z angličtiny do češtiny a zkoumali jsme, jak optimalizování na ruzné automatické metriky ovlivní výslednou kvalitu systému. V rámci této práce jsme také některé metriky implementovali pro použití v metodě MERT.

Národní úložiště šedé literatury : Nalezeno 149 záznamů.   začátekpředchozí113 - 122dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.