Národní úložiště šedé literatury Nalezeno 78 záznamů.  začátekpředchozí21 - 30dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Automatický word alignment
Kravalová, Jana ; Pecina, Pavel (vedoucí práce) ; Novák, Václav (oponent)
Word alignment (párování slov) je klíčovou komponentou moderních systémů statistického strojového překladu. Vstupem je věta ve dvou jazycích a úkolem automaticky spárovat slova v obou jazycích tak, aby se nalezly nejpravděpodobnější překladové ekvivalenty. Jako varianta klasického generativního přístupu (IBM modely) se dnes prosazují i diskriminativní přístupy, které tuto úlohu řeší jako hledání maximálního hranového pokrytí v úplném ohodnoceném bipartitním grafu. Vrcholy grafu jsou tvořeny slovy v jednom a v druhém jazyce, hrany jsou ohodnoceny mírou asociace odhadnutou z trénovacích dat. Práce se zaměřuje na efektivní implementaci algoritmu pro hledání maximálního pokrytí bipartitního grafu, implementaci výpočtu ohodnocení hran bipartitního grafu a provedení základních experimentů.
Automatické doporučování ilustračních snímků
Odcházel, Ondřej ; Pecina, Pavel (vedoucí práce) ; Holub, Martin (oponent)
Cílem této práce je implementace webové aplikace určené k doporučování ilustračních obrázků. Aplikace dostane na vstupu novinový článek v češtině nebo angličtině a na základě textu sama doporučí vhodné ilustrační obrázky. Implementovaná aplikace také vyhledává obrázky dle vizuální podobnosti. Práce se věnuje teoretickým aspektům extrakce klíčových slov, nebo detekce jazyka textu. Dále jsou rozebrány některé možnosti efektivního hledání podobných vektorů, které jsou využity v komponentě pro vyhledávání vizuálně podobných obrázků. Práce dále popisuje moderní možnosti vývoje webového frontendu i backendu. Algoritmus doporučování obrázků je v rámci práce otestován na uživatelích. Powered by TCPDF (www.tcpdf.org)
Automatické hodnocení kvality paralelních dvojjazyčných dat
Kolovratník, David ; Kuboň, Vladislav (vedoucí práce) ; Pecina, Pavel (oponent)
Statistický strojový překlad je metoda závislá zejména na velkém množství paralelních dvojjazyčných dat. Ty se používa jí pro trénování překladového modelu. Ten pak zastupuje úlohu pravidlového transferu, v některých systémech lexikálního. Věří se, že kvalitu překladu lze zlepšovat přidáváním trénovacích dat. Zkusil jsem naopak trénovací data zmenčovat a sledovat, jak se bude vyvíjet hodnocení překladu. Větné páry, které zůstanou ve zmeněném korpusu jsem vybíral postupně podle těch růných klíčů jednou náhodně, jednou podle poměru délek vět a nakonec podle počtu párů slov, které zná slovník jako překladové ekvivalenty. Ukázal jsem, že nejenže vhodný výběr větných párů do menšího korpusu zpomalí pokles NIST a BLEU ho dno cení se zmenšujícím se korpusem, ale dokonce může vést k lepšímu hodnocení. Zmenšení trénovacích dat vedlo také ke zrychlení vyhodnocení a nižším nárokům na prostor. To může být užitečné při implementaci strojového překladu v malých zařízeních s omezenými systémovými prostředky.
Semantic relation extraction from unstructured data in the business domain
Rampula, Ilana ; Pecina, Pavel (vedoucí práce) ; Kuboň, Vladislav (oponent)
V posledních letech se využití textové analytiky v komerční sféřě postupně stává významým tématem pro vědecké a praktické aplikace. Zaměřili jsme se na určování vztahů mezi entitami z dat dodaných partnerskou společností. Analýza textu z této sféry ale vyžaduje jiný přístup: počítání s nepřesnostma a specifickými atributy. V této práci jsme se rozhodli ukázat využití dvou metod pro určování vztahů: tzv. Snowball systém a Metodu vzdáleného dohledu (z angl. Distant Supervision), které jsme přizpůsobili pro dodaná data. Dané metody byli implementovány pro využití strukturovaných a nestrukturovaných dat z firemní databáze. Klíčová slova: Získavání informací, Určování vztahů mezi entitami, Textová analytika, Distant Supervision, Snowball
Extrakce klíčových slov z dokumentů
Klíč, Radoslav ; Pecina, Pavel (vedoucí práce) ; Schlesinger, Pavel (oponent)
T ato pr aca sa zaober a probl emom extrakcie kl' u cov ych slov z dokumentov. Obsahuje stru cn y uvod do problematiky a opis niektor ych pr stupov k rie seniu tohoto probl emu. Jej s u cast'ou je implement acia niektor ych opisovan ych pr stupova ohodnotenie ich uspe snosti na z aklade kolekcie dokumentov. V r amci pr ace boli vytvoren e dva softv erov e n astroje. Jeden sl u zi na extrakciu kl' u cov ych slov. Druh ym je webov e rozhranie k nemu. To poskytuje aj d'al siu funkciu, ktorou je manu alne prirad'ovanie kl' u cov ych slov k textom.
Information retrieval and navigation in audio-visual archives
Galuščáková, Petra ; Pecina, Pavel (vedoucí práce) ; Jones, Gareth (oponent) ; Ircing, Pavel (oponent)
Práca poskytuje prehľad metód pre interaktívne vyhľadávanie relevantných segmentov vo zvukových nahrávkach a vo videách. Práca najprv popisuje metódy pre vyhľadávanie v audio- vizuálnych archívoch založené na textovej informácii, ktoré využívajú automatické prepisy, titulky a metadáta. Kvalita vyhľadávania je skúmaná v závislosti na metódach segmentácie videa. Ďalej sú skúmané metódy pre navigáciu v multimédiách založené na multimodálnych hyperlinkoch a metódy pre automatický výber informatívnych segmentov videa, na ktoré je ďalej hyperlinking aplikovaný. Popísané metódy textového vyhľadávania, hyperlinkigu a výberu zaujímavých segmentov sú nakoniec použité v grafickom používateľskom rozhraní.
Aplikace pro ruční word alignment
Sochna, Jan ; Pecina, Pavel (vedoucí práce) ; Raab, Jan (oponent)
Cílem této práce bylo navrhnou a implementovat na platformě nezávislé, rychlé, flexibilní a přívětivé uživatelské rozhraní pro ruční párovaní (alignment)dvoujazyčných textů. Nové rozhraní nemá nedostatky existujících nástrojů na párování a proces ručního párování zefektivňuje. Jde např. o poloautomatické párování jednoduchých vět, skupinové operace s párováním, párování frází, možnost posunu jedné z párovaných vět podél řádku vůči druhé větě pro zlepšení přehlednosti, mají-li párované věty různou délku, přehledné zobrazování předchozího a navazujícího kontextu párovaných vět v obou jazycích a v neposlední řadě i statistika postupu párování. Vedle obvyklého řádkového pohledu - zobrazení párovaných textů ve dvou řádcích nad sebou, kdy se páruje propojením odpovídajících si slov čarou, byl realizován i pohled maticový - kdy slova věty v jednom jazyce odpovídají popisu řádků matice, slova v druhém jazyce odpovídají popisu sloupců matice a páruje se zvýrazněním průsečíku sloupce a řádku, které mají odpovídající si popisy. Mezi oběma pohledy lze během práce libovolně přepínat.
Rozpoznávání a klasifikace učebnic pomocí hlubokého učení
Vondrák, David ; Pecina, Pavel (vedoucí práce) ; Novák, Michal (oponent)
Cílem práce bylo použití hlubokého učení k rozpoznávání učebnic a jejich klasifikaci do vyučovacích předmětů a úrovní, a to na základě textových údajů, jako je název knihy, autor, nakladatel a stručný popis obsahu. Jako součást práce formulujeme vlastní definici učebnice, vytváříme dataset pomocí extrakce údajů ze zdrojů dostupných na internetu a ručně anotujeme trénovací a testovací mno- žinu dat. Pro klasifikaci používáme jako baseline naivní bayesovský klasifikátor, z neuronových sítí pak konvoluční a rekurentní architekturu i jejich kombinace. Porovnáváme také různý způsob reprezentace dat vektory (tzv. word embedding) a dosažené výsledky podrobně analyzujeme. Výsledný nejlepší model dosahuje na testovacích datech u všech tří úloh vysokých úspěšností a nabízí se tak možnost jeho uplatnění v praxi. 1
Named entity recognition in the biomedical domain
Williams, Shadasha ; Pecina, Pavel (vedoucí práce) ; Straková, Jana (oponent)
Thesis Title: Named Entity Recognition in the Biomedical Domain Named entity recognition (NER) is the task of information extraction that attempts to recognize and extract particular entities in a text. One of the issues that stems from NER is that its models are domain specific. The goal of the thesis is to focus on entities strictly from the biomedical domain. The other issue with NER comes the synonymous terms that may be linked to one entity, moreover they lead to issue of disambiguation of the entities. Due to the popularity of neural networks and their success in NLP tasks, the work should use a neural network architecture for the task of named entity disambiguation, which is described in the paper by Eshel et al [1]. One of the subtasks of the thesis is to map the words and entities to a vector space using word embeddings, which attempts to provide textual context similarity, and coherence [2]. The main output of the thesis will be a model that attempts to disambiguate entities of the biomedical domain, using scientific journals (PubMed and Embase) as the documents of our interest.

Národní úložiště šedé literatury : Nalezeno 78 záznamů.   začátekpředchozí21 - 30dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.