Národní úložiště šedé literatury Nalezeno 4 záznamů.  Hledání trvalo 0.00 vteřin. 
Systém pro sběr XML dat a metadat z Internetu
Sochna, Jan ; Bednárek, David (vedoucí práce) ; Žemlička, Michal (oponent)
Diplomová práce je zaměřena na návrh a implementaci systému pro sběr veřejně dostupných dokumentů z rodiny XML na Internetu. Záměrem je zautomatizovat a zjednodušit proces sběru dat a dosáhnout stažení kompletních struktur dokumentů z rodiny XML. Na začátku práce byla provedena analýza čtyř systémů pro sběr dokumentů z Internetu, aby jeden z nich mohl být vybrán jako základ pro řešení diplomové práce. Jako nejvhodnější se ukázal open source webový crawler Apache Nutch. Nově byly navrženy a implementovány úpravy tohoto crawleru tak, aby byl efektivní při sběru XML dokumentů. Pro zpracování stažených dokumentů byla využita aplikace Analyzer, která byla na základě testu na reálných datech upravena tak, aby zpracování těchto dat umožnila. Hlavním přínosem diplomové práce je reálně využitelný systém pro sběr dokumentů z rodiny XML z Internetu. Díky rozšíření a úpravám crawleru Apache Nutch se podařilo podstatně eliminovat stahování a ukládání zbytečných dokumentů a zlepšit skladbu stažených dokumentů ve prospěch XML dat.
Aplikace pro ruční word alignment
Sochna, Jan ; Pecina, Pavel (vedoucí práce) ; Raab, Jan (oponent)
Cílem této práce bylo navrhnou a implementovat na platformě nezávislé, rychlé, flexibilní a přívětivé uživatelské rozhraní pro ruční párovaní (alignment)dvoujazyčných textů. Nové rozhraní nemá nedostatky existujících nástrojů na párování a proces ručního párování zefektivňuje. Jde např. o poloautomatické párování jednoduchých vět, skupinové operace s párováním, párování frází, možnost posunu jedné z párovaných vět podél řádku vůči druhé větě pro zlepšení přehlednosti, mají-li párované věty různou délku, přehledné zobrazování předchozího a navazujícího kontextu párovaných vět v obou jazycích a v neposlední řadě i statistika postupu párování. Vedle obvyklého řádkového pohledu - zobrazení párovaných textů ve dvou řádcích nad sebou, kdy se páruje propojením odpovídajících si slov čarou, byl realizován i pohled maticový - kdy slova věty v jednom jazyce odpovídají popisu řádků matice, slova v druhém jazyce odpovídají popisu sloupců matice a páruje se zvýrazněním průsečíku sloupce a řádku, které mají odpovídající si popisy. Mezi oběma pohledy lze během práce libovolně přepínat.
Aplikace pro ruční word alignment
Sochna, Jan ; Raab, Jan (oponent) ; Pecina, Pavel (vedoucí práce)
Cílem této práce bylo navrhnou a implementovat na platformě nezávislé, rychlé, flexibilní a přívětivé uživatelské rozhraní pro ruční párovaní (alignment)dvoujazyčných textů. Nové rozhraní nemá nedostatky existujících nástrojů na párování a proces ručního párování zefektivňuje. Jde např. o poloautomatické párování jednoduchých vět, skupinové operace s párováním, párování frází, možnost posunu jedné z párovaných vět podél řádku vůči druhé větě pro zlepšení přehlednosti, mají-li párované věty různou délku, přehledné zobrazování předchozího a navazujícího kontextu párovaných vět v obou jazycích a v neposlední řadě i statistika postupu párování. Vedle obvyklého řádkového pohledu - zobrazení párovaných textů ve dvou řádcích nad sebou, kdy se páruje propojením odpovídajících si slov čarou, byl realizován i pohled maticový - kdy slova věty v jednom jazyce odpovídají popisu řádků matice, slova v druhém jazyce odpovídají popisu sloupců matice a páruje se zvýrazněním průsečíku sloupce a řádku, které mají odpovídající si popisy. Mezi oběma pohledy lze během práce libovolně přepínat.
Systém pro sběr XML dat a metadat z Internetu
Sochna, Jan ; Žemlička, Michal (oponent) ; Bednárek, David (vedoucí práce)
Diplomová práce je zaměřena na návrh a implementaci systému pro sběr veřejně dostupných dokumentů z rodiny XML na Internetu. Záměrem je zautomatizovat a zjednodušit proces sběru dat a dosáhnout stažení kompletních struktur dokumentů z rodiny XML. Na začátku práce byla provedena analýza čtyř systémů pro sběr dokumentů z Internetu, aby jeden z nich mohl být vybrán jako základ pro řešení diplomové práce. Jako nejvhodnější se ukázal open source webový crawler Apache Nutch. Nově byly navrženy a implementovány úpravy tohoto crawleru tak, aby byl efektivní při sběru XML dokumentů. Pro zpracování stažených dokumentů byla využita aplikace Analyzer, která byla na základě testu na reálných datech upravena tak, aby zpracování těchto dat umožnila. Hlavním přínosem diplomové práce je reálně využitelný systém pro sběr dokumentů z rodiny XML z Internetu. Díky rozšíření a úpravám crawleru Apache Nutch se podařilo podstatně eliminovat stahování a ukládání zbytečných dokumentů a zlepšit skladbu stažených dokumentů ve prospěch XML dat.

Viz též: podobná jména autorů
1 Sochna, Jiří
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.