Národní úložiště šedé literatury Nalezeno 75 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Detekce vizuálních vzorů ve webových stránkách
Kotraš, Martin ; Bartík, Vladimír (oponent) ; Burget, Radek (vedoucí práce)
Práce řeší extrakci informací z webových stránek pomocí techniky vyhledávání vizuálních vzorů - prostorových vztahů mezi oblastmi na webové stránce a stejných vizuálních stylů těchto oblastí - s rozšířením o nové techniky zlepšení výsledků. Využívá přitom uživatelem zadaného ontologického modelu dat, který popisuje, které datové položky se budou ze zadané webové stránky extrahovat a jak jednotlivé položky na stránce vypadají zejména z textového pohledu. V rámci práce vznikla konzolová aplikace VizGet v jazyce Java využívající aplikační rámec FitLayout pro získání vizuálního modelu webové stránky. Testování aplikace na 7 různých doménách zahrnujících mj. žebříček nejlepších filmů, produktů v elektronickém obchodě nebo předpovědi počasí ukázalo, že se úspěšnost aplikace pohybuje ve zhruba 75 % dílčích testů nad 85 % F-skóre a ve více než 90 % testů nad 60 % F-skóre, kde 45 % testů dosahuje F-skóre 100 %. Aplikace VizGet tak může být nasazena pro praktické využití v nekritických aplikacích, přičemž je otevřena dalším rozšířením a možnostem zlepšení.
Extrakce metadat z vědeckých článků
Lokaj, Tomáš ; Dytrych, Jaroslav (oponent) ; Otrusina, Lubomír (vedoucí práce)
Tato práce se zabývá extrakcí metadat z vědeckých článků. Je zde obecně popsán problém extrakce informací se zaměřením na zpracování textových dokumentů. Dále je představen autorem vytvořený program clanky2meta.py určený k vyhledávání potřebných informací ve vědeckých publikacích. V závěru práce je provedeno srovnání toho programu s jinými systémy, především se systémem CiteSeerX.
Segmentace webových stránek s využitím shlukování
Lengál, Tomáš ; Bartík, Vladimír (oponent) ; Burget, Radek (vedoucí práce)
Tato zpráva se zabývá segmentací webových stránek, jež je důležitou součástí oboru extrakce informací. V první části popisujeme několik obecných způsobů jak se dá implementovat. Následně je pak představena metoda Box Clustering Segmentation, ktrerá přichází s mírně odlišným přístupem k segmentaci. V druhé polovině práce je pak popsána implementace této metody v rámci nástroje FITLayout a závěrečné testování.
Určování typů a atributů entit napříč jazyky
Švub, Daniel ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této práce je analýza článků na internetové encyklopedii Wikipedii a převod jejich textu psaného v přirozeném jazyce na strukturovanou databázi osob, míst a dalších entit. Podstatou implementovaného programu je určení typu entity na základě typických znaků, které ji charakterizují, a extrakce nejdůležitějších atributů této entity v českém a slovenském jazyce. Výsledkem práce je báze znalostí umožňující snadné vyhledávání a třídění informací. Díky snadné rozšiřitelnosti je možné do programu přidat identifikaci dalších typů entit a dalších vlastností, případně i podporu jiných jazyků.
Metody extrakce informací
Adamček, Adam ; Smrž, Pavel (oponent) ; Kouřil, Jan (vedoucí práce)
Cílem procesu extrakce informací je získání relačních dat z textu psaného přirozeným jazykem na další jednodušší zpracování výpočetní technikou. Oblast využití takto získaných informací je široká - od sumarizace textů, přes vytváření ontologií až po zodpovídání otázek QA systémy. Tato práce popisuje návrh a implementaci systému fungujícího ve výpočetním clusteru, který transformuje výpis článků Wikipedie na množinu vyextrahovaných informací, které jsou následně uloženy do distribuované RDF databáze a je nad nimi možné sestavovat dotazy prostřednictvím vytvořeného uživatelského rozhraní.
Znalec encyklopedie
Krč, Martin ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
Předmětem projektu je systém pro zodpovídání otázek formulovaných v přirozeném jazyce. Práce pojednává nejprve o problémech spjatých se systému tohoto druhu a o některých uplatňovaných přístupech. Důraz je kladen na povrchové metody, které nejsou tolik náročné na dostupnost lingvistických zdrojů. V praktické části je pak popsán návrh systému, který zodpovídá faktografické otázky s využitím české Wikipedie jako zdroje informací. Extrakce odpovědí je založena zčásti na specifických rysech Wikipedie a zčásti na ručně předdefinovaných vzorech. Výsledky ukazují, že pro zodpovídání jednoduchých otázek je systém výrazně přínosnější než běžný vyhledávací stroj.
Automatizovaná navigace na privátních stránkách
Kliment, Radek ; Rychlý, Marek (oponent) ; Křivka, Zbyněk (vedoucí práce)
Tato diplomová práce se zabývá technologiemi souvisejícími s webovými stránkami a popisuje navigaci na nich, včetně přihlašování do privátních částí a udržování kontextu uživatele. Je zde rozebrán návrh mechanismu pro automatizovanou navigaci zahrnujícího skriptovací jazyk i prostředky pro vizuální popis. Uveden je také návrh aplikace, která mechanismus využívá, a implementace jejích jednotlivých částí. V poslední kapitole je popsáno testování na různých webových stránkách a jsou shrnuty z něj získané poznatky.
Extrakce sémantických vztahů z textu
Pospíšil, Milan ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
Dnes existuje spousta polostrukturovaných dokumentů, které by bylo vhodné převést do strukturované podoby. Cílem práce je navrhnout systém, který umožňí tuto práci co nejvíce zautomatizovat. To může být obtížný problém, protože většina těchto dokumentů není generovaná automaticky počítačem a systém proto musí tolerovat nepřesnosti. Protože je třeba i určité sémantické pochopení problému, bude systém testován na doméně sady dokumentů zápisů ze schůzek.
Extrakce textových dat z internetových stránek
Mazal, Zdeněk ; Morský, Ondřej (oponent) ; Fojtová, Lucie (vedoucí práce)
Tato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
Automaticky aktualizovaný webový portál
Staněk, Petr ; Škoda, Petr (oponent) ; Smrž, Pavel (vedoucí práce)
Tato bakalářská práce se věnuje návrhu a implementaci automaticky aktualizovaného webového portálu, který řeší nedostatky portálů plněných obsahem lidmi. Dále předkládá srovnání existujících vědeckých portálů, rozebírá problematiku extrakce, ukládání a vyhledávání informací. Obecné mechanismy jsou demonstrovány na portálu evropských výzkumných projektů, který odstraňuje nedostatky oficiálního informačního portálu pro evropský výzkum a inovace Cordis. Práce bere jako prototyp existující produkt bakalářské práce a jejím cílem je vylepšit kvalitu extrakce a rozšířit tento systém tak, aby zjišťoval případné problémy a upozorňoval na ně administrátora. Toho bylo dosaženo zvýšením robustnosti a rychlosti extraktoru, evidováním všech důležitých událostí spojených s extrakcí a na druhé straně implementací samostatné administrační sekce webového portálu, která administrátora informuje o problémech a nabízí mu prostředky k jejich řešení.

Národní úložiště šedé literatury : Nalezeno 75 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.