Národní úložiště šedé literatury Nalezeno 5 záznamů.  Hledání trvalo 0.01 vteřin. 
Extraction of unspecified relations from the web
Ovečka, Marek ; Svátek, Vojtěch (vedoucí práce) ; Labský, Martin (oponent)
Předmětem diplomové práce je extrakce nespecifikovaných znalostí z webu. V posledních letech vznikly nástroje, které zlepšují výsledky odvětví extrakce znalostí. Cílem práce je seznámit se s těmito nástroji, jeden otestovat a navrhnout využití výsledků. V práci jsou popsány a porovnány tyto nástroje a provedeny extrakce pomocí funkce OLLIE. Na základě výsledků extrakcí jsou navrženy dvě metody obohacení extrakcí pomocí rozeznání pojmenovaných entit. První metoda navrhuje úprava číselných vah kvality extrakcí a druhá obohacení textu extrakcí pomocí pojmenovaných entit. V práci je navržena ontologie, která umožnuje zachytit strukturu obohacených extrakcí. V poslední části je proveden praktický experiment, kde jsou navrženy metody předvedeny. Návrhem dalšího směřování výzkumu v této oblasti by bylo extrahovat a kategorizovat relační vztahy.
Mobilní personální asistenti
Techl, Jan ; Sigmund, Tomáš (vedoucí práce) ; Labský, Martin (oponent)
Tato práce je zaměřena na analýzu, vymezení a popis technologie mobilních personálních asistentů, fenoménu posledních několika let. Mobilní personální asistenti jsou nejprve uvedeni v kontextu počítačové lingvistiky a informační potřeby, která je jednou z motivací k jejich použití. Hlavně se ale práce zabývá představením stěžejních technologií pro komunikaci asistenta a jeho uživatele v přirozeném jazyce, prostředím jejich nasazení a jejich využitím. Práce také představuje omezení a rizika, která z použití personálních asistentů plynou a mohou mít vliv na jejich použitelnost. Vedle analýzy je předmětem práce také návrh a implementace systému porozumění přirozenému jazyku (NLU), který bude použitelný do konkrétní aplikace personálního asistenta. Tento systém sestává z anotačního schématu a souboru komponent, které jsou společně realizovány ve formě webové služby. Průběh implementace a výsledky ukázaly, že navržená architektura a použité nástroje jsou vhodným základním řešením ke tvorbě NLU systému, neboť pomocí nich byl postaven funkční NLU systém podle požadovaných parametrů. Je však těžkým cílem dosáhnout vysoké přesnosti, která závisí na velikosti datové kolekce a dalších faktorech. Výsledky aplikace jsou však dobrým startovním bodem pro její další zpřesňování a pro vývoj, ve kterém se bude její funkcionalita rozšiřovat.
Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Pouzar, Aleš ; Svátek, Vojtěch (vedoucí práce) ; Labský, Martin (oponent)
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl vybrán extrakční systém Ex, který kombinuje dva typy extrakčních znalostí: ručně zadaná pravidla a supervizované algoritmy strojového učení. Díky expertní znalosti v podobě extrakčních pravidel lze účinně kompenzovat nedostatek trénovacích dat. Pravidla jsou přitom nezávislá na konkrétní formátovací struktuře a jeden extrakční model je tak možné využít pro heterogenní množinu dokumentů. Dosažená úspěšnost v extrakci nabídek notebooků ukázala, že by extrakční ontologie, popisující jeden nebo několik málo typů produktů, mohla být úspěšně využita v kombinaci s metodami pro indukci wrapperů a tím automaticky extrahovat nabídky všech typů produktů na úrovni webu.
Extrakce informací z webových stránek pomoci extrakčních ontologií
Labský, Martin ; Berka, Petr (vedoucí práce) ; Strossa, Petr (oponent) ; Vojtáš, Peter (oponent) ; Snášel, Václav (oponent)
S rozvojem Internetu a růstem množství textových dokumentů vzrostla během posledního desetiletí poptávka po nástrojích pro automatickou extrakci informací (IE - information extraction). Úkolem IE je nalézt v analyzovaných dokumentech údaje předem specifikovaného sémantického typu a tyto extrahovat pro potřeby dalších aplikací. Analyzovanými dokumenty mohou přitom být webové stránky, e-maily, dokumenty uvnitř firemních informačních systémů, ale i běžné textové zdroje jakými jsou noviny a časopisy. Aplikace, které nejčastěji využívají výsledky IE, zahrnují tradiční textové vyhledávače, které lze pomocí IE rozšířit o tzv. strukturované vyhledávání, dále systémy pro automatické zodpovídání otázek nebo např. aplikace pro podporu posuzování kvality webových stránek. Tato práce se zabývá vývojem metod a nástrojů pro IE, které jsou obzvláště vhodné pro extrakci ze semi-strukturovaných dokumentů, jakými jsou webové stránky, a pro situace kdy existuje málo trénovacích dat. Hlavním přínosem této práce je navržený přístup rozšířených extrakčních ontologií, který v sobě kombinuje využití extrakčních znalostí tří typů: (1) expertem zadané extrakční znalosti, (2) znalosti naučené z trénovacích dat a (3) znalosti indukované na základě opakující se formátovací struktury, která se často ve webových stránkách nachází. Naše hypotéza je, že současné využití všech tří typů znalostí extrakčním algoritmem může přispět k celkové přesnosti a robustnosti extrakce. Motivací pro tuto práci byl malý počet dosud popsaných metod pro IE, které by využívaly všechny zmíněné typy extrakční znalosti. Jako první je v tomto textu popsán statistický trénovaný přístup k IE založený na skrytých markovských modelech, který je dále integrován s několika trénovanými klasifikátory obrázků tak, aby bylo možno extrahovat jak textové položky, tak obrázky. Přístup je demonstrován a hodnocen na úloze extrakce popisů bicyklů nabízených různými internetovými obchody. Popsáno je i několik algoritmů pro klasifikaci obrázků s použitím různých množin rysů pro klasifikaci. Tyto trénované přístupy jsou posléze integrovány v rámci navržené metody rozšířených extrakčních ontologií, navazující na práci D.W. Embleyho, kterou rozšiřuje o současné využití všch tří výše zmíněných typů extrakční znalosti. Zamýšlenými přínosy extrakčních ontologií jsou rychlý vývoj funkčního prototypu, jeho plynulý přechod do finální IE aplikace a možnost využít různá množství tří typů extrační znalosti podle jejich dostupnosti. Protože extrakční ontologie je typicky odvozena z vhodné doménové ontologie a zůstává ve středu extrakčního procesu, minimalizuje tento přístup úsilí nutné pro zpětnou konverzi extrahovaných výsledků pro populaci zdrojové ontologie či datového schématu. Výsledky navrženého přístupu jsou prezentovány pro několik reálných domén.
Extrakce informací z textu
Michalko, Boris ; Labský, Martin (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Nováček, Jan (oponent)
Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.