Rauch, Jan - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: Rauch, Jan

Hledej:



Tipy pro vyhledávaní :: Jednoduché hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Automation of a data mining process by the LISp-Miner system Ochodnická, Zuzana ; Šimůnek, Milan (vedoucí práce) ; Rauch, Jan (oponent) Tato práce je zaměřená na oblast automatického data miningu. Její cíl je popsat oblast automatického data mining-u, vytvořit návrh procesu automatického vytváření data miningových úloh pro verifikaci zadaných doménových znalostí a pro hledání nových znalostí a také implementace verifikace zadaných doménových znalostí s typem závislosti influence a přizpůsobováním prohledávacího prostoru. Jazyk implementace je LMCL, který umožňuje použití funkcionality systému LISp-Miner automatizovaným způsobem. Pro tyto analýzy dat byla použita data z monitorování znečištění ovzduší. Návrh i implementace byly úspěšné a vytvořené skripty by mohly být použité (s manuálními změnami vstupních parametrů) i pro analýzu dalších dat. Úplný záznam
	Klasifikace entit pomocí Wikipedie a WordNetu Kliegr, Tomáš ; Rauch, Jan (vedoucí práce) ; Berka, Petr (oponent) ; Smrž, Pavel (oponent) ; Žabokrtský, Zdeněk (oponent) Dizertační práce se věnuje problému klasifikace entit reprezentovaných jmennými frázemi v textu. Cílem je vyvinout metodu pro automatizovanou klasifikaci těchto entit v datasetech skládajících se z krátkých textových fragmentů. Důraz je kladen na metody učení bez učitele, nebo kombinaci učení s učitelem a bez učitele (angl. semi-supervised learning), přičemž nebudou vyžadovány trénovací příklady. Třídy jsou buď automaticky stanoveny nebo zadány uživatelem. Náš první pokus pro řešení problému klasifikace entit je algoritmus Sémantického Mapování Konceptů (angl. Semantic Concept Mapping -- SCM). Tento algoritmus mapuje jmenné fráze i cílové třídy na koncepty thesauru WordNet. Grafové míry podobnosti pro WordNet jsou použity pro přiřazení nejbližší třídy k dané jmenné frázi. Pokud jmenná fráze není namapována na žádný koncept, potom je použit algoritmus Cíleného Objevování Hyperonym (angl. Targeted Hypernym Discovery -- THD). Tento algoritmus extrahuje s pomocí lexiko-syntaktických vzorů hyperonymum z článku na Wikipedii, který danou jmennou frázi definuje. Toto hyperonymum je použito k namapování jmenné fráze na koncept ve WordNetu. Hyperonymum může být samo o sobě také považováno za výsledek klasifikace. V takovém případě je dosaženo klasifikace bez učitele. Algoritmy SCM a THD byly navrženy pro angličtinu. I když je možné oba algoritmy přizpůsobit i pro jiné jazyky, byl v rámci dizertační práce vyvinut algoritmus Pytel článků (angl. Bag of Articles -- BOA), který je jazykově agnostický, protože je založen na statistickém Rocchio klasifikátoru. Díky zapojení Wikipedie jako zdroje informací pro klasifikaci nevyžaduje BOA trénovací data. WordNet je využit novým způsobem, a to pro výpočet vah slov, jako pozitivní seznam slov a pro lematizaci. Byl také navržen disambiguační algoritmus pracující s globálním kontextem. Algoritmus BOA považujeme za hlavní přínos dizertace. Experimentální hodnocení navržených algoritmů je provedeno na datasetu WordSim353 používaném pro hodnocení systémů pro výpočet podobnosti slov (angl. Word Similarity Computation -- WSC), a na datasetu Český cestovatel, který byl vytvořen speciálně pro účel našeho výzkumu. Na datasetu WordSim353 dosahuje BOA Spearmanova korelačního koeficientu 0.72 s lidským hodnocením. Tento výsledek je blízko hodnotě 0.75 dosažené algoritmem ESA, který je podle znalosti autora nejlepším algoritmem pro daný dataset nevyžadujícím trénovací data. Algoritmus BOA je ale výrazně méně náročný na předzpracování Wikipedie než ESA. Algoritmus SCM nedosahuje dobrých výsledků na datasetu WordSim353, ale naopak předčí BOA na datasetu Český cestovatel, který byl navržen speciálně pro úlohu klasifikace entit. Tato nesrovnalost vyžaduje další výzkum. V samostatném hodnocení THD na malém počtu pojmenovaných entit z datasetu Český cestovatel bylo správné hyperonymum nalezeno v 62 % případů. Další dosažené výsledky samostatného významu zahrnují novou funkci pro vážení slov založenou na WordNetu, kvalitativní a kvantitativní vyhodnocení možností využití Wikipedie jako zdroje textů pro objevování hyperonym s využitím lexiko-syntaktických vzorů a zevrubnou rešerši měr podobnosti nad WordNetem zahrnující též jejich výkonnostní porovnání na datasetech WordSim353 a Český cestovatel. Úplný záznam
	Data mining v oblasti Customer relationship managemet: Analýza dat významné logistické společnosti Nekvapil, Viktor ; Rauch, Jan (vedoucí práce) ; Šimůnek, Milan (oponent) Diplomová práce se zabývá možnostmi aplikace open source data miningového systému LISp-Miner v oblasti customer relationship management (CRM), konkrétně v oblasti tzv. lead managementu. Jedná se o proces vyhledávání informací o potenciálních zákaznících, kvalifikování těchto zákazníků podle jejich potenciálu (budoucí hodnoty) a následně o snahu proměnit je ve skutečné zákazníky. Použitá data se týkají lead managementu jedné významné logistické společnosti (společnost chtěla zůstat v anonymitě). Data jsou analyzována pomocí systému LISp-Miner, což je akademický software vyvíjený na Fakultě informatiky a statistiky Vysoké školy ekonomické v Praze. V práci je také popsána spolupráce s doménovými experty ze společnosti, která poskytla data. Hlavním cílem této práce je získat informace, které přispějí k možným změnám interních procesů společnosti. Dále je cílem vypracování návodu k používání LISp-Mineru v případě, že je řešena podobná data miningová úloha. Posledním cílem je návrh způsobů, jakým lze jednoduchou a srozumitelnou cestou prezentovat výsledky analýzy. Cíle této práce byly splněny provedením analýzy v souladu s metodikou CRISP-DM. Přínosem práce je popis průběhu celého projektu analýzy reálných dat s využitím systému LISp-Miner. Dalším výstupem je popis domény lead managementu a vypracování návodu a doporučení pro budoucí podobné projekty. V Sekci I je popsán systém LISp-Miner. Sekce II - Případová studie popisuje proces analýzy dat. Byly provedeny dva cykly (iterace) analýzy. Kapitoly zabývající se oběma iteracemi jsou strukturovány v souladu s fázemi metodiky CRISP-DM. Sekce III sumarizuje poznatky získané běhen celého projektu. Dále uvádí návody a doporučení k používání systému LISp-Miner v případě, že je řešena podobná data miningová úloha. Úplný záznam
	The Analysis of Real CRM Data by the LISp-Miner System Ochodnická, Zuzana ; Šimůnek, Milan (vedoucí práce) ; Rauch, Jan (oponent) Tato bakalářská práce se zaměřuje na hloubkovou analýzu dat -- data mining reálných dat CRM. Tato analýza bude uskutečněná pomocí procedur CF-Miner a KL-Miner systému LISp-Miner. Cílem je použít tyto procedury na reálných CRM datech, čímž se mohou získat různé zajímavé vztahy mezi zkoumanými daty. K dosažení tohoto cíle budu využívat metodiku CRISP-DM, což je data mining-ová metodika, která popisuje celý proces analýzy. Přínos mojí práce bude spočívat jednak v opise využití procedur CF-Miner a KL-Miner, který by mohl pomoct dalším studentům a lidem při práci s těmito procedurami, a jednak v analýze dat vedoucí k jejich lepšímu porozumění a tím také k jejich efektivnějšímu využití. Úplný záznam
	The GUHA method, data preprocessing and mining. (Position paper.) Hájek, Petr ; Feglar, Tomáš ; Rauch, Jan ; Coufal, David Plný tet: v867-02 - PDF Plný text: content.csg - PDF Úplný záznam
	Zpracování asociačních pravidel metodou vícekriteriálního shlukování Kejkula, Martin ; Rauch, Jan (vedoucí práce) ; Berka, Petr (oponent) ; Máša, Petr (oponent) Cílem této práce je navrhnout metodu, která by umožňovala zpracovat množinu asociačních pravidel: měla by poskytovat strukturovaný, přehledný popis celé množiny asociačních pravidel, získané libovolnou implementací nějakého algoritmu pro hledání asociačních pravidel v analyzovaných datech. Měla by uživateli poskytnout přehled o množině vygenerovaných asociačních pravidel a usnadnit její zpracování. Způsob dosažení cíle, zvolený v této práci je: rozdělit množinu asociačních pravidel do podmnožin. Asociační pravidla v jedné podmnožině by si měla být vzájemně více podobná než pravidla ze dvou různých podmnožin. Hlavním přínosem této práce je nová originální metoda zpracování asociačních pravidel. Vedlejším přínosem práce je rozsáhlá rešerše publikovaných metod zpracování asociačních pravidel. Metoda vícekriteriálního shlukování poskytuje rozdělení asociačních pravidel do skupin vzájemně si podobných pravidel (tzv. "přirozených shluků"), kterého není možné dosáhnout žádnou z doposud známých metod. Metoda používá nový způsob reprezentace asociačních pravidel, inspirovaný vektorovým modelem, používaným v oblasti zpracování informačních fondů (information retrieval). V práci je popsán převod asociačních pravidel do vektorového modelu, analogickému k vektorové reprezentaci dokumentů. Jádrem metody je dvojí, na sobě nezávislé shlukování asociačních pravidel: shlukování kvantitativních charakteristik (jako jsou např. spolehlivost, podpora, faktor zajímavosti) a cedentální shlukování asociačních pravidel (inspirované shlukováním dokumentů). Struktura práce: na úvodní kapitolu navazuje kapitola, popisující proces dobývání znalostí z databází. Proces je popsán na základě vybraných metodik (CRISP-DM, SEMMA, GUHA, RAMSYS).Třetí kapitola je věnována pojmu asociační pravidlo a charakteristikám asociačních pravidel. Další kapitola obsahuje rešerši současných metod post-processingu asociačních pravidel. Pátá kapitola seznamuje s problematikou shlukování. Šestá kapitola obsahuje popis metody vícekriteriálního shlukování asociačních pravidel. Další kapitola se věnuje experimentům. Osmá kapitola se zabývá možnostmi využití metody. Úplný záznam
	Fuzzy GUHA Ralbovský, Martin ; Rauch, Jan (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Holeňa, Martin (oponent) ; Vojtáš, Peter (oponent) Metoda GUHA je jednou z nejstarších metod explorační analýzy dat, která je považována za součást vědního oboru dobývání znalostí z databází. Na rozdíl od jiných metod tohoto oboru, metoda GUHA staví na pevných teoretických základech logiky a statistiky. Metoda vnímá nalezení zajímavé znalosti jako nalezení určité formule v dostatečně bohatém logickém kalkulu, kterému se říká observační kalkul. Hlavním tématem dizertační práce je aplikace "fuzzy paradigmatu" na metodu GUHA. Pod pojmem "fuzzy paradigma" myslíme přístupy, které používají vícehodnotové stupně náležení, nebo pravdivostní hodnoty, jmenovitě fuzzy teorii množin a fuzzy logiku. Práce se nesnaží pokrýt všechny aspekty této aplikace, soustředí se na: - asociační pravidla, která jsou nejpoužívanější typy formulí v metodě GUHA - použití fuzzy dat - logické aspekty dobývání fuzzy asociačních pravidel - porovnání GUHA teorie s výzkumem fuzzy asociačních pravidel hlavního proudu - implementaci teorie s použitím bitových řetízků Práce zevrubně rozpracovává teorii fuzzy asociačních pravidel a používá přitom teoretický aparát fuzzy teorie množin i fuzzy logiky. Fuzzy teorie množin slouží zejména k porovnání metody GUHA s existujícími pokusy o formalizaci fuzzy asociačních pravidel založených na algoritmu apriori. Fuzzy logika je použita k definici nové třídy logických kalkulů nazvaných logické kalkuly fuzzy asociačních pravidel (LCFAR). Práce se detailně zabývá problémem existence dedukčních pravidel v LCFAR. Vhodná část navržené teorie je implementována v systému Ferda za pomoci bitových řetízků, což znamená reprezentace charakteristik zkoumaných objektů jako řetezce bitů. Tento přístup lze v crisp případě efektivně implementovat. Pro zachování jeho výhod ve fuzzy případě bylo provedeno hloubkové testování datových struktur a algoritmů pro reprezentaci fuzzy bitových řetízků. Úplný záznam
	Aplikace DZD na data o pacientech kliniky plastické chirurgie Šotlík, Jakub ; Rauch, Jan (vedoucí práce) ; Tomášek, David (oponent) Cílem mé bakalářské práce, je pomocí metod a technologií procesu dobývání znalostí z databází, analyzovat data o klientech soukromé plastické chirurgie a pokusit se v nich nalézt co nejvíce užitečných znalostí z pohledu majitele dat, která pak budou vhodně prezentována v systému SEWEBAR. Zpracování práce probíhá podle metodologie CRISP-DM, navržené pro obor dobývání znalostí z databází. Jednotlivé analytické otázky budou řešeny pomocí systému LISp-Miner, který bude zpracovávat jednotlivé úlohy pomocí analytické procedury 4ft-Miner metody GUHA. Nalezené vztahy budou prezentovány v systému SEWEBAR, přičemž některé zajímavé vztahy budou prezentovány i v této práci. Tato práce má za úkol pokusit se vyhledat užitečné znalosti do odvětví plastické chirurgie a to jak ze stránky obchodní, kde se vyhledávají vztahy spíše manažerské povahy, tak i z lékařského pohledu na věc, kde se práce zaměřuje na hledání vztahů jejich zdravotního a psychického stavu. Práce je strukturovaná tak, aby odpovídala metodologii CRISP-DM, kde jednotlivé etapy této fáze odpovídají jednotlivým kapitolám, přičemž v každé fázi předkládám její výsledek a popisuji způsob jejího dosažení. Úplný záznam
	Data mining časových řad Novák, Petr ; Rauch, Jan (vedoucí práce) ; Beneš, Vratislav (oponent) Tato práce se zabývá moderními směry v oblasti data miningu časových řad. Úplný záznam
	Dobývání znalostí z databází - příklady aplikací v kardiologických datech Rauch, Jan Práce obsahuje základní informace o dobývání znalostí a databází jakožto důležité disciplíně informatiky a ukazuje příklady jeho aplikací v medicínských datech. Jsou zmíněny hlavní rysy metodologie CRISP-DM a uvedeny příklady vyhledávání zajímavých asociačních pravidel za účelem orientace v neznámých datových souborech. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English