Národní úložiště šedé literatury Nalezeno 34 záznamů.  začátekpředchozí23 - 32další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Predikce povahy spamových krátkých textů textovým klasifikátorem
Drápela, Karel ; Křena, Bohuslav (oponent) ; Šimková, Hana (vedoucí práce)
Práce se zabývá kategorizací krátkých spamových textů v SMS zprávách. V první části práce jsou shrnuty aktuální přístupy k textové klasifikaci a následuje popis nejpoužívanějších klasifikátorů. V dalších kapitolách je rozebrána anotace testovacích dat, implementace programu a výsledky klasifikace. Program je schopen klasifikovat texty na základě definovaných kategorií a také odhadnout přesnost klasifikátoru na trénovací sadě. Pro dva navržené typy kategorií dosahuje klasifikátor přesnosti až 82% a 92%. Předzpracování i výběr příznaků měly na přesnost pozitivní vliv. Přesnost je dále možné zvýšit odstraněním části vzorků, které má klasifikátor největší problémy zařadit. Při 80% pokrytí je možné zvýšit přesnost o 8-10%.
Automatic assignment of diagnosis to medical reports
Lachata, Adrián ; Hana, Jiří (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Cieľom práce je preskúmať úspešnosť automatického priraďovania kódov diagnóz (ICD­10) lekárskym správam písaných v českom jazyku. Použili sme metódy strojového učenia a algoritmy na kategorizáciu textu ako sú Naive Bayes a Rozhodovacie stromy. Na samotnú klasifikáciu sme využili program WEKA. Na výber atribútov a predspracovanie dát sme vytvorili vlastný program. Hlavné schopnosti programu sú vybratie atribútov na základe IG alebo PMI, lematizácia textu a generovanie stopwords podľa IDF. Najviac sme skúmali diagnózu I10 ale výsledky boli spracované aj pre H660, J00, K30 a Z001. Ako zaujímavosť sme uviedli porovnanie automatického verzus manuálneho priradenia I10 priamo lekármi na vzorke 100 správ. Celkovo sme mali k dispozícií milión správ.
Popularita osob automaticky
Hajič, Jan ; Bojar, Ondřej (vedoucí práce) ; Popel, Martin (oponent)
Možnost automaticky sledovat popularitu osob v~novinách by jistě uvítaly nejen tyto osoby samotné. Počítačové zpracovávání subjektivity je sice rychle se rozvíjející podobor komputační lingvistiky, v~češtině ovšem vůbec pro analýzu subjektivity a polarity v publicistice neexistují data. Začali jsme tedy s~tvorbou ručně anotovaného korpusu polarity z~českých publicistických textů, které se ovšem pro takové zpracování ukázaly jako krajně nevhodné. Dále jsme navrhli klasifikátor založený na statistických metodách, který by měl na základě tohoto korpusu popularitu sledovat, a otestovali jsme ho na korpusu recenzí bílého zboží a orientačně na zárodku našeho korpusu vět z~novinových článků. Jako model jsme použili automaticky extrahovaný unigramový slovník, tři příbuzné metody pro zjišťování polárních lemmat a množství filtrů pro selekci relevantních lemmat. Na recenzích bílého zboží jsme dosáhli výsledků srovnatelných se světovým výzkumem už se základním modelem, naopak u českých publicistických textů vidíme kvůli jejich charakteru možný příslib až u více lingvisticky orientovaných metod.
Feature selection for text classification with Naive Bayes
Lux, Erik ; Petříčková, Zuzana (vedoucí práce) ; Petříček, Martin (oponent)
Tato práce se zabývá výzkumem v oblasti klasifikace dokumentů. Popisuje již existujici techniky s důrazem na Naivní Bayesův klasifikátor. Zmíněny jsou i některé z metod pro výběr příznaků. Teoretické pozadí je základem pro implementaci klasifikační knihovny založené na metodě Naivního Bayesovského klasifikátoru. Knihovna poskytuje kromě samotného klasifikátoru i paletu nástrojů pro předzpracování textu. Tyto nástroje umožňují práci s rozličným typem dokumentů, ale především značně snižují nadbytečné dimenze vstupních dat. Knihovna je testována na dvou různych referenčních datových sadách na kterých jsou diskutovány rozdíly chování jednotlivých metod pro výběr příznaků. Funkčnost celé knihovny je prakticky ověřena jejím začleněním do open-source emailového klienta Mailpuccino.
Predikce vývoje ceny ropy na základě textových zpravodajských informací
Skalický, Jan ; Bojar, Ondřej (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Pro předpověď vývoje ceny ropy existuje celá řada algoritmů. V této práci přinášíme nový pohled na tuto problematiku a představujeme náš projekt COPF. Pomocí klasifikátoru maximální entropie se snažíme předpovídat z textových informací dostupných na Internetu. Opíráme se o znalosti expertů v daném oboru. V rámci práce jsme testovali a vylepšovali úspěšnost systému COPF. Zjistili jsme, že tento přístup má mnoho problémů, které se ale dají řešit. V současném stavu naše úspěšnost sice překonala baseline, ovšem pro další vývoj je nutné získat více zdrojů dat. Naše metoda nebyla nikdy považována za nosnou, spíše může sloužit k vylepšení úspěšnosti předpovědí numerických algoritmů a v každém případě je zajímavá z hlediska možnosti dolování informací z textu.
Čištění, extrakce textu a převod webových stránek do vertikálního formátu
Švaňa, Miloš ; Otrusina, Lubomír (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Táto práca za zaoberá problematikou extrakcie textu z webových stránok, rozlíšením dôležitého obsahu a jeho prevodom do vertikálneho formátu, ktorý je vhodný na ďalšie spracovanie z pohľadu analýzy prirodzeného jazyka. Analyzuje existujúce riešenie a jeho komponenty so zameraním predovšetkým na jeho nedostatky a popisuje návrh a implemetáciu riešenia nového využívajúce získané znalosti.
Adaptivní RSS čtečka
Luža, Jindřich ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Práce se zabývá možností obohacením běžné RSS čtečky o~rozšíření umožnující uživateli jednodušeji filtrovat RSS záznamy na základě jejich zařazení do skupin podle obsahu jejich textu. Jsou zde probrány problémy které vznikají při obecné klasifikaci a při klasifikaci textů. Dále je zde poukázáno na nutné teoretické aspekty formátu RSS, které je potřeba zvažovat při implementaci modulu RSS čtečky a možná podoba návrhnu modulu. Jako poslední je zde uvedeno testování vhodnosti použité klasifikátoru.
Inteligentní emailová schránka
Pohlídal, Antonín ; Drozd, Michal (oponent) ; Chmelař, Petr (vedoucí práce)
Tato diplomová práce se zabývá využitím klasifikace textu při třídění příchozí pošty. Nejdříve je popsána problematika získávání znalostí z databází a je detailně rozebrána klasifikace textu s popisem vybraných metod. Dále je uveden princip emailové komunikace a jsou popsány protokoly SMTP, POP3 a IMAP. Následuje návrh implementace systému, který klasifikuje příchozí poštu a rozbor použitých technologií, tedy Apache James Server, PostgreSQL a RapidMiner. Na závěr je uvedena implementace všech jednotlivých částí výsledného systému a jsou provedeny experimenty s testovací sadou emailů Enron Dataset.
Sledovač aktuálního dění
Odstrčilík, Martin ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce)
Cílem diplomové práce bylo vytvoření aplikace pro sledování aktuálního dění v okolí jejího uživatele. Tato aplikace by měla umožňovat jejím uživatelům události nejen sledovat, ale také přidávat své vlastní či komentovat již existující. Diplomová práce se mimo tvorbu dané aplikace zaobírá analýzou předloženého problému. Analýza zahrnuje průzkum existujících řešení, dostupných technologií a aplikačních rámců využitelných k implementaci. Součástí práce je i popis teorie klasifikace dat, která je v rámci vyvíjené aplikace použita k analýze událostí a komentářů. V textu práce je dále zahrnut návrh řešení, jenž se zaměřuje na návrh uživatelského rozhraní, architektury aplikace, databáze, komunikačního protokolu a klasifikátorů. Jádrem práce je pak popis implementace aplikace. V závěru práce je pak shrnut její průběh a jsou navrhována vhodná rozšíření do budoucna.
Klasifikace zveřejněného obsahu
Matušov, Izidor ; Očenášek, Pavel (oponent) ; Smrčka, Aleš (vedoucí práce)
Tato práce pojednává o klasifikaci zveřejněného obsahu jako o způsobu jeho organizace. Klasifikace využívá algoritmy pro zpracování přirozeného jazyka, speciálně pro angličtinu. Hlavním přínosem práce je aplikace algoritmu pro odstraňování nejednoznačnosti významů slov z textu. Pro zpříjemnění práce s výslednou aplikací je snaha o eliminaci fáze učení a možnost organizace obsahu na základě stylu, kterým je napsán. Aplikace je implementována jako rozšiřitelný server-klient model. V rámci práce byli vytvořeni dva klienti: webová čtečka zpráv a export článků prostředníctvím RSS formátu. V závěru práce se pojednává o možném pokračování v budoucnu.

Národní úložiště šedé literatury : Nalezeno 34 záznamů.   začátekpředchozí23 - 32další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.