|
Options of automated categorization of contracts
Bereš, Miroslav ; Jelínek, Ivan (vedoucí práce) ; Oškera, Radek (oponent)
Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů.
|
|
And the winner is... The presence of political slant in the movie production
Selep, Ján ; Stroukal, Dominik (vedoucí práce) ; Dušek, Libor (oponent)
V predkladanej diplomovej práci študujem maximalizáciu zisku filmových štúdií založenú na zafarbovaní používaného jazyka. Skúmam racionálne jednajúcu firmu, ktorá zafarbuje jazyk produkovaných filmov tak, aby bol čo najbližšie k spotrebiteľovi voliacemu buď demokratickú, alebo republikánsku stranu. Využitím technológií počítačového spracovania textu skúmam dáta z takmer dekády prepisov politických prejavov v Kongrese Spojených Štátov Amerických a 457 náhodne vybraných filmových titulkov. Pre meranie vzdialenosti medzi vektormi frází používam chi kvadrát štatistiku a jej Monte Carlo aproximáciu. Na základe popísaných dát som vo filmoch nenašiel žiadne politické vychýlenie jazyka. To platí zároveň pri odhade pre jednotlivé štúdia, tak pri zoskupení za jednotlivé roky. V náväznosti na prevedenú analýzu som pre každý skúmaný film skonštruoval index politického vychýlenia. Využitím tohto indexu odhadujem vplyv politického jazyka na následné výnosy filmu. Nájdený vzťah je však opäť nesignifikantný.
|
|
Experimenty s českými lingvistickými daty a ILP
Dědek, Jan ; Eckhardt, Alan ; Vojtáš, Peter
V tomto článku prezentujeme počáteční experimenty, které jsme provedli ve spojitosti s naším výzkumem Sémantického webu. Tyto experimenty by měly demonstrovat možnosti zapojení ILP při získávání sémantických informací z textů českých webových stránek. Těmto experimentům předchází komplexní lingvistická analýza, jejíž výstup je využit v induktivní proceduře ILP.
|