Original title:
Možnosti automatizovanej kategorizácie kontraktov
Translated title:
Options of automated categorization of contracts
Authors:
Bereš, Miroslav ; Jelínek, Ivan (advisor) ; Oškera, Radek (referee) Document type: Bachelor's theses
Year:
2015
Language:
slo Publisher:
Vysoká škola ekonomická v Praze Abstract:
[slo][cze][eng] Objektom záujmu mojej bakalárskej práce je automatická kategorizácia. Hlavným cieľom je preskúmanie súčasných prístupov k automatickej kategorizácii, návrh metodiky a vykonanie experimentu, v ktorom sa sleduje úspešnosť kategorizovania kontraktov ve-rejnej správy s využitím strojového učenia. Bakalárska práca je rozdelená do dvoch hlavných častí. Prvá časť je venovaná teórii, ktorá približuje a vysvetľuje danú problematiku. Takisto sú v tejto časti popísané súčasné prístupy k automatickej kategorizácii. Druhá časť je zameraná na navrhnutie metodiky experimentu a jeho prevedenie, počas ktorého sa sleduje úspešnosť automatického kategorizovania kontraktov. V priebehu experimentu sú vytvorené modely, ktoré sa v konečnom dôsledku aplikujú na kontrolnú skupinu. Výstupom sú rozkategorizované dokumenty, pri ktorých sa sleduje úspešnosť ich kategorizácie. Za týmto účelom je v práci použitý program Apache OpenNLP. Teoretická časť a návrh metodiky experimentu je vypracovaná na základe štúdia zahraničnej odbornej literatúry primárne získanej z online elektronických a informačných zdrojov.Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů.My bachelor thesis is focused on automatic categorization. The main goal is to examine actual approaches in automatic categorization, propose methodology for an experiment and perform the experiment. The experiment is done in order to measure success rate of automatic categorization with use of machine learning. It is performed on contracts obtained from public administration's web pages. The bachelor is divided into two parts, theoretical part and the experiment. First one focuses on analyzing theory which explains the subject matter, there are also described current approaches in automatic categorization. Second part describes methodology proposal of the experiment and performing of the experiment. During the process of the experiment, there are created models that are applied on control group. The experiment's outputs are categorized documents. These documents are used to monitor the success rate of automatic categorization. In order to measure the success rate, there is software called Apache OpenNLP used in this experiment. The theoretical part and proposal of the methodology are written based on studying foreign professional literature, mostly obtained from electronic and information sources.
Keywords:
Apache OpenNLP; categorization; classification; machine learning; public administration; text mining; text processing; Apache OpenNLP; dolování z textu; kategorizace; klasifikace; strojové učení; veřejná správa; zpracování textu
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/45911