keywords:"rozhodovací stromy" - Search Results - Digital Repository

guest :: login Digital Repository
		Search		Submit		Help		About

Home > Search Results: keywords:"rozhodovací stromy"

Search:

Search Tips :: Advanced Search

Search collections:

Sort by:	Display results:	Output format:

	Analysis of Operational Data and Detection od Anomalies during Supercomputer Job Execution Stehlík, Petr ; Nikl, Vojtěch (referee) ; Jaroš, Jiří (advisor) V posledních letech jsou superpočítače stále větší a složitější, s čímž souvisí problém využití plného potenciálu systému. Tento problém se umocňuje díky nedostatku nástrojů pro monitorování, které jsou specificky přizpůsobeny uživatelům těchto systémů. Cílem práce je vytvořit nástroj, nazvaný Examon Web, pro analýzu a vizualizaci provozních dat superpočítače a provést nad těmito daty hloubkovou analýzu pomocí neurálních sítí. Ty určí, zda daná úloha běžela korektně, či vykazovala známky podezřelého a nežádoucího chování jako je nezarovnaný přístup do operační paměti nebo např. nízké využití alokovaých zdrojů. O těchto faktech je uživatel informován pomocí GUI. Examon Web je postavený na frameworku Examon, který sbírá a procesuje metrická data ze superpočítače a následně je ukládá do databáze KairosDB. Implementace zahrnuje disciplíny od návrhu a implementace GUI, přes datovou analýzu, těžení dat a neurální sítě až po implementaci rozhraní na serverové straně. Examon Web je zaměřen zejména na uživatele, ale může být také využíván administrátory. GUI je vytvořeno ve frameworku Angular s knihovnami Dygraphs a Bootstrap. Uživatel díky tomu může analyzovat časové řady různých metrik své úlohy a stejně jako administrátor se může informovat o současném stavu superpočítače. Tento stav je zobrazen jako několik globálně agregovaných metrik v posledních 30 minutách nebo jako 3D model (či 2D model) superpočítače, který získává data ze samotných uzlů pomocí protokolu MQTT. Pro kontinuální získávání dat bylo využito rozhraní WebSocket s vlastním mechanismem přihlašování a odhlašování konkretních metrik zobrazovaných v modelu. Při analýze spuštěné úlohy má uživatel dostupné tři různé pohledy na danou úlohu. První nabízí celkový přehled o úloze a informuje o využitých zdrojích, času běhu a vytížení části superpočítače, kterou úloha využila společně s informací z neurálních sítí o podezřelosti úlohy. Další dva pohledy zobrazují metriky z výkonnostiního energetického hlediska. Pro naučení neurálních sítí bylo potřeba vytvořit novou datovou sadu ze superpočítače Galileo. Tato sada obsahuje přes 1100 úloh monitorovaných na tomto superpočítači z čehož 500 úloh bylo ručně anotováno a následně použito pro trénování sítí. Neurální sítě využívají model back-propagation, vhodný pro anotování časových sérií fixní délky. Celkem bylo vytvořeno 12 sítí pro metriky zahrnující vytížení procesoru, paměti a dalších části a např. také podíl celkového času procesoru v úsporném režimu C6. Tyto sítě jsou na sobě nezávislé a po experimentech jejich finální konfigurace 80-20-4-3-1 (80 vstupních až 1 výstupní neuron) podávaly nejlepší výsledky. Poslední síť (v konfiguraci 12-4-3-1) anotovala výsledky předešlých sítí. Celková úspěšnost systému klasifikace do 2 tříd je 84 %, což je na použitý model velmi dobré. Výstupem této práce jsou dva produkty. Prvním je uživatelské rozhraní a jeho serverová část Examon Web, která jakožto rozšiřující vrstva systému Examon pomůže s rozšířením daného systému mezi další uživatele či přímo další superpočítačová centra. Druhým výstupem je částečně anotovaná datová sada, která může pomoci dalším lidem v jejich výzkumu a je výsledkem spolupráce VUT, UNIBO a CINECA. Oba výstupy budou zveřejněny s otevřenými zdrojovými kódy. Examon Web byl prezentován na konferenci 1st Users' Conference v Ostravě pořádanou IT4Innovations. Další rozšíření práce může být anotace datové sady a také rozšíření Examon Web o rozhodovací stromy, které určí přesný důvod špatného chování dané úlohy. Detailed record
	Vertebra detection and identification in CT oncological data Věžníková, Romana ; Harabiš, Vratislav (referee) ; Jakubíček, Roman (advisor) Automated spine or vertebra detection and segmentation from CT images is a difficult task for several reasons. One of the reasons is unclear vertebra boundaries and indistinct boundaries between vertebra. Next reason is artifacts in images and high degree of anatomical complexity. This paper describes the design and implementation of vertebra detection and classification in CT images of cancer patients, which adds to the complexity because some of vertebrae are deformed. For the vertebra segmentation, the Otsu’s method is used. Vertebra detection is based on search of borders between individual vertebra in sagittal planes. Decision trees or the generalized Hough transform is applied for the identification whereas the vertebra searching is based on similarity between each vertebra model shape and planes of CT scans. Detailed record
	Reporting - ERP System Pála, Milan ; Rychlý, Marek (referee) ; Očenášek, Pavel (advisor) This work deals with creating a module for existing ERP system. Module should be able to produce dataprogress of production, monitor productivity of production and warn if some issue will happen. This work evaluates a processing of a large amount of data and it shows different possibilities how to precalculate data. It also deals with a draft how to predict information from known data. Detailed record
	Data Analysis of a Company Producing Medical Supplies Kulhánková, Monika ; Bartík, Vladimír (referee) ; Burgetová, Ivana (advisor) This bachelor's thesis deals with the analysis of the company's sales data, specifically the classification of the customer's type according to his sales data. It provides a theoretical introduction to data mining. It describes the classification process and methods for creating classifiers and presents the CRISP-DM model. This thesis describes the provided data sets, from which the relevant attributes are selected. The data are preprocessed and used in the creation and testing of classification models. The result of this thesis is a comparison of the achieved results. Detailed record
	Classifier of astrophysics data Rylko, Vojtěch ; Vrábelová, Pavla (referee) ; Zendulka, Jaroslav (advisor) Cílem této práce je implementace algoritmu pro dolování z dat pro použítí v astrofyzice. V práci jsou představeny základní pojmy a principy dolování z dat. Zejména jeho obecná definice, rozlišení mezi klasifikací a regresí a vyhodnocování přesnosti modelu. Text se zabývá převážně učením s učitelem. Blíže představeny jsou algoritmy založené na rozhodovacích stromech. Je definován rozhodovací strom jako model a uveden obecný algoritmus pro tvorbu rozhodovacích stromů z dat. Jsou diskutována různá kritéria dělení v uzlech (zejména založená na etropii), kritéria pro ukončení růstu a ořezávání stromů. Pro ilustraci jsou uvedeny vybrané algoritmy - ID3, CART, RainForest a BOAT. Na dříve uvedených informacích je založena kapitola o souborech rozhodovacích stromů. Zabývá se základními způsoby jejich kombinací (bagging a arcing) . Detailněji je popsán obecný algoritmus náhodných lesů a RandomForest TM jako příklad jeho praktické realizace. Na základě srovnání algoritmů a provedených experimentů v literatuře jsou k implementaci vybrány náhodné lesy. Implementovaný algoritmus je detailněji popsán - k dělení uzlů používá Gini entropie a průměrnou kvadratickou chybu, ignoruje chybějící hodnoty a pro kombinaci výstupů jednotlivých stromů používá většinové hlasování / průměr. Jako formát vstupních a výstupních dat je zvolena podmnožina ARFF formátu. Architektura implementace je ilustrována UML diagramy s popisujícím komentářem. Jednotlivé aspekty implementace jsou stručně popsány - implementačním jazykem je C++11, je využívána knihovna Boost (zejména chytré ukazatele, serializace, nastavení parametrů a konfigurační soubory, ...) společně s dalšími volně dostupnými knihovnami (google-glog pro logování, googletest pro jednotkové testování, ...). Grafického výstupu je dosaženo tiskem modelu náhodného lesu do XML souboru a jeho transformací skriptem do jazyka DOT. Pro oveření validity a vlastností implementace a jejího srovnání s jinými implementacemi náhodných stromů (Waffles, RF-ACE a R - balíček randomForest) jsou navrženy, popsány a provedeny exprimenty: klasifikace astronomických těles na základě barevných indexů, regrese rudého posuvu na základě barevných indexů, osm klasifikačních a pět regresních experimentů na datech z UCI repository. Průběh experimentů je plně automatizován skripty (Bash, Python a R) a je měřena doba učení modelů. Z výsledků experimentů vyplývá, že autorova implementace si vedla výborně při klasifikaci a průměrně při regresi; z časového hlediska měla problémy při datech s mnoha instancemi. Výsledkem práce je zdokumentovaná, snadno rozšiřitelná implementace náhodných lesů v jazyce C++ s grafickým znázorněním modelu, mnoha možnostmi nastavení a experimentálně ověřenou funkčností. Diskuze o dalším možném pokračování projektu se zabývá zejména odstraněním problemů s časovou náročností a přídáním nových funkcionalit. Detailed record
	The identification of objects in an image Štěpán, Filip ; Malach, Tobiáš (referee) ; Boleček, Libor (advisor) The aim of this paper is the creation of an algorithm for identification of objects in an image. The resulting programme will be able to process real visual data. This is the reason why the emphasis is put mainly on the complexity of the environment in which the objects are found, reliable segmentation and quality of the object identification. The paper is further focused on the detection and the identification of vertical traffic signs in an image that are found alongside road communication on the territory of the Czech Republic. Detailed record
	Data Mining Slezák, Milan ; Hynčica, Ondřej (referee) ; Honzík, Petr (advisor) The thesis is focused on an introduction of data mining. Data mining is focused on finding of a hidden data correlation. Interest in this area is dated back to the 60th the 20th century. Data analysis was first used in marketing. However, later it expanded to more areas, and some of its options are still unused. One of methodologies is useful used for creating of this process. Methodology offers a concise guide on how you can create a data mining procedure. The data mining analysis contains a wide range of algorithms for data modification. The interest in data mining causes that number of data mining software is increasing. This thesis contains overviews some of this programs, some examples and assessment. Detailed record
	Design and realization of 3D game MUDRA, Štěpán The goal of this thesis was to design and create a 3D game with the use of graphical assets. In particular, the Unity game engine was used to create the game. Visual Studio and Rider were used to write the program. In the game, the player can encounter enemies whose decision-making is based on different methods. The first one is making decisions according to a single criterion. The next is a multi-criteria-based decision model. Preferences for each action can be set to the model. The search for the optimal setting was performed using a genetic algorithm. The decision-making of the third enemy that the player may encounter is based on the use of a neural network, whose output is then converted into the action that the enemy character performs. Detailed record
	Detection of modern Slow DoS attacks Jurek, Michael ; Jonák, Martin (referee) ; Sikora, Marek (advisor) S rozvojem propojených zařízení v síti internet se počet útoků zvětšuje. Útočníci můžou zneužít takového zranitelného zařízení a vytvořit (D)DoS útok proti své oběti. Tyto útoky se stávají čím dál tím víc sofistikovanější. Proto byla vytvořena nová kategorie DoS útoků s názvem Pomalé DoS útoky, u kterých se útočník snaží napodobit chování standardního uživatele. Útočník se snaží využít všech možností, které mu transportní či aplikační protokol umožňují jako např. náhodné zahazování paketů, neodesílání nebo pozdržování zpráv. Na druhou stranu tvorba vlastních aplikačních výplní těchto protokolů může způsobit stav odepření služby na cíleném aplikačním serveru. Tato práce navrhuje klasifikaci síťových toků a volbu parametrů, které můžou pomoci s detekcí pomalých DoS útoků. Mezi vybranými pomalými DoS útoky jsou Slow Read, Slow Drop a Slow Next. Pro každý útok je popsán proces komunikace z pohledu transportní a aplikační vrstvy. Dále jsou vybrány důležité parametry popisující tyto útoky a v neposlední řadě jsou diskutovány metody a nástroje umožňující tvorbu takových útoků. Tato práce se zabývá možnostmi a nástroji tvorby spojení pro útok a diskutuje základní komunikační koncepty tvorby paralelních spojení. Dále je navržen vlastní generátor pomalých DoS útoků s velkým množstvím parametrů, pomocí nichž může útočník definovat vlastní pomalé DoS útoky. Následující část popisuje testovací prostředí pro testování generovaných útoků, scénáře a nástroje zachycování síťového provozu pro tvorbu vlastního datového souboru, jež je dále použit pro detekci pomalých DoS útoků pomocí metod strojového účení s učitelem. Konrétně jsou použity rozhodovací stromy a náhodné lesy k výběrů důležitých paramterů či sloupců použitelných pro detekci pomalých DoS útoků. Detailed record
	Comparison of logistic regression and decision trees Raadová, Zuzana ; Voříšek, Jan (advisor) ; Komárek, Arnošt (referee) In this thesis we describe a classification of the binary data. For discussing this problem we use two well-known methods - logistic regression and decision trees. These methods deal with the problem in different way, so our aim is to compare a successfulness of their predictions. At first a model of logistic regression is introduced and we show how to estimate its parameters using a method of maximum likelihood. Then we describe decision trees as one of the most popular classification tools. There are discussed older classic algorithms CART and C4.5 and also two new algorithms GUEST and CRUISE. The predictions of both of the methods are shown on a real data example. Detailed record

Interested in being notified about new results for this query?
Subscribe to the RSS feed.

Digital Repository :: :: :: ::
Powered by v1.1.2
Maintained by

This site is also available in the following languages:
Česky English