Národní úložiště šedé literatury Nalezeno 24 záznamů.  předchozí5 - 14další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Škálovatelné strojové učení s využitím nástrojů Hadoop a Mahout
Kryške, Lukáš ; Atassi, Hicham (oponent) ; Burget, Radim (vedoucí práce)
Tato bakalářská práce srovnává několik nástrojů pro realizaci škálovatelné platformy strojového učení a popisuje jejich výhody a nevýhody. Dále práce prakticky realizuje funkčnost škálovatelné platformy založené na nástroji Apache Hadoop a zabývá se měřením výkonu samoučícího algoritmu K-Means pomocí knihoven strojového učení Apache Mahout na celkem pěti výpočetních uzlech.
Výstavba a programování clusteru o nízkém příkonu
Hradecký, Michal ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Projekt se zabývá výstavbou a programováním nízko-příkonového clusteru složeného z kitů Hardkernel Odroid XU4 založených na čipech ARM Cortex A15 a Cortex A7. Cílem bylo navrhnout jednoduchý cluster složený z několika kitů a vytvořit pro něj sadu testů, na nichž by šlo otestovat základní výkonnostní parametry a spotřebu. K testování byly použity zejména benchmarky HPL, Stream a různé testy pro rozhraní MPI. Celkový výkon clusteru složeného ze 4 kitů měřený v benchmarku HPL byl 23~GFLOP/s ve dvojité přesnosti, přičemž cluster vykazoval efektivitu výpočtu cca 0,58~GFLOP/W. Práce dále popisuje instalaci plánovače PBS Torque a frameworku pro kompilaci a správu HPC softwaru EasyBuild na 32bitové platformě ARM. Po srovnání se superpočítačem Anselm vyšlo, že Odroid cluster poskytuje přibližně stejnou efektivitu výpočtu jako velký superpočítač, ovšem za vyšší pořizovací cenu za srovnatelný výkon.
Analysis of Operational Data and Detection od Anomalies during Supercomputer Job Execution
Stehlík, Petr ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Using the full potential of an HPC system can be difficult when such systems reach the exascale size. This problem is increased by the lack of monitoring tools tailored specifically for users of these systems. This thesis discusses the analysis and visualization of operational data gathered by Examon framework of a high-performance computing system. By applying various data mining techniques on the data, deep knowledge of data can be acquired. To fully utilize the acquired knowledge a tool with a soft-computing approach called Examon Web was made. This tool is able to detect anomalies and unwanted behaviour of submitted jobs on a monitored HPC system and inform the users about such behaviour via a simple to use web-based interface. It also makes available the operational data of the system in a visual, easy to use, manner using different views on the available data. Examon Web is an extension layer above the Examon framework which provides various fine-grain operational data of an HPC system. The resulting soft-computing tool is capable of classifying a job with 84 % success rate and currently, no similar tools are being developed. The Examon Web is developed using Angular for front-end and Python, accompanied by various libraries, for the back-end with the usage of IoT technologies for live data retrieval.
Systém pro automatizovanou obsluhu superpočítače
Strečanský, Peter ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce)
Cieľom tejto práce je rozšíriť existujúci program FabSim o modul, ktorý umožní automatizovanú obsluhu superpočítačov, predovšetkým prácu s plánovačom OpenPBS. Modul bol vytvorený v programovacom jazyku Python za použitia balíčka Fabric. Skripty, ktoré sa pomocou OpenPBS spúšťajú, sú uložené vo forme predlôh a pred samotným prenosom na cluster a spustením sa dynamicky upravia na základe preferencií užívateľa. Vytvorené riešenie tak poskytuje komplexnú sadu metód, ktoré umožňujú plnohodnotnú obsluhu superpočítačov, integráciu s Gitom a spravovanie dát nachádzajúcich sa na superpočítačoch. Hlavným prínosom tejto práce je jednoduchšie riadenie a úspora času spojená s obsluhou superpočítačov.
Škálovatelné předzpracování dat prostřednictvím nástroje Hadoop
Marinič, Michal ; Šmirg, Ondřej (oponent) ; Burget, Radim (vedoucí práce)
Tato práce se zabývá škálovatelným předzpracováním dat prostřednictvím nástroje Hadoop, který slouží pro paralelní zpracování velkého objemu dat. V první teoretické části se práce zaměřuje na vysvětlení fungování struktury základních funkčních prvků distribuovaného souborového systému HDFS a metody MapReduce pro paralelní zpracování. Praktická část práce popisuje realizaci Hadoop clusteru v pseudo-režimu pro jednoduché ladění aplikací a také realizaci v plně distribuovaném režimu pro simulaci nasazení v reálné praxi.
Paralelizace ultrazvukových simulací s využitím lokální Fourierovy dekompozice
Dohnal, Matěj ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce přináší návrh nové metody pro distribuovaný výpočet 3D Fourierovy transformace s využitím lokální 3D dekompozice domény, popis její implementace a srovnání s dosud běžně používanou metodou globální 1D dekompozice domény. Nová metoda byla navržena, implementována a testována především pro budoucí použití v simulačním programu k-Wave, ale nic nebrání jejímu použití v jiných aplikacích. Implementace prokázala svoji efektivitu na superpočítači Anselm při testování na až 2048 jádrech, kde je až 3krát rychlejší než globální 1D dekompozice za cenu nepřesnosti výpočtu v řádu 10-5, neboť se podařilo významně snížit režii výpočtu v podobě komunikace mezi procesy. Na konci práce je diskutováno, jak lze s metodou výpočtu Fourierovy transformace využívající lokální dekompozici domén dosáhnout co nejlepších výsledků z hlediska přesnosti i rychlosti výpočtu, zároveň jsou zmíněny i její limity.
Paralelizace ultrazvukových simulací pomocí 2D dekompozice
Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili.  Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám.
Odhad doby běhu algoritmu pomocí strojového učení
Buchta, Martin ; Chlebík, Jakub (oponent) ; Jaroš, Jiří (vedoucí práce)
Cílem této práce je vytvořit model pro odhad doby běhu ultrazvukové simulace k-Wave na základě dané velikosti domény. Program využívá MPI a může být spuštěn na více uzlech superpočítače. Predikční modely byly vytvořeny s využitím symbolické regrese a následně porovnány s modely založenými na neuronových sítích. Tyto modely byly natrénovány na zaznamenaných datech. Výsledky ukazují, že modely překonávají stávající řešení. Model se symbolickou regresí dosáhl průměrné relativní odchylky 5,64% u vhodných úloh. Model neuronové sítě dosáhl průměrné relativní odchylky 8,25% na neznámých doménách včetně těch, které nejsou optimalizované pro simulaci k-Wave. Tato práce přináší nový, přesnější model pro předpovídání doby běhu a porovnává chybovost neuronových sítí a symbolické regrese pro tento konkrétní typ regresní úlohy. Celkově tyto modely mají potenciál praktického využití při spouštění a plánování simulací k-Wave.
Optimalizace spouštěcích konfigurací k-Wave úloh
Sasák, Tomáš ; Jaroš, Marta (oponent) ; Jaroš, Jiří (vedoucí práce)
Táto práca sa zaoberá plánovaním, resp. správnym odhadom spúšťacích konfigurácií úloh k-Wave na superpočítačoch infraštruktúry IT4Innovations. Presnejšie pre klastre Salomon a Anselm. Úloha predstavuje množinu simulácií, kde každá simulácia je spúšťaná pod toolboxom k-Wave. Pre spustenie jednotlivých simulácií je nutné správne vytvoriť konfiguráciu, ktorá sa skladá z množstva zdrojov (počet výpočtových uzlov, resp. jadier) a času rezervácie superpočítača, čo je pre neskúseného zložité odhadnúť. Zvolený problém odhadu je riešený na základe empirických dát, ktoré boli získané viacnásobným spúšťaním rôznych množín simulácií na klastroch. Tieto dáta sú uložené a spracované aproximátormi, ktoré konkrétne vykonávajú odhad týchto parametrov na základe metód interpolácie a regresie. V práci je popísaný a bol implementovaný systém predstavujúci plánovač, ktorý predstavuje rozhranie pre odhad. Experimentovaním bolo zistené že pre tento špecifický problém najpresnejšie odhady vykonáva trojica Akima spline, PCHIP interpolácia a kubický spline. Výsledky tejto práce umožňujú vykonávať istý odhad exekučného času a počtu vlákien pre ľubovolné simulácie automaticky a bez znalosti kódu k-Wave.
Paralelizace ultrazvukových simulací pomocí 2D dekompozice
Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili.  Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám.

Národní úložiště šedé literatury : Nalezeno 24 záznamů.   předchozí5 - 14další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.