keywords:"superpočítač" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"superpočítač"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Paralelizace ultrazvukových simulací pomocí 2D dekompozice Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili. Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám. Úplný záznam
	Odhad doby běhu algoritmu pomocí strojového učení Buchta, Martin ; Chlebík, Jakub (oponent) ; Jaroš, Jiří (vedoucí práce) Cílem této práce je vytvořit model pro odhad doby běhu ultrazvukové simulace k-Wave na základě dané velikosti domény. Program využívá MPI a může být spuštěn na více uzlech superpočítače. Predikční modely byly vytvořeny s využitím symbolické regrese a následně porovnány s modely založenými na neuronových sítích. Tyto modely byly natrénovány na zaznamenaných datech. Výsledky ukazují, že modely překonávají stávající řešení. Model se symbolickou regresí dosáhl průměrné relativní odchylky 5,64% u vhodných úloh. Model neuronové sítě dosáhl průměrné relativní odchylky 8,25% na neznámých doménách včetně těch, které nejsou optimalizované pro simulaci k-Wave. Tato práce přináší nový, přesnější model pro předpovídání doby běhu a porovnává chybovost neuronových sítí a symbolické regrese pro tento konkrétní typ regresní úlohy. Celkově tyto modely mají potenciál praktického využití při spouštění a plánování simulací k-Wave. Úplný záznam
	Optimalizace spouštěcích konfigurací k-Wave úloh Sasák, Tomáš ; Jaroš, Marta (oponent) ; Jaroš, Jiří (vedoucí práce) Táto práca sa zaoberá plánovaním, resp. správnym odhadom spúšťacích konfigurácií úloh k-Wave na superpočítačoch infraštruktúry IT4Innovations. Presnejšie pre klastre Salomon a Anselm. Úloha predstavuje množinu simulácií, kde každá simulácia je spúšťaná pod toolboxom k-Wave. Pre spustenie jednotlivých simulácií je nutné správne vytvoriť konfiguráciu, ktorá sa skladá z množstva zdrojov (počet výpočtových uzlov, resp. jadier) a času rezervácie superpočítača, čo je pre neskúseného zložité odhadnúť. Zvolený problém odhadu je riešený na základe empirických dát, ktoré boli získané viacnásobným spúšťaním rôznych množín simulácií na klastroch. Tieto dáta sú uložené a spracované aproximátormi, ktoré konkrétne vykonávajú odhad týchto parametrov na základe metód interpolácie a regresie. V práci je popísaný a bol implementovaný systém predstavujúci plánovač, ktorý predstavuje rozhranie pre odhad. Experimentovaním bolo zistené že pre tento špecifický problém najpresnejšie odhady vykonáva trojica Akima spline, PCHIP interpolácia a kubický spline. Výsledky tejto práce umožňujú vykonávať istý odhad exekučného času a počtu vlákien pre ľubovolné simulácie automaticky a bez znalosti kódu k-Wave. Úplný záznam
	Paralelizace ultrazvukových simulací pomocí 2D dekompozice Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili. Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám. Úplný záznam
	Analysis of Operational Data and Detection od Anomalies during Supercomputer Job Execution Stehlík, Petr ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce) Using the full potential of an HPC system can be difficult when such systems reach the exascale size. This problem is increased by the lack of monitoring tools tailored specifically for users of these systems. This thesis discusses the analysis and visualization of operational data gathered by Examon framework of a high-performance computing system. By applying various data mining techniques on the data, deep knowledge of data can be acquired. To fully utilize the acquired knowledge a tool with a soft-computing approach called Examon Web was made. This tool is able to detect anomalies and unwanted behaviour of submitted jobs on a monitored HPC system and inform the users about such behaviour via a simple to use web-based interface. It also makes available the operational data of the system in a visual, easy to use, manner using different views on the available data. Examon Web is an extension layer above the Examon framework which provides various fine-grain operational data of an HPC system. The resulting soft-computing tool is capable of classifying a job with 84 % success rate and currently, no similar tools are being developed. The Examon Web is developed using Angular for front-end and Python, accompanied by various libraries, for the back-end with the usage of IoT technologies for live data retrieval. Úplný záznam
	Implementace 2D ultrazvukových simulací Šimek, Dominik ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce) Práca sa zaoberá návrhom a implementáciou 2D simulácie ultrazvukových vĺn. Simulácia ultrazvuku nachádza svoje uplatnenie v medicíne, biofyzike či rekonštrukcii obrazu. Ako príklad môžme uviesť použitie fokusovaného ultrazvuku na diagnostiku a liečbu rakoviny. Program je súčasťou simulačného balíka k-Wave určeného pre superpočítačové systémy, konkrétne stroje s architektúrou zdieľaného adresového priestoru. Program je implementovaný v jazyku C++ s využitím akcelerácie pomocou OpenMP. Pomocou implementovaného riešenia je možné riešiť simulácie veľkých rozmerov v 2D priestore. Práca sa ďalej zaoberá zjednotením kódu 2D a 3D simulácie pomocou moderných prostriedkov C++. Reálnym príkladom využitia je simulácia ultrazvuku pri transkraniálnej neuromodulácii a neurostimulácii, ktorá prebieha v doménach o veľkosti 16384x16384 (a viac) bodov mriežky. Simulácia takýchto rozmerov môže pri použití pôvodnej MATLAB 2D k-Wave trvať niekoľko dní. Implementované riešenie dosahuje voči MATLAB 2D k-Wave 7 až 8 násobné zrýchlenie na superpočítačoch Anselm a Salomon. Úplný záznam
	Systém pro automatizovanou obsluhu superpočítače Strečanský, Peter ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce) Cieľom tejto práce je rozšíriť existujúci program FabSim o modul, ktorý umožní automatizovanú obsluhu superpočítačov, predovšetkým prácu s plánovačom OpenPBS. Modul bol vytvorený v programovacom jazyku Python za použitia balíčka Fabric. Skripty, ktoré sa pomocou OpenPBS spúšťajú, sú uložené vo forme predlôh a pred samotným prenosom na cluster a spustením sa dynamicky upravia na základe preferencií užívateľa. Vytvorené riešenie tak poskytuje komplexnú sadu metód, ktoré umožňujú plnohodnotnú obsluhu superpočítačov, integráciu s Gitom a spravovanie dát nachádzajúcich sa na superpočítačoch. Hlavným prínosom tejto práce je jednoduchšie riadenie a úspora času spojená s obsluhou superpočítačov. Úplný záznam
	Výstavba a programování clusteru o nízkém příkonu Hradecký, Michal ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce) Projekt se zabývá výstavbou a programováním nízko-příkonového clusteru složeného z kitů Hardkernel Odroid XU4 založených na čipech ARM Cortex A15 a Cortex A7. Cílem bylo navrhnout jednoduchý cluster složený z několika kitů a vytvořit pro něj sadu testů, na nichž by šlo otestovat základní výkonnostní parametry a spotřebu. K testování byly použity zejména benchmarky HPL, Stream a různé testy pro rozhraní MPI. Celkový výkon clusteru složeného ze 4 kitů měřený v benchmarku HPL byl 23~GFLOP/s ve dvojité přesnosti, přičemž cluster vykazoval efektivitu výpočtu cca 0,58~GFLOP/W. Práce dále popisuje instalaci plánovače PBS Torque a frameworku pro kompilaci a správu HPC softwaru EasyBuild na 32bitové platformě ARM. Po srovnání se superpočítačem Anselm vyšlo, že Odroid cluster poskytuje přibližně stejnou efektivitu výpočtu jako velký superpočítač, ovšem za vyšší pořizovací cenu za srovnatelný výkon. Úplný záznam
	Optimalizace distribuovaného I/O subsystému projektu k-Wave Vysocký, Ondřej ; Klepárník, Petr (oponent) ; Jaroš, Jiří (vedoucí práce) Práce se zabývá řešením efektivního paralelního zápisu a čtení dat pro nástroj k-Wave, provádějící simulací šíření ultrazvuku. Tento nástroj je superpočítačovou aplikací, proto je spouštěn na souborovém systému Lustre a vyžaduje paralelní zpracování pomocí MPI a zápis ve formátu vhodném pro velké množství dat (HDF5). V rámci této práce byly navrženy metody efektivního způsobu zápisu dat dle potřeb k-Wave, pomocí kumulace dat a přerozdělování. Všechny metody zrychlily nativní zápis a vedly až k rychlosti zápisu 13,6GB/s. Popsané metody jsou použitelné pro všechny aplikace s distribuovanými daty a častým zápisem. Úplný záznam
	Škálovatelné strojové učení s využitím nástrojů Hadoop a Mahout Kryške, Lukáš ; Atassi, Hicham (oponent) ; Burget, Radim (vedoucí práce) Tato bakalářská práce srovnává několik nástrojů pro realizaci škálovatelné platformy strojového učení a popisuje jejich výhody a nevýhody. Dále práce prakticky realizuje funkčnost škálovatelné platformy založené na nástroji Apache Hadoop a zabývá se měřením výkonu samoučícího algoritmu K-Means pomocí knihoven strojového učení Apache Mahout na celkem pěti výpočetních uzlech. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English