Národní úložiště šedé literatury Nalezeno 18 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Podpora ladicích informací v sestavujícím programu
Nikl, Vojtěch ; Křoustek, Jakub (oponent) ; Masařík, Karel (vedoucí práce)
Tato práce popisuje převod objektového formátu CCOFF do formátu ELF a zpět. Nejdříve je popsán obecný formát objektového souboru a využité ladicí informace DWARF, poté konkrétněji formát CCOFF a ELF. Veškerá funkcionalita spojená s manipulací s formátem CCOFF je zapouzdřena v kolekci tříd ObjectFile. V práci je popsán způsob vytvoření ELF objektového souboru a jeho naplnění korektními daty a následně zpětná konverze zpět do formátu CCOFF.
Automatizace analýzy výkonu a spotřeby zvoleného systému
Rudolf, Tomáš ; Jaroš, Jiří (oponent) ; Nikl, Vojtěch (vedoucí práce)
Tato práce se zabývá zvýšením efektivity superpočítačů. Vyšší efektivity lze dosáhnout pomocí snížení frekvence procesoru, pokud to daný algoritmus výrazně nezpomalí. Tato práce představuje sadu skriptů určených ke sledování spotřeby procesoru společně se skripty pro vizualizaci těchto naměřených hodnot. Dále také umožňuje jednoduché ovládání frekvence procesoru. Vytvořené řešení poskytuje uživateli možnost změřit efektivitu a optimalizovat výpočetní výkon počítače specificky pro jeho algoritmus. Díky této práci bude uživatel informován o tom, zda je výhodné provozovat jeho algoritmus na té či oné frekvenci procesoru.
Asistovaná vektorizace a paralelizace kódu pomocí standardu OpenMP 4.0
Slouka, Lukáš ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Predmetom bakalárskej práce je optimalizácia kódu pomocou štandardu OpenMP 4.0, ktorý poskytuje prostriedky pre asistovanú paralelizáciu a vektorizáciu. Okrem popisu štandardu OpenMP 4.0 práca obsahuje aj náhľad do architektúr moderných počítačov a to najmä systému rýchlych vyrovnávacích pamätí a modulov SSE/AVX, ktoré hrajú veľmi významnú rolu v oblasti optimalizácie. Práca demonštruje výhody optimalizovaného kódu pomocou štandardu OpenMP 4.0 oproti neoptimalozavanému kódu na sade benchmarkov zameraných na rôzne aspekty optimalizácie.
Dynamické vyvažování zátěže v paralelních aplikacích
Dvořáček, Vojtěch ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce se zabývá implementací dynamického vyvažování zátěže do paralelního modelu šíření tepla v chladiči procesoru. První část představuje obecně problematiku dynamického vyvažování a současné metody jejího řešení. Zároveň popisuje použitý model a nástroje pro implementaci jako je knihovna MPI pro komunikace nebo HDF5 pro ukládání dat. Dále byl v rámci práce navržen a implementován paralelní simulační model šíření tepla s dynamickou 2D dekompozicí čtvercové výpočetní domény. S touto doménou pracuje geometrický vyvažovací algoritmus, navržený v rámci práce. Implementace dále využívá knihovnu Zoltan pro přenos dat. Simulační model je implementován v C/C++ s využitím MPI komunikací. Na závěr je provedena řada experimentů, které demonstrují dosažený efekt dynamického vyvažování spolu s motivací pro další výzkum v této oblasti.
Taktování moderních procesorů s ohledem na výkon, spotřebu a teplotu
Kelečéni, Jakub ; Vaverka, Filip (oponent) ; Nikl, Vojtěch (vedoucí práce)
Táto práca rieši problematiku závislosti - celkovej doby výpočtu, spotreby energie a teploty - na pracovnej frekvencií serverového procesora. V teoretickej časti je popísaná architektúra použitého procesora, sada benchmarkov a druhy algoritmov. Praktická časť je zameraná na testovanie navrhnutej sady benchmarkov (násobenie matíc, quicksort, výpočet PI, Ackermannova funkcia, LAMMPS, PMBW, Linpack). Sada benchmarkov pozostáva z jednovláknových a paralelných algoritmov. Testovanie prebiehalo pri nastavení troch rôznych frekvencií CPU a pri spustení paralelných benchmarkov na rôznom počte výpočtových vlákien. Pri každom teste boli zaznamenávaná údaje o spotrebe CPU a RAM. V práci je zohľadnený vplyv paralelizácie na spotrebu energie a na čas výpočtu. Získané údaje sú zhrnuté do tabuliek a grafov. Výsledkom práce je zhodnotenie vhodnosti konfigurácie CPU s ohľadom na čas výpočtu a spotrebu energie, pre jednotlivé benchmarky. Zo získaných výsledkov vyplýva, že vhodnosť použitej frekvencie CPU je závislá od charakteru výpočtového problému, a tiež od požiadavky pre dosiahnutie najlepšieho času, alebo spotreby.
Výstavba a programování clusteru o nízkém příkonu
Hradecký, Michal ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Projekt se zabývá výstavbou a programováním nízko-příkonového clusteru složeného z kitů Hardkernel Odroid XU4 založených na čipech ARM Cortex A15 a Cortex A7. Cílem bylo navrhnout jednoduchý cluster složený z několika kitů a vytvořit pro něj sadu testů, na nichž by šlo otestovat základní výkonnostní parametry a spotřebu. K testování byly použity zejména benchmarky HPL, Stream a různé testy pro rozhraní MPI. Celkový výkon clusteru složeného ze 4 kitů měřený v benchmarku HPL byl 23~GFLOP/s ve dvojité přesnosti, přičemž cluster vykazoval efektivitu výpočtu cca 0,58~GFLOP/W. Práce dále popisuje instalaci plánovače PBS Torque a frameworku pro kompilaci a správu HPC softwaru EasyBuild na 32bitové platformě ARM. Po srovnání se superpočítačem Anselm vyšlo, že Odroid cluster poskytuje přibližně stejnou efektivitu výpočtu jako velký superpočítač, ovšem za vyšší pořizovací cenu za srovnatelný výkon.
Moderní programovací jazyk Julia
Fojtík, Pavel ; Grochol, David (oponent) ; Nikl, Vojtěch (vedoucí práce)
Tato práce popisuje dynamický programovací jazyk Julia. Nejprve uživatele seznámí s jeho syntaxí a implementací. Dále popisuje základní pravidla pro efektivní psaní kódu a optimalizaci. Tento dokument také uvádí některé příklady použití ve vědeckých pracích. Nakonec je v experimentální části provedeno porovnání Julie s jazykem Python a C, kteří byli vybráni jako zástupci nejpoužívanějšího statického a dynamického jazyka.
Analysis of Operational Data and Detection od Anomalies during Supercomputer Job Execution
Stehlík, Petr ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Using the full potential of an HPC system can be difficult when such systems reach the exascale size. This problem is increased by the lack of monitoring tools tailored specifically for users of these systems. This thesis discusses the analysis and visualization of operational data gathered by Examon framework of a high-performance computing system. By applying various data mining techniques on the data, deep knowledge of data can be acquired. To fully utilize the acquired knowledge a tool with a soft-computing approach called Examon Web was made. This tool is able to detect anomalies and unwanted behaviour of submitted jobs on a monitored HPC system and inform the users about such behaviour via a simple to use web-based interface. It also makes available the operational data of the system in a visual, easy to use, manner using different views on the available data. Examon Web is an extension layer above the Examon framework which provides various fine-grain operational data of an HPC system. The resulting soft-computing tool is capable of classifying a job with 84 % success rate and currently, no similar tools are being developed. The Examon Web is developed using Angular for front-end and Python, accompanied by various libraries, for the back-end with the usage of IoT technologies for live data retrieval.
Paralelizace ultrazvukových simulací pomocí 2D dekompozice
Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili.  Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám.
Paralelizace ultrazvukových simulací pomocí 2D dekompozice
Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili.  Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám.

Národní úložiště šedé literatury : Nalezeno 18 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.