keywords:"MPI" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"MPI"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Paralelizace ultrazvukových simulací pomocí 2D dekompozice Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili. Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám. Úplný záznam
	Techniky paralelního zpracování výpočtů Vodák, René ; Hasmanda, Martin (oponent) ; Lattenberg, Ivo (vedoucí práce) Práce pojednává o technikách paralelního zpracování výpočtů. Je proveden rozbor nejvýznamnějších knihoven pro paralelizaci včetně knihoven pro paralelizaci na GPU v grafických kartách a provedeno porovnáním rychlostí výpočtu těchto knihoven ve Visual Studiu 2010 na základě jednoduché aplikace hledající prvočísla na třech různých hardwarových počítačových sestavách. S pomocí knihovny OpenCL, která dosáhla nejlepšího výsledku, jsou vytvořeny dvě aplikace - program pro zdokonalené vyhledávání prvočísel pomocí Eratosthenova síta a program pro výpočet integrálu funkce lichoběžníkovou metodou. Úplný záznam
	Akcelerace ultrazvukové neurostimulace pomocí multi-GPU systémů Bayer, David ; Kadlubiak, Kristián (oponent) ; Jaroš, Jiří (vedoucí práce) Tato diplomová práce se věnuje rozšíření akcelerované implementace simulace šíření akustických vln v médiu balíku k-Wave o možnost využití více GPU pro výpočet. Nejprve popisuje multi-GPU systémy a nástroje, pomocí kterých je s nimi možné pracovat. Pokračuje popisem balíku k-Wave a analýzou existujících akcelerovaných implementací. Dále testuje vybrané technologie na simulaci šíření tepla v médiu a na základě zjištěných výsledků vybírá nástroje pro návrh výsledné implementace. Nakonec shrnuje dosažené výsledky. Úplný záznam
	Optimization of magnetic nanoparticles for hyperthermia in viscous environments Sojková, Tereza ; Fabián,, Martin (oponent) ; Hovorka,, Ondrej (oponent) ; Gröger, Roman (vedoucí práce) Single-domain superparamagnetic iron oxide nanoparticles play a significant role in magnetic hyperthermia, a promising therapeutic method that can potentially treat any kind of tumor. It is generally known that cancer cells are more sensitive to elevated temperatures than healthy cells. This observation makes the tumors particularly sensitive to localized overheating in the process of magnetic hyperthermia, where superparamagnetic nanoparticles with diameters of 10-50 nm serve as the carriers of heat under applied AC magnetic field with the frequency of hundreds of kHz. The key parameter that determines the efficiency of nanoparticles is the specific absorption rate, which is a complex function of the shape, size, and surface coating of these particles. Moreover, the duration of exposure to AC fields is limited by the tendency of these nanoparticles to aggregation when used in vivo. The aim of this thesis is to develop a synthesis protocol for the preparation of monodisperse iron oxide NPs, which exhibit high values of SAR and good colloidal stability. The nanoparticles were prepared by two types of chemical synthesis: coprecipitation and thermal decomposition. The impact of reaction conditions on the size, shape, and magnetic properties of these nanoparticles was investigated. Thermal decomposition was found to be a better option for the preparation of monodisperse iron oxide nanoparticles, where especially the core-shell nanocubes were examined in more detail. Dynamic light scattering in conjunction with transmission and scanning electron microscopies were used to investigate their size, degree of polydispersity, colloidal stability, and morphology. The phase composition of nanoparticles was characterized by powder X-ray diffraction, Mössbauer spectroscopy, and electron energy loss spectroscopy. X-ray diffraction was used to study phase transformations in core-shell nanoparticles. Their magnetic properties were investigated using vibrating sample magnetometry and using electron holography. Moreover, the best candidates were evaluated for use in magnetic hyperthermia, magnetic particle imaging (MPI), and magnetic resonance imaging to inspect nanoparticles' broader application potential. This work expands the knowledge on size-dependent core-shell iron oxide nanoparticles for high-performance bio-applications. The results for 20 nm nanocubes after full phase transformation show very good heating capabilities for use in magnetic hyperthermia and three times higher MPI signal compared to the commercially used tracer. Úplný záznam
	Zhroucený stát Somálsko - Analýza vývoje Somálska po pádu režimu Siyaada Barre Štěpánek, Karel Štěpánek, Karel: Analýza vývoje Somálska po pádu režimu Siyaada Barre. Brno 2014 Tato bakalářská práce se zabývá analýzou vývoje jedné z nejchudších zemí na světě. Práce zkoumá politické selhání jedince, generála Barre, jakožto hlavní příčinu rozpadu státu a dále se pak především věnuje srovnání centrálního Somálska s Puntlandem a Somalilandem. Cílem práce je analýza 3 hlavních regionů v Somálsku, pomocí indexu blahobytu, chudoby atd. Práce dále definuje pojem rozpadlý stát, teoretické přístupy k tomuto pojmu, popisuje historické kořeny stávajícího konfliktu a taktéž se snaží navrhnout možná řešení stávající situace. Úplný záznam
	Neblokující vstup/výstup pro projekt k-Wave Kondula, Václav ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce) Práce se zabývá implementací neblokujícího vstupně výstupního rozhraní pro projekt k-Wave, jež je navržen pro simulaci šíření ultrazvuku. Hlavní zaměření je na simulace velkých domén, jež kvůli vysokým nárokům na výpočetní výkon musí být spuštěny na superpočítačích a produkují až desítky GB dat během jediného simulačního kroku. V rámci této diplomové práce jsem navrhl a implementoval neblokující rozhraní pro ukládání dat využitím dedikovaných vláken, čímž se umožní překrytí výpočtu simulace s diskovými operacemi za účelem zkrácení doby provádění simulace. V projektu k-Wave se díky tomuto přístupu podařilo dosáhnout zrychlení až 33%, což má za následek mimo jiné také snížení finanční zátěže běhu simulace. Úplný záznam
	Paralelizace ultrazvukových simulací pomocí 2D dekompozice Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili. Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám. Úplný záznam
	Paralelní genetický algoritmus Trupl, Jan ; Kobliha, Miloš (oponent) ; Jaroš, Jiří (vedoucí práce) Práce popisuje návrh a implementaci různých evolučních algoritmů, vylepšených tak, aby mohly využívat výhod paralelismu na víceprocesorových systémech, a zároveň umožňovaly, aby výpočet probíhal na více počítačích v počítačové síti. Algoritmy jsou určeny k hledání globálního extrému funkce několika proměnných. Jsou nastíněny různé zajímavé optimalizační problémy a možnosti jejich řešení právě pomocí evolučních algoritmů. V práci je rovněž rozebíráno použití knihovny rozhraní MPI (message passing interface) a OpenMP, v rozsahu nutném pro pochopení problematiky implementace paralelních evolučních algoritmů. Úplný záznam
	Efektivní komunikace v multi-GPU systémech Špeťko, Matej ; Jaroš, Jiří (oponent) ; Vaverka, Filip (vedoucí práce) Po predstavení CUDA technológie od Nvidie možu byť na grafických kartách počítané všeobecné výpočty. Grafické karty sú v podstate paralelné procesory s vysokým výpočtovým výkonom. Moderné superpočítače bývajú vybavené grafickými kartami ako akcelerátormi. Pri niektorých aplikáciach však výkon alebo pamäť jednej grafickej karty nestačí. Výpočet musí byť rozdelený medzi niekoľko grafických kariet. Počas výpočtu je potrebné vymieňať medzi grafickými kartami čiastkové výsledky. Táto komunikácia značne brzdí výpočet. Preto je potrebné skúmať metódy efektívnej komunikácie medzi grafickými kartami - metódy ktoré menej zapájajú CPU, znižujú odozvu a zdieľajú systémové zásobníky. V tejto práci je skúmaná komunikácia grafických kariet v rámci jedného uzla aj v rámci celého superpočítača. Hlavný dôraz je na technológie GPUDirect od Nvidie a CUDA-Aware MPI. Následne je predstavený k-Wave toolbox, aplikácia pre simuláciu šírenia akustických vĺn. Táto aplikácia je akcelerovaná pomocou CUDA-Aware MPI. Úplný záznam
	Vliv síťové infrastruktury na distribuované lámání hesel Eisner, Michal ; Zobal, Lukáš (oponent) ; Hranický, Radek (vedoucí práce) Lámanie hesiel je proces, ktorý sa používa k nájdeniu správneho kľúča, pomocou ktorého získame prístup k zabezpečenému obsahu. Tento proces zvyčajne funguje na princípe opakovaného skúšania možností a ich overovania pomocou výpočtu kryptografických algoritmov, ktorých náročnosť ovplyvňuje čas strávený výpočtami. Navzdory rôznym metódam akcelerácie je často nutné daný problém distribuovať medzi viacero uzlov, ktoré sú prepojené v~lokálnej sieti alebo internetom. Cieľom práce je práve analyzovať vplyv sieťovej infraštruktúry na rýchlosť, škálovateľnosť a vyťaženie siete pri rôznych útokoch na kryptografické heše. Pre tieto účely je vytvorené automatizované experimentálne prostredie pozostávajúce z rôznych topológii, pomocných skriptov a sady testovacích úloh. Na základe analýzy výsledkov získaných pri použití nástrojov Fitcrack a Hashtopolis bolo možné tento vplyv odpozorovať. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English