keywords:"AVX" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"AVX"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Asistovaná vektorizace a paralelizace kódu pomocí standardu OpenMP 4.0 Slouka, Lukáš ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce) Predmetom bakalárskej práce je optimalizácia kódu pomocou štandardu OpenMP 4.0, ktorý poskytuje prostriedky pre asistovanú paralelizáciu a vektorizáciu. Okrem popisu štandardu OpenMP 4.0 práca obsahuje aj náhľad do architektúr moderných počítačov a to najmä systému rýchlych vyrovnávacích pamätí a modulov SSE/AVX, ktoré hrajú veľmi významnú rolu v oblasti optimalizácie. Práca demonštruje výhody optimalizovaného kódu pomocou štandardu OpenMP 4.0 oproti neoptimalozavanému kódu na sade benchmarkov zameraných na rôzne aspekty optimalizácie. Úplný záznam
	Výpočetní jednotky procesorů poslední generace a jejich využití Šlenker, Samuel ; Pavlíček, Tomáš (oponent) ; Balík, Miroslav (vedoucí práce) Cieľom tejto práce bolo naštudovať a následne spracovať rozdiely medzi staršími inštrukčnými sadami a novšími inštrukčnými sadami, uviesť prínosy jednotlivých rozšírení, porovnať spôsoby výpočtov jednotlivých výpočtových SIMD jednotiek a porovnať ich implementáciu u firiem Intel a AMD. Súčasťou práce sú dva teoretické úvody k laboratórnym úlohám. Úplný záznam
	Paralelizace ultrazvukových simulací pomocí 2D dekompozice Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili. Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám. Úplný záznam
	Akcelerace vektorových a krytografických operací na platformě x86-64 Šlenker, Samuel ; Martinásek, Zdeněk (oponent) ; Balík, Miroslav (vedoucí práce) Cieľom práce bolo naštudovať a následne spracovať porovnanie starších a novších vektorových výpočtových jednotiek moderných mikroprocesorov na platforme x86-64. Práca mala poskytnúť prehľad najrýchlejších výpočtov vektorových operácií s maticami a vektormi spolu s príslušnými zdrojovými kódmi. Ďalej bola jej zameraním oblasť autentizovaného šifrovania, konkrétne blokovej šifry AES pracujúcej v operačnom móde Galois Counter Mode a pojednanie o možnostiach inštrukčných sád pre podporu kryptografie. Úplný záznam
	Paralelizace ultrazvukových simulací pomocí 2D dekompozice Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili. Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám. Úplný záznam
	Akcelerace vektorových a krytografických operací na platformě x86-64 Šlenker, Samuel ; Martinásek, Zdeněk (oponent) ; Balík, Miroslav (vedoucí práce) Cieľom práce bolo naštudovať a následne spracovať porovnanie starších a novších vektorových výpočtových jednotiek moderných mikroprocesorov na platforme x86-64. Práca mala poskytnúť prehľad najrýchlejších výpočtov vektorových operácií s maticami a vektormi spolu s príslušnými zdrojovými kódmi. Ďalej bola jej zameraním oblasť autentizovaného šifrovania, konkrétne blokovej šifry AES pracujúcej v operačnom móde Galois Counter Mode a pojednanie o možnostiach inštrukčných sád pre podporu kryptografie. Úplný záznam
	Asistovaná vektorizace a paralelizace kódu pomocí standardu OpenMP 4.0 Slouka, Lukáš ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce) Predmetom bakalárskej práce je optimalizácia kódu pomocou štandardu OpenMP 4.0, ktorý poskytuje prostriedky pre asistovanú paralelizáciu a vektorizáciu. Okrem popisu štandardu OpenMP 4.0 práca obsahuje aj náhľad do architektúr moderných počítačov a to najmä systému rýchlych vyrovnávacích pamätí a modulov SSE/AVX, ktoré hrajú veľmi významnú rolu v oblasti optimalizácie. Práca demonštruje výhody optimalizovaného kódu pomocou štandardu OpenMP 4.0 oproti neoptimalozavanému kódu na sade benchmarkov zameraných na rôzne aspekty optimalizácie. Úplný záznam
	Výpočetní jednotky procesorů poslední generace a jejich využití Šlenker, Samuel ; Pavlíček, Tomáš (oponent) ; Balík, Miroslav (vedoucí práce) Cieľom tejto práce bolo naštudovať a následne spracovať rozdiely medzi staršími inštrukčnými sadami a novšími inštrukčnými sadami, uviesť prínosy jednotlivých rozšírení, porovnať spôsoby výpočtov jednotlivých výpočtových SIMD jednotiek a porovnať ich implementáciu u firiem Intel a AMD. Súčasťou práce sú dva teoretické úvody k laboratórnym úlohám. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English