Národní úložiště šedé literatury Nalezeno 64 záznamů.  začátekpředchozí21 - 30dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Aplikace využívající paralelní zpracování pro kryptografické výpočty
Šánek, Jaromír ; Martinásek, Zdeněk (oponent) ; Hajný, Jan (vedoucí práce)
Tato práce se zabývá paralelním programováním a modulárním mocněním. Vprvní části je srovnána rychlost funkcí modulárního mocnění zrůzných knihoven C/C++ na CPU. V druhé části se práce zabývá technologií CUDA, je zde změřena rychlost funkce modulárního mocnění zupravené knihovny LibTomMath pro technologii CUDA na GPU a porovnána srychlostí stejné funkce běžící na CPU. Poslední část je věnována implementaci aplikací „Klient –Server“ pro výpočet revokační funkce protokolu HM12.
Paralelní genetický algoritmus
Trupl, Jan ; Kobliha, Miloš (oponent) ; Jaroš, Jiří (vedoucí práce)
Práce popisuje návrh a implementaci různých evolučních algoritmů, vylepšených tak, aby mohly využívat výhod paralelismu na víceprocesorových systémech, a zároveň umožňovaly, aby výpočet probíhal na více počítačích v počítačové síti. Algoritmy jsou určeny k hledání globálního extrému funkce několika proměnných. Jsou nastíněny různé zajímavé optimalizační problémy a možnosti jejich řešení právě pomocí evolučních algoritmů. V práci je rovněž rozebíráno použití knihovny rozhraní MPI (message passing interface) a OpenMP, v rozsahu nutném pro pochopení problematiky implementace paralelních evolučních algoritmů.
Knihovna operací nad konečnými automaty
Bartůněk, Petr ; Puš, Viktor (oponent) ; Kaštil, Jan (vedoucí práce)
Tato práce se zabývá dvěma základními operacemi nad konečnými automaty. Determinizací nedeterministických konečných automatů a minimalizací deterministických konečných automatů. Pro obě tyto operace jsem navrhoval sekvenční algoritmy, které jsou paralelizovatelné. Zabývám se hledáním zrychlení především pomocí SSE instrukcí nebo pomocí knihovny openMP. Trendem dnešní doby je především zvyšování počtu procesorů, proto budu navrhovat paralelní algoritmy pro více procesorů. Při hledání optimálního řešení budu zkoumat další možnosti, jak dosáhnout zrychlení, např. efektivním uložením datových struktur v paměti.
Paralelizace faktorizace celých čísel z pohledu lámání RSA
Breitenbacher, Dominik ; Henzl, Martin (oponent) ; Homoliak, Ivan (vedoucí práce)
Práce se zabývá faktorizací celých čísel. Faktorizace je nejznámější a nejpoužívanější metodou kryptoanalýzy RSA. V rámci této práce byla vybrána a implementována faktorizační metoda zvaná SIQS. I když se jedná o nejrychlejší metodu (do 100 dekadických číslic), není možné ji efektivně počítat v polynomiálním čase, a tak  se hledají různé možnosti, jak tuto metodu co nejvíce urychlit. Jako první se nabízí paralelizace. K tomuto účelu bylo využito OpenMP. Další možností je optimalizace kódu. Cílem této práce je také ukázat, jak jednoduše lze v mnoha případech využít paralelizace kódu a dále, jak díky podrobné analýze kódu lze dosáhnout poměrně velkého urychlení. Použitá metodika iteračního provádění optimalizací se ukázala jako velmi účinná. Touto metodikou byla implementace SIQS vylepšena tak, že faktorizace byla urychlena až 100-krát, v některých částech kódu dokonce ještě více.
Genetic Algorithm Acceleration Using OpenCL
Hrušovský, Marek ; Šimek, Václav (oponent) ; Jaroš, Jiří (vedoucí práce)
This thesis tries to accelerate genetic algorithm (GA) using OpenCL standard. Acceleration is important for the industry that solves complex problems suitable for GA. The first part of the work contains theoretical background that is needed to understand the topic of parallelization GA and the OpenCL standard. The N-queens problem was chosen to demonstrate the capabilities of accelerating permutation genetic algorithm using the OpenCL standard. The designed model uses for acceleration two GPU cards. The last part of the work deals with benchmarking the parts that are important for GA. One random generator on the GPU is approximately 80 times faster than parallel version on the CPU. One evaluation method can be up to 8000 times faster on the GPU than on the CPU. The crossover functions did not obtain any significant speed-up. However, the parts are capable to obtain speed-ups but due to selection and crossover genetic algorithm operator the whole run of parallel GA on the GPU is maximally twice as fast as on the CPU.
Simulace šíření tepla s časově proměnným zdrojem s využitím GPU
Hála, Pavel ; Záň, Drahoslav (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato bakalářská práce se zabývá simulací šíření tepla v živých tkáních, které je dodáváno časově proměnným externím tepelným zdrojem. Simulace byla implementována pomocí metody konečných diferencí čtvrtého řádu v prostoru a prvního v čase. V rámci práce byla nejprve implementována vícevláknová verze využívající procesoru CPU. Následně bylo implementováno několik verzí pro grafickou kartu GPU s důrazem na maximální adaptaci algoritmu na danou architekturu a co nejlepší využít výpočetního potenciálu grafické karty. Experimentálním měřením se ukázalo, že nejrychlejší je naivní algoritmus využívající pouze globální paměť grafické karty. Dále byla zkoumána efektivita Gauss-Seidelovy obarvovací metody, jejíž cílem je redukce paměťové náročnosti. Na CPU se tato metoda ukázala použitelná, neboť její nejrychlejší verze byla pouze o 13% pomalejší, ale při použití této metody je možné snížit paměťovou náročnost až na polovinu. Implementace této metody na GPU byla 2x pomalejší a její přínos proto není tak velký. Na CPU bylo dosaženo maximálního výkonu 32GFLOPS zatímco na GPU 135GFLOPS. To odpovídá 10% (CPU) a 9% (GPU) maximálního teoretického výkonu obou architektur.
Paralelizace ultrazvukových simulací s využitím lokální Fourierovy dekompozice
Dohnal, Matěj ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce přináší návrh nové metody pro distribuovaný výpočet 3D Fourierovy transformace s využitím lokální 3D dekompozice domény, popis její implementace a srovnání s dosud běžně používanou metodou globální 1D dekompozice domény. Nová metoda byla navržena, implementována a testována především pro budoucí použití v simulačním programu k-Wave, ale nic nebrání jejímu použití v jiných aplikacích. Implementace prokázala svoji efektivitu na superpočítači Anselm při testování na až 2048 jádrech, kde je až 3krát rychlejší než globální 1D dekompozice za cenu nepřesnosti výpočtu v řádu 10-5, neboť se podařilo významně snížit režii výpočtu v podobě komunikace mezi procesy. Na konci práce je diskutováno, jak lze s metodou výpočtu Fourierovy transformace využívající lokální dekompozici domén dosáhnout co nejlepších výsledků z hlediska přesnosti i rychlosti výpočtu, zároveň jsou zmíněny i její limity.
Paralelizace ultrazvukových simulací pomocí akcelerátoru Intel Xeon Phi
Vrbenský, Andrej ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce)
Simulácia šírenia ultrazvukových akustických vĺn má v dnešnej dobe široké praktické použitie. Jedným z nich je simulácia v reálnom tkanivovom prostredí, ktorá má dobré uplatnenie v medicíne. Jednou z aplikácií, ktoré sú na túto simuláciu určené, je k-Wave toolbox. Výpočtová náročnosť takýchto simulácii je veľmi veľká a preto sa vyvíjajú nové metódy pre jej zrýchlenie. V tejto diplomovej práci sme navrhli riešenie pre urýchlenie simulácie, založené na paralelizácii výpočtu na akceleračnej karte Intel Xeon Phi. Akcelerátor obsahuje vysoký počet jadier a extra-širokú vektorovú jednotku, a je preto ideálny na paralelizáciu a vektorizáciu. Implementácia využíva OpenMP verzie 4.0, ktorá prináša niektoré nové možnosti ako napríklad explicitnú vektorizáciu. Dosiahnuté výsledky boli namerané počas rozsiahlych experimentov.
Paralelizace ultrazvukových simulací pomocí 2D dekompozice
Nikl, Vojtěch ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce)
Tato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili.  Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám.
Návrh binárních amplitudových hologramů pro optické generování ultrazvuku akcelerovaný pomocí GPU
Knotek, Martin ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce)
V této práci se zabýváme možnostmi urychlení vědeckých výpočtů s použitím grafických výpočetních jednotek. Termínem vědecký výpočet v tomto kontextu rozumíme specifický algoritmus, který počítá povrch binárních hologramů, jež se používají při generování ultrazvuku. Zaměříme se na návrh hologramu, zvláště pak na rychlost, se kterou můžeme vypočítat povrch takového hologramu. Za tímto účelem použijeme dvě populární platformy pro paralelní zpracování dat - CUDA a OpenMP. Výsledný povrch hologramu je důležitý, protože ovlivňuje specifické fyzikální vlastnosti hologramu.

Národní úložiště šedé literatury : Nalezeno 64 záznamů.   začátekpředchozí21 - 30dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.