Národní úložiště šedé literatury Nalezeno 29 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Taktování moderních procesorů s ohledem na výkon, spotřebu a teplotu
Kelečéni, Jakub ; Vaverka, Filip (oponent) ; Nikl, Vojtěch (vedoucí práce)
Táto práca rieši problematiku závislosti - celkovej doby výpočtu, spotreby energie a teploty - na pracovnej frekvencií serverového procesora. V teoretickej časti je popísaná architektúra použitého procesora, sada benchmarkov a druhy algoritmov. Praktická časť je zameraná na testovanie navrhnutej sady benchmarkov (násobenie matíc, quicksort, výpočet PI, Ackermannova funkcia, LAMMPS, PMBW, Linpack). Sada benchmarkov pozostáva z jednovláknových a paralelných algoritmov. Testovanie prebiehalo pri nastavení troch rôznych frekvencií CPU a pri spustení paralelných benchmarkov na rôznom počte výpočtových vlákien. Pri každom teste boli zaznamenávaná údaje o spotrebe CPU a RAM. V práci je zohľadnený vplyv paralelizácie na spotrebu energie a na čas výpočtu. Získané údaje sú zhrnuté do tabuliek a grafov. Výsledkom práce je zhodnotenie vhodnosti konfigurácie CPU s ohľadom na čas výpočtu a spotrebu energie, pre jednotlivé benchmarky. Zo získaných výsledkov vyplýva, že vhodnosť použitej frekvencie CPU je závislá od charakteru výpočtového problému, a tiež od požiadavky pre dosiahnutie najlepšieho času, alebo spotreby.
Efektivní komunikace v multi-GPU systémech
Špeťko, Matej ; Jaroš, Jiří (oponent) ; Vaverka, Filip (vedoucí práce)
Po predstavení CUDA technológie od Nvidie môžu byť na grafických kartách počítané všeobecné výpočty. Grafické karty sú v podstate paralelné procesory s vysokým výpočtovým výkonom. Moderné superpočítače bývajú vybavené grafickými kartami ako akcelerátormi. Pri niektorých aplikáciách však výkon jednej grafickej karty nestačí a ich výpočet musí byť rozdelený medzi niekoľko grafických kariet. Počas výpočtu je potrebné vymieňať medzi grafickými kartami čiastkové výsledky. Táto komunikácia značne brzdí výpočet a preto je potrebné skúmať metódy efektívnej komunikácie medzi grafickými kartami - metódy ktoré menej zapájajú CPU, znižujú odozvu a zdieľajú systémové zásobníky. V tejto diplomovej práci je skúmaná komunikácia grafických kariet v rámci jedného uzla aj v rámci celého superpočítača. Hlavný dôraz je na technológie GPUDirect od Nvidie a CUDA-Aware MPI. Následne je predstavený k-Wave toolbox, aplikácia pre simuláciu šírenia akustických vĺn. Táto aplikácia je akcelerovaná pomocou CUDA-Aware MPI. Do tejto aplikácie je taktiež pridaná podpora peer-to-peer prenosov pomocou CUDA Inter-process Communication.
Efektivní komunikace v multi-GPU systémech
Špeťko, Matej ; Jaroš, Jiří (oponent) ; Vaverka, Filip (vedoucí práce)
Po predstavení CUDA technológie od Nvidie možu byť na grafických kartách počítané všeobecné výpočty. Grafické karty sú v podstate paralelné procesory s vysokým výpočtovým výkonom. Moderné superpočítače bývajú vybavené grafickými kartami ako akcelerátormi. Pri niektorých aplikáciach však výkon alebo pamäť jednej grafickej karty nestačí. Výpočet musí byť rozdelený medzi niekoľko grafických kariet. Počas výpočtu je potrebné vymieňať medzi grafickými kartami čiastkové výsledky. Táto komunikácia značne brzdí výpočet. Preto je potrebné skúmať metódy efektívnej komunikácie medzi grafickými kartami - metódy ktoré menej zapájajú CPU, znižujú odozvu a zdieľajú systémové zásobníky. V tejto práci je skúmaná komunikácia grafických kariet v rámci jedného uzla aj v rámci celého superpočítača. Hlavný dôraz je na technológie GPUDirect od Nvidie a CUDA-Aware MPI. Následne je predstavený k-Wave toolbox, aplikácia pre simuláciu šírenia akustických vĺn. Táto aplikácia je akcelerovaná pomocou CUDA-Aware MPI.
Large-scale Ultrasound Simulations using Accelerated Clusters
Vaverka, Filip ; Boehm, Christian (oponent) ; Říha, Lubomír (oponent) ; Jaroš, Jiří (vedoucí práce)
Efficient utilization of accelerated HPC clusters is particularly sensitive to communication efficiency of deployed algorithms. In this thesis, we reexamine pseudo-spectral solvers for wave-like problems in medical ultrasonics to allow their deployment on these machines. The domain decomposition is shown to be a preferable approach to improving data locality of these solvers as a range  of suitable alternative discretizations exhibited considerably worse numerical properties. The local Fourier basis domain decomposition is then used to construct a novel solver based on the state of the art model for ultrasound in medicine -- k-Wave. We show that this approach is up to 7.5x faster and achieves almost perfect weak-scaling up to 512 GPU accelerated nodes, while being able to take full advantage of advanced GPU interconnects such as NVLink in NVIDIA DGX-2 multi-GPU nodes. The method offers flexible accuracy--efficiency trade off, which allows to nearly match accuracy of the global k-Space method or maximize performance at sufficient accuracy by subdomain overlap scaling.
Návrh binárních amplitudových hologramů pro optické generování ultrazvuku akcelerovaný pomocí GPU
Knotek, Martin ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce)
V této práci se zabýváme možnostmi urychlení vědeckých výpočtů s použitím grafických výpočetních jednotek. Termínem vědecký výpočet v tomto kontextu rozumíme specifický algoritmus, který počítá povrch binárních hologramů, jež se používají při generování ultrazvuku. Zaměříme se na návrh hologramu, zvláště pak na rychlost, se kterou můžeme vypočítat povrch takového hologramu. Za tímto účelem použijeme dvě populární platformy pro paralelní zpracování dat - CUDA a OpenMP. Výsledný povrch hologramu je důležitý, protože ovlivňuje specifické fyzikální vlastnosti hologramu.
Akcelerace ultrazvukových simulací pomocí multi-GPU systémů
Stodůlka, Martin ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce)
V této práci je kladen důraz na multi - GPU systémy a využití CUDA unifikované paměti.Hlavním cílem je akcelerovat výpočet 3D FFT, který je hlavní součástí simulací knihovny k- Wave .K- Wave je C++/ Matlab knihovna určena pro simulaci šíření ultrazvukových vln v 1D , 2D nebo 3D prostoru.Akcelerace těchto funkcí je potřebná, jelikož se jedná o výpočetně náročně simulace.
Neblokující vstup/výstup pro projekt k-Wave
Kondula, Václav ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce)
Práce se zabývá implementací neblokujícího vstupně výstupního rozhraní pro projekt k-Wave, jež je navržen pro simulaci šíření ultrazvuku. Hlavní zaměření je na simulace velkých domén, jež kvůli vysokým nárokům na výpočetní výkon musí být spuštěny na superpočítačích a produkují až desítky GB dat během jediného simulačního kroku. V rámci této diplomové práce jsem navrhl a implementoval neblokující rozhraní pro ukládání dat využitím dedikovaných vláken, čímž se umožní překrytí výpočtu simulace s diskovými operacemi za účelem zkrácení doby provádění simulace. V projektu k-Wave se díky tomuto přístupu podařilo dosáhnout zrychlení až 33%, což má za následek mimo jiné také snížení finanční zátěže běhu simulace.
Efektivní komunikace v multi-GPU systémech
Špeťko, Matej ; Jaroš, Jiří (oponent) ; Vaverka, Filip (vedoucí práce)
Po predstavení CUDA technológie od Nvidie možu byť na grafických kartách počítané všeobecné výpočty. Grafické karty sú v podstate paralelné procesory s vysokým výpočtovým výkonom. Moderné superpočítače bývajú vybavené grafickými kartami ako akcelerátormi. Pri niektorých aplikáciach však výkon alebo pamäť jednej grafickej karty nestačí. Výpočet musí byť rozdelený medzi niekoľko grafických kariet. Počas výpočtu je potrebné vymieňať medzi grafickými kartami čiastkové výsledky. Táto komunikácia značne brzdí výpočet. Preto je potrebné skúmať metódy efektívnej komunikácie medzi grafickými kartami - metódy ktoré menej zapájajú CPU, znižujú odozvu a zdieľajú systémové zásobníky. V tejto práci je skúmaná komunikácia grafických kariet v rámci jedného uzla aj v rámci celého superpočítača. Hlavný dôraz je na technológie GPUDirect od Nvidie a CUDA-Aware MPI. Následne je predstavený k-Wave toolbox, aplikácia pre simuláciu šírenia akustických vĺn. Táto aplikácia je akcelerovaná pomocou CUDA-Aware MPI.
Aproximace hlubokých neuronových sítí
Stodůlka, Martin ; Mrázek, Vojtěch (oponent) ; Vaverka, Filip (vedoucí práce)
Cílem mé práce je zjistit vliv a dopad aproximovaného počítání na přesnost hluboké neuronové sítě, konkrétně neuronové sítě pro klasifikaci obrazu. Pro implementaci neuronové sítě byla použita varianta frameworku Caffe zvaná Ristretto-caffe, která byla rozšířena o možnost použití aproximovaných operací v konvolučních vrstvách. pro používání aproximovaných komponent. Aproximované počítání bylo použito na násobení v dopředné propagaci při konvoluci. Jako aproximované komponenty byly zvoleny komponenty z knihovny Evoapproxlib.
Acceleration of Axisymetric Ultrasound Simulations
Kukliš, Filip ; Vaverka, Filip (oponent) ; Jaroš, Jiří (vedoucí práce)
The simulation of ultrasound propagation through soft biological tissue has a wide range of practical applications. These include the design of transducers for diagnostic and therapeutic ultrasound, the development of new signal processing and imaging techniques, studying the aberration of ultrasound beams in heterogeneous media, ultrasonic tissue classification, training ultrasonographers to use ultrasound equipment and interpret ultrasound images, model-based medical image registration, and treatment planning and dosimetry for high-intensity focused ultrasound. However, ultrasound simulation presents a computationally difficult problem, as simulation domains are very large compared with the acoustic wavelengths of interest. But if the problem is axisymmetric, the governing equations can also be solved in 2D. This allows running simulations with larger grid size, with less computational resources and in a shorter time. This paper model and implements an acceleration of the Full-wave Nonlinear Ultrasound Simulation in an Axisymmetric Coordinate System implemented in Matlab using Mex Files for FFTW DST and DCT transformations. The axisymmetric simulation was implemented in C++ as an extension to the open source K-WAVE toolbox. The codes were optimized to run using one node of Salomon supercomputer cluster (IT4Innovations, Ostrava, Czechia) with two twelve-core Intel Xeon E5-2680v3 processors. To maximize computational efficiency, several stages of code optimization were performed. First, the FFTs were computed using the real-to-complex FFT from the FFTW library. Compared to the complex-to-complex FFT, this reduced the compute time and memory associated with the FFT by nearly 50%. Also, real-to-real DCTs and DSTs were computed using FFTW library, which ones in Matlab version, had to be invoked from dynamically loaded MEX Files. Second, to save memory bandwidth, all operations were computed in single precision. Third, element-wise operations were parallelized using OpenMP and then optimized using streaming SIMD extensions (SSE). The overall computation of the C++ k-space model is up to 34-times faster and uses less than one-third of the memory than Matlab version. The simulation which would take nearly two days by Matlab implementation can be now computed in one and half hour. This all allows running the simulation on the computational grid with 16384 × 8192 grid points within a reasonable time.

Národní úložiště šedé literatury : Nalezeno 29 záznamů.   předchozí11 - 20další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.