|
Vysoce náročné aplikace na svazku karet Intel Xeon Phi
Kačurik, Tomáš ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce)
Táto práca sa zaoberá implementáciou a optimalizáciou vysoko náročných aplikácií na zväzku Intel Xeon Phi koprocesorov. Na dvoch prístupoch k riešeniu N-Body problému boli demonštrované možnosti behu programov na zväzku procesorov, koprocesorov a s využitím oboch typov zariadení. Zvolené boli dva verzie N-Body problému - naivná a Barnes-hut. Oba problémy boli implementované a optimalizované. Práca tiež zachytáva proces optimalizácie a zmeny vo výkone po aplikovaní jednotlivých optimalizácií. Pre lepšie porovnanie dosiahnutých výkonov sme porovnávali programy na základe dosiahnutého zrýchlenia voči behu programu na jednom výpočtovom uzle pri využití len procesorov. V prípade naivnej verzie bolo dosiahnuté 15 násobné zrýchlenie pri využití procesorov a koprocesorov na 8 výpočtových uzloch. Výkon dosiahnutý v tomto prípade predstavoval 9 TFLOP/s. Na základe dosiahnutých výsledkov sme v závere zhodnotili výhody a nevýhody pri behu programov v distribuovanom prostredí na procesoroch, koprocesoroch alebo s využitím oboch typov zariadení.
|
| |
|
Asistovaná vektorizace a paralelizace kódu pomocí standardu OpenMP 4.0
Slouka, Lukáš ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Predmetom bakalárskej práce je optimalizácia kódu pomocou štandardu OpenMP 4.0, ktorý poskytuje prostriedky pre asistovanú paralelizáciu a vektorizáciu. Okrem popisu štandardu OpenMP 4.0 práca obsahuje aj náhľad do architektúr moderných počítačov a to najmä systému rýchlych vyrovnávacích pamätí a modulov SSE/AVX, ktoré hrajú veľmi významnú rolu v oblasti optimalizácie. Práca demonštruje výhody optimalizovaného kódu pomocou štandardu OpenMP 4.0 oproti neoptimalozavanému kódu na sade benchmarkov zameraných na rôzne aspekty optimalizácie.
|
|
Efektivní implementace vysoce náročných algoritmů na vícejádrových procesorech
Tomečko, Lukáš ; Bidlo, Michal (oponent) ; Jaroš, Jiří (vedoucí práce)
Cieľom tejto práce je paralelizovať a vektorizovať simuláciu toku kvapalín. Dosiahne sa to pomocou knižnice OpenMP a prekladaču od Intelu. Implementované boli rôzne prístupy k problému, ako napr. cache blocking, zoraďovanie dát počas behu a dočasné reorganizovanie dát v pamäti. Skombinovaním najrýchlejších riešení sa podarilo simuláciu celkovo zrýchliť 11,4krát na 16 jadrách, pričom testy prebiehali na ostravskom superpočítači Anselm. Výsledky ukazujú, že výsledná aplikácia dobre škáluje s pribúdajúcim počtom jadier. Ďalej, vektorizovanie daného problému bolo možné len čiastočne z dôvodu nevhodného spôsobu práce s dátami.
|
| |
|
Asistovaná vektorizace a paralelizace kódu pomocí standardu OpenMP 4.0
Slouka, Lukáš ; Nikl, Vojtěch (oponent) ; Jaroš, Jiří (vedoucí práce)
Predmetom bakalárskej práce je optimalizácia kódu pomocou štandardu OpenMP 4.0, ktorý poskytuje prostriedky pre asistovanú paralelizáciu a vektorizáciu. Okrem popisu štandardu OpenMP 4.0 práca obsahuje aj náhľad do architektúr moderných počítačov a to najmä systému rýchlych vyrovnávacích pamätí a modulov SSE/AVX, ktoré hrajú veľmi významnú rolu v oblasti optimalizácie. Práca demonštruje výhody optimalizovaného kódu pomocou štandardu OpenMP 4.0 oproti neoptimalozavanému kódu na sade benchmarkov zameraných na rôzne aspekty optimalizácie.
|
|
Efektivní implementace vysoce náročných algoritmů na vícejádrových procesorech
Tomečko, Lukáš ; Bidlo, Michal (oponent) ; Jaroš, Jiří (vedoucí práce)
Cieľom tejto práce je paralelizovať a vektorizovať simuláciu toku kvapalín. Dosiahne sa to pomocou knižnice OpenMP a prekladaču od Intelu. Implementované boli rôzne prístupy k problému, ako napr. cache blocking, zoraďovanie dát počas behu a dočasné reorganizovanie dát v pamäti. Skombinovaním najrýchlejších riešení sa podarilo simuláciu celkovo zrýchliť 11,4krát na 16 jadrách, pričom testy prebiehali na ostravskom superpočítači Anselm. Výsledky ukazujú, že výsledná aplikácia dobre škáluje s pribúdajúcim počtom jadier. Ďalej, vektorizovanie daného problému bolo možné len čiastočne z dôvodu nevhodného spôsobu práce s dátami.
|
|
Vysoce náročné aplikace na svazku karet Intel Xeon Phi
Kačurik, Tomáš ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce)
Táto práca sa zaoberá implementáciou a optimalizáciou vysoko náročných aplikácií na zväzku Intel Xeon Phi koprocesorov. Na dvoch prístupoch k riešeniu N-Body problému boli demonštrované možnosti behu programov na zväzku procesorov, koprocesorov a s využitím oboch typov zariadení. Zvolené boli dva verzie N-Body problému - naivná a Barnes-hut. Oba problémy boli implementované a optimalizované. Práca tiež zachytáva proces optimalizácie a zmeny vo výkone po aplikovaní jednotlivých optimalizácií. Pre lepšie porovnanie dosiahnutých výkonov sme porovnávali programy na základe dosiahnutého zrýchlenia voči behu programu na jednom výpočtovom uzle pri využití len procesorov. V prípade naivnej verzie bolo dosiahnuté 15 násobné zrýchlenie pri využití procesorov a koprocesorov na 8 výpočtových uzloch. Výkon dosiahnutý v tomto prípade predstavoval 9 TFLOP/s. Na základe dosiahnutých výsledkov sme v závere zhodnotili výhody a nevýhody pri behu programov v distribuovanom prostredí na procesoroch, koprocesoroch alebo s využitím oboch typov zariadení.
|