Název:
Evoluční návrh kolektivních komunikací akcelerovaný pomocí GPU
Překlad názvu:
Evolutionary Design of Collective Communications Accelerated by GPUs
Autoři:
Tyrala, Radek ; Dvořák, Václav (oponent) ; Jaroš, Jiří (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce provádí analýzu existující aplikace implementující evoluční algoritmus pro plánování kolektivních komunikací a navrhuje možnosti její akcelerace s využitím obecných výpočtů na grafických čipech (GPU). V práci je obsažen teoretický úvod do problematiky systémů na čipu, plánování kolektivních komunikací a podrobnější popis evolučních algoritmů. Práce dále zkoumá architektury GPU a paměťovou hierarchii grafických karet z pohledu OpenCL. Na základě analýzy zaměřené na časovou náročnost jednotlivých částí aplikace je proveden návrh paralelního zpracování hodnotící funkce fitness a odhad dosažitelného zrychlení. Stěžejní část práce popisuje implementaci navrženého řešení se zaměřením na využité optimalizace. Práce přináší srovnání původního řešení na CPU a paralelního provedení na GPU. V práci je popsána implementace distribuce výpočtu mezi různá zařízení podporovaná standardem OpenCL a jsou diskutovány výhody, omezení a další možnosti akcelerace výpočtu na základě jeho distribuce na heterogenních výpočetních systémech.
This thesis provides an analysis of the application for evolutionary scheduling of collective communications. It proposes possible ways to accelerate the application using general purpose computing on graphics processing units (GPU). This work offers a theoretical overview of systems on a chip, collective communications scheduling and more detailed description of evolutionary algorithms. Further, the work provides a description of the GPU architecture and its memory hierarchy using the OpenCL memory model. Based on the profiling, the work defines a concept for parallel execution of the fitness function. Furthermore, an estimation of the possible level of acceleration is presented. The process of implementation is described with a closer insight into the optimization process. Another important point consists in comparison of the original CPU-based solution and the massively parallel GPU version. As the final point, the thesis proposes distribution of the computation among different devices supported by OpenCL standard. In the conclusion are discussed further advantages, constraints and possibilities of acceleration using distribution on heterogenous computing systems.
Klíčová slova:
akcelerace; architektura GPU; evoluční návrh; genetický algoritmus; kolektivní komunikace; obecné výpočty na GPU; OpenCL; optimalizace; paralelizace; propojovací síť; systém na čipu; acceleration; collective communications; evolutionary design; general-purpose computing on GPU; genetic algorithm; GPU architecture; OpenCL; optimization; parallel computation; system on a chip. interconnection network
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53619