Original title:
Výpočetní úlohy pro předmět Paralelní zpracování dat
Translated title:
Computational tasks for Parallel data processing course
Authors:
Horečný, Peter ; Rajnoha, Martin (referee) ; Mašek, Jan (advisor) Document type: Bachelor's theses
Year:
2018
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[slo][eng]
Cieľom tejto práce bolo vytvoriť laboratórne úlohy pre predmet „Paralelní zpracování dat“, pomocou ktorých sa študenti zoznámia s prácou a možnosťami technológie Apache Spark. Úlohy sa venujú práci zo základnými operáciami a predspracovaniu dát, práci s konceptami a algoritmami strojového učenia. Využitím algoritmov pre lineárnu regresiu, klasifikáciu, zhlukovanie dát a početné vzory študenti podľa vypracovaných návodov vytvoria programy, ktoré riešia vopred zadané problémy z reálneho sveta. Týmto sa zoznámia s reálnym využitím a výhodami Sparku. Ako vstupné dáta budú poskytnuté pripravené databázy českých a slovenských firiem s mnohými údajmi, ktoré musia byť v rámci prvej úlohy upravené, filtrované a usporiadané pre ďalšie spracovanie. Ďalšia vec, s ktorou sa naučia pracovať v rámci úloh je funkcionálne programovanie, keďže v návodoch nie sú programy vypracované kompletne, ale iba s postupnými nápovedami, ktoré sa v následných úlohách už neopakujú. Po absolvovaní všetkých úloh získajú ucelený prehľad o možnostiach tejto technológie.
The goal of this thesis was to create laboratory excercises for subject „Parallel data processing“, which will introduce options and capabilities of Apache Spark technology to the students. The excercises focus on work with basic operations and data preprocessing, work with concepts and algorithms of machine learning. By following the instructions, the students will solve real world situations problems by using algorithms for linear regression, classification, clustering and frequent patterns. This will show them the real usage and advantages of Spark. As an input data, there will be databases of czech and slovak companies with a lot of information provided, which need to be prepared, filtered and sorted for next processing in the first excercise. The students will also get known with functional programming, because the are not whole programs in excercises, but just the pieces of instructions, which are not repeated in the following excercises. They will get a comprehensive overview about possibilities of Spark by getting over all the excercices.
Keywords:
Apache Hadoop; Apache Spark; big data; classification; clustering; frequent patterns; linear regression; machine learning; parallel data processing
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/82383