Název:
Velké jazykové modely pro generování kódu se zaměřením na vestavěné systémy
Překlad názvu:
Large Language Models for Generating Code Focusing on Embedded Systems
Autoři:
Vadovič, Matej ; Nosko, Svetozár (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Cieľom tejto práce bola adaptácia predtrénovaného jazykového modelu pre účely generovania kódu v oblasti vstavaných systémov. V práci je predstavená nová dátová sada pre ladenie modelov generovania kódu, ktorá obsahuje 50 tisíc dvojíc zdrojového kódu a komentárov zameraných na oblasť programovania vstavaných systémov. Táto sada je zložená zo zozbieraného zdrojového kódu z platformy GitHub. Na dátach nového korpusu boli ladené dva nové jazykové modely pre generovanie kódu založené na predtrénovaných modeloch s architektúrou transformer. Model MicroCoder je založený na modeli CodeLLaMA-Instruct 7B a pri jeho ladení bola využitá technika QLoRA pre minimalizáciu výpočtových nárokov ladenia. Druhý model, MicroCoderFIM, je založený na modeli StarCoderBase 1B a podporuje vyplňovanie kódu na základe okolia (fill-in-the-middle). Jednotlivé modely boli porovnávané na základe metrík BLEU, CodeBLEU, ChrF++ a ROUGE-L. Model MicroCoderFIM dosahuje najlepšie výsledky adaptácie na novú úlohu, pričom zaznamenal viac ako 120% zlepšenie vo všetkých meraných metrikách. Váhy modelov spolu s novou dátovou sadou sú voľne prístupné na verejnom úložisku.
The goal of this work was to adapt a pre-trained language model for the purpose of generating code in the field of embedded systems. The work introduces a new dataset for fine-tuning code generation models, consisting of 50,000 pairs of source code and comments focused on embedded systems programming. This dataset is composed of collected source code from the GitHub platform. Two new language models for code generation, based on transformer architecture pre-trained models, were fine-tuned on the data of the new corpus. Model MicroCoder is based on the CodeLLaMA-Instruct 7B model, and during its fine-tuning, the QLoRA technique was used to minimize computational requirements. The second model, MicroCoderFIM, is based on the StarCoderBase 1B model and supports code infilling. The individual models were compared based on BLEU, CodeBLEU, ChrF++, and ROUGE-L metrics. Model MicroCoderFIM achieves the best adaptation results to the new task, with over 120% improvement in all measured metrics. The weights of the models along with the new dataset are freely accessible on a public repository.
Klíčová slova:
code generation; CodeLlama; dataset; embedded code; large language models; StarCoderBase; transformer
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/247460