Název:
Algoritmy pro detekci anomálií v datech z klinických studií a zdravotnických registrů
Překlad názvu:
Algorithms for anomaly detection in data from clinical trials and health registries
Autoři:
Bondarenko, Maxim ; Blaha, Milan (oponent) ; Schwarz, Daniel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2018
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
Daná diplomová práce se zabývá problematikou detekci anomálií v datech z klinických studií a zdravotnických registrů. Cílem práce je provedení literární rešerše problematiky kvality dat ve zdravotnickém výzkumu a realizace vlastního algoritmu detekce anomálních záznamů založeného na metodách strojového učení v reálných klinických datech z běžících nebo uzavřených klinických studií či registrů. V praktické části je popsán realizovaný algoritmus detekce, který se skládá z několika častí: import datového souboru z informačního systému, předzpracování a transformace importovaných datových záznamů s proměnnými různých datových typů na numerické vektory, využití známých statistických metod pro detekce outlierů a hodnoceni kvality a přesnosti algoritmu. Výsledkem zpracování algoritmu je vektor parametrů obsahujících anomálií, který má usnadnit práci správci dat. Tento algoritmus je navřen pro rozšíření palety funkcí informačního systému (CLADE-IS) o automatické monitorování kvality dat detekcí anomálních záznamů.
This master's thesis deals with the problems of anomalies detection in data from clinical trials and medical registries. The purpose of this work is to perform literary research about quality of data in clinical trials and to design a personal algorithm for detection of anomalous records based on machine learning methods in real clinical data from current or completed clinical trials or medical registries. In the practical part is described the implemented algorithm of detection, consists of several parts: import of data from information system, preprocessing and transformation of imported data records with variables of different data types into numerical vectors, using well known statistical methods for detection outliers and evaluation of the quality and accuracy of the algorithm. The result of creating the algorithm is vector of parameters containing anomalies, which has to make the work of data manager easier. This algorithm is designed for extension the palette of information system functions (CLADE-IS) on automatic monitoring the quality of data by detecting anomalous records.
Klíčová slova:
EDC systémy; euklidovská vzdálenost; klinické studie; kosinová podobnost; kvalita dat; mahalanobisová vzdálenost; outliery; strojové učení.; clinical trials; cosine similarity; data quality; EDC systems; euclidean distance; machine learning.; mahalanobis distance; outliers
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/82053