Národní úložiště šedé literatury Nalezeno 11 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Methods for class prediction with high-dimensional gene expression data
Šilhavá, Jana ; Matula, Petr (oponent) ; Železný, Filip (oponent) ; Smrž, Pavel (vedoucí práce)
This thesis deals with class prediction with high-dimensional gene expression data. During the last decade, an increasing amount of genomic data has become available. Combining gene expression data with other data can be useful in clinical management, where it can improve the prediction of disease prognosis. The main part of this thesis is aimed at combining gene expression data with clinical data. We use logistic regression models that can be built through various regularized techniques. Generalized linear models enable us to combine models with different structure of data. It is shown that such a combination may yield more accurate predictions than those obtained based on the use of gene expression or clinical data alone. Suggested approaches are not computationally intensive. Evaluations are performed with simulated data sets in different settings and then with real benchmark data sets. The work also characterizes an additional predictive value of microarrays. The thesis includes a comparison of selected features of gene expression classifiers built up in five different breast cancer data sets. Finally, a feature selection that combines gene expression data with gene ontology information is proposed.
High-performance exploration and querying of selected multi-dimensional spaces in life sciences
Kratochvíl, Miroslav ; Bednárek, David (vedoucí práce) ; Glaab, Enrico (oponent) ; Svozil, Daniel (oponent)
Tato práce studuje, implementuje a experimentuje se specifickými, aplikačně orien- tovanými přístupy pro prozkoumávání a dotazování multimediálních dat. První část práce zkoumá indexování komplexního prostoru chemických sloučenin a popisuje návrh vysoce výkonného systému pro dotazování v databázích malých molekul. Výsledný sys- tém je následně využit v širším kontextu federovaného vyhledávání v heterogenních dat- ech a metadatech souvisejících s chemickými informačními zdroji. V druhé části se práce zaměřuje na rychlou vizualizaci a prohledávání mnohadimenziálních dat pocháze- jících z jednobuněčné průtokové cytometrie. Ze samoorganizačních map odvozuje rychlé metody pro analýzu dat, a využívá je jako základ pro nový vizualizační algoritmus. Podobný přístup zpracování dat je nakonec využit pro vysoce interaktivní prohledávání multimediálních dat. Hlavní příspěvky a výsledky práce se sestávají z pokroku v opti- malizaci metod pro dotazování chemických dat implementovaných v databázi Sachem, federovaného rozhraní pro Sachem založeného na jazyce SPARQL které poskytuje pod- poru pro heterogenního dotazování, algoritmu EmbedSOM pro redukci dimenzionality, návrhu a implementace specifických analytických nástrojů pro průtokovou a hmotnos- tní cytometrii odvozených od algoritmu EmbedSOM, a návrhu a implementace...
Interactive clustering approaches in single-cell cytometry
Urban, Nicole Aemilia ; Šmelko, Adam (vedoucí práce) ; Stuchlý, Jan (oponent)
Průtoková cytometrie umožňuje monitorování velkých, různorodých bu- něčných populací za využití fluerescenčních markerů, díky čemuž je skvělý nástroj pro studium biologických vlastností krve a tkání a také v diagnos- tice v klinickém prostředí. Nedávné pokroky v metologii zdůrazňují auto- matické clusterování jako nástroj volby pro analýzu dat a bylo vytvořeno mnoho clusterovacích algoritmů vhodných pro řešení různých úloh. Bohužel aplikace takových algoritmů v biologii a medicíně zůstává výzvou, obzvláště pokud jednotlivé nástroje neposkytují uživatelsky přístupné interaktivní roz- hraní použitelné odborníky v oboru. Cílem této práce je zhodnotit současné možnosti vývoje interaktivního prostředi za užití programovacích prostředí. Hlavním cílem této práce je nadesignovat nový nástroj, který je postaven na předchozí metologii (iDendro, gMHCA), který umožní aplikaci zkoumané metologie na skutečných datasetech. Koncový uživatel by měl být schopen s daty komunikovat za použití vhodných vizualizačních technik způsobem který je snadný a intuitivní, aby získal biologicky relevantní výsledky.
High-performance exploration and querying of selected multi-dimensional spaces in life sciences
Kratochvíl, Miroslav ; Bednárek, David (vedoucí práce) ; Glaab, Enrico (oponent) ; Svozil, Daniel (oponent)
Tato práce studuje, implementuje a experimentuje se specifickými, aplikačně orien- tovanými přístupy pro prozkoumávání a dotazování multimediálních dat. První část práce zkoumá indexování komplexního prostoru chemických sloučenin a popisuje návrh vysoce výkonného systému pro dotazování v databázích malých molekul. Výsledný sys- tém je následně využit v širším kontextu federovaného vyhledávání v heterogenních dat- ech a metadatech souvisejících s chemickými informačními zdroji. V druhé části se práce zaměřuje na rychlou vizualizaci a prohledávání mnohadimenziálních dat pocháze- jících z jednobuněčné průtokové cytometrie. Ze samoorganizačních map odvozuje rychlé metody pro analýzu dat, a využívá je jako základ pro nový vizualizační algoritmus. Podobný přístup zpracování dat je nakonec využit pro vysoce interaktivní prohledávání multimediálních dat. Hlavní příspěvky a výsledky práce se sestávají z pokroku v opti- malizaci metod pro dotazování chemických dat implementovaných v databázi Sachem, federovaného rozhraní pro Sachem založeného na jazyce SPARQL které poskytuje pod- poru pro heterogenního dotazování, algoritmu EmbedSOM pro redukci dimenzionality, návrhu a implementace specifických analytických nástrojů pro průtokovou a hmotnos- tní cytometrii odvozených od algoritmu EmbedSOM, a návrhu a implementace...
Regression for High-Dimensional Data: From Regularization to Deep Learning
Kalina, Jan ; Vidnerová, Petra
Regression modeling is well known as a fundamental task in current econometrics. However, classical estimation tools for the linear regression model are not applicable to highdimensional data. Although there is not an agreement about a formal definition of high dimensional data, usually these are understood either as data with the number of variables p exceeding (possibly largely) the number of observations n, or as data with a large p in the order of (at least) thousands. In both situations, which appear in various field including econometrics, the analysis of the data is difficult due to the so-called curse of dimensionality (cf. Kalina (2013) for discussion). Compared to linear regression, nonlinear regression modeling with an unknown shape of the relationship of the response on the regressors requires even more intricate methods.
GPU-accelerated Mahalanobis-average hierarchical clustering
Šmelko, Adam ; Kratochvíl, Miroslav (vedoucí práce) ; Hric, Jan (oponent)
Hierarchické klastrovacie algoritmy sú bežnými nástromi na zjednodušenie, skúmanie a analýzu datasetov v mnohých oblastiach výskumu. Pre prietokovú cytometriu bol navrhnutý špecifický variant aglomeračného zhlukovania, ktorý využíva klastrovanie založené na Mahalanobisovskej vzdialenosti, aby sa dosiahli výsledky, ktoré sa pre danú doménu lepšie hodia. Uplatniteľnosť tohto klastrovacieho algoritmu je v súčasnosti obmedzená jeho pomerne vysokou výpočtovou náročnosťou, ktorá mu neumožňuje škálovať bežné cytometrické datasety. Táto práca popisuje špecializovanú, na GPU- zrýchlenú verziu hierarchického klastrovania založeného na Mahalanobisovskej vzdialenosti, ktorá zlepšuje výkon algoritmu o niekoľko rádov, čo mu umožňuje počítať oveľa väčšie datasety. Práca poskytuje prehľad súčasných hierarchických klastrovacích algoritmov a podrobne popisuje implementáciu algoritmu na GPU. Výsledok sa porovnáva s verejne dostupnými vysokorozmernými údajmi z hmotnostnej cytometrie.
Robust Regularized Discriminant Analysis Based on Implicit Weighting
Kalina, Jan ; Hlinka, Jaroslav
In bioinformatics, regularized linear discriminant analysis is commonly used as a tool for supervised classification problems tailormade for high-dimensional data with the number of variables exceeding the number of observations. However, its various available versions are too vulnerable to the presence of outlying measurements in the data. In this paper, we exploit principles of robust statistics to propose new versions of regularized linear discriminant analysis suitable for highdimensional data contaminated by (more or less) severe outliers. The work exploits a regularized version of the minimum weighted covariance determinant estimator, which is one of highly robust estimators of multivariate location and scatter. The performance of the novel classification methods is illustrated on real data sets with a detailed analysis of data from brain activity research.
Plný tet: v1241-16 - Stáhnout plný textPDF
Plný text: content.csg - Stáhnout plný textPDF
Methods for class prediction with high-dimensional gene expression data
Šilhavá, Jana ; Matula, Petr (oponent) ; Železný, Filip (oponent) ; Smrž, Pavel (vedoucí práce)
This thesis deals with class prediction with high-dimensional gene expression data. During the last decade, an increasing amount of genomic data has become available. Combining gene expression data with other data can be useful in clinical management, where it can improve the prediction of disease prognosis. The main part of this thesis is aimed at combining gene expression data with clinical data. We use logistic regression models that can be built through various regularized techniques. Generalized linear models enable us to combine models with different structure of data. It is shown that such a combination may yield more accurate predictions than those obtained based on the use of gene expression or clinical data alone. Suggested approaches are not computationally intensive. Evaluations are performed with simulated data sets in different settings and then with real benchmark data sets. The work also characterizes an additional predictive value of microarrays. The thesis includes a comparison of selected features of gene expression classifiers built up in five different breast cancer data sets. Finally, a feature selection that combines gene expression data with gene ontology information is proposed.
Some Robust Estimation Tools for Multivariate Models
Kalina, Jan
Standard procedures of multivariate statistics and data mining for the analysis of multivariate data are known to be vulnerable to the presence of outlying and/or highly influential observations. This paper has the aim to propose and investigate specific approaches for two situations. First, we consider clustering of categorical data. While attention has been paid to sensitivity of standard statistical and data mining methods for categorical data only recently, we aim at modifying standard distance measures between clusters of such data. This allows us to propose a hierarchical agglomerative cluster analysis for two-way contingency tables with a large number of categories, based on a regularized measure of distance between two contingency tables. Such proposal improves the robustness to the presence of measurement errors for categorical data. As a second problem, we investigate the nonlinear version of the least weighted squares regression for data with a continuous response. Our aim is to propose an efficient algorithm for the least weighted squares estimator, which is formulated in a general way applicable to both linear and nonlinear regression. Our numerical study reveals the computational aspects of the algorithm and brings arguments in favor of its credibility.
Robustness of High-Dimensional Data Mining
Kalina, Jan ; Duintjer Tebbens, Jurjen ; Schlenker, Anna
Standard data mining procedures are sensitive to the presence of outlying measurements in the data. This work has the aim to propose robust versions of some existing data mining procedures, i.e. methods resistant to outliers. In the area of classification analysis, we propose a new robust method based on a regularized version of the minimum weighted covariance determinant estimator. The method is suitable for data with the number of variables exceeding the number of observations. The method is based on implicit weights assigned to individual observations. Our approach is a unique attempt to combine regularization and high robustness, allowing to downweight outlying high-dimensional observations. Classification performance of new methods and some ideas concerning classification analysis of high-dimensional data are illustrated on real raw data as well as on data contaminated by severe outliers.

Národní úložiště šedé literatury : Nalezeno 11 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.