Národní úložiště šedé literatury Nalezeno 37 záznamů.  začátekpředchozí28 - 37  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Robust Regularized Discriminant Analysis Based on Implicit Weighting
Kalina, Jan ; Hlinka, Jaroslav
In bioinformatics, regularized linear discriminant analysis is commonly used as a tool for supervised classification problems tailormade for high-dimensional data with the number of variables exceeding the number of observations. However, its various available versions are too vulnerable to the presence of outlying measurements in the data. In this paper, we exploit principles of robust statistics to propose new versions of regularized linear discriminant analysis suitable for highdimensional data contaminated by (more or less) severe outliers. The work exploits a regularized version of the minimum weighted covariance determinant estimator, which is one of highly robust estimators of multivariate location and scatter. The performance of the novel classification methods is illustrated on real data sets with a detailed analysis of data from brain activity research.
Plný tet: v1241-16 - Stáhnout plný textPDF
Plný text: content.csg - Stáhnout plný textPDF
Diagnostics for Robust Regression: Linear Versus Nonlinear Model
Kalina, Jan
Robust statistical methods represent important tools for estimating parameters in linear as well as nonlinear econometric models. In contrary to the least squares, they do not suffer from vulnerability to the presence of outlying measurements in the data. Nevertheless, they need to be accompanied by diagnostic tools for verifying their assumptions. In this paper, we propose the asymptotic Goldfeld-Quandt test for the regression median. It allows to formulate a natural procedure for models with heteroscedastic disturbances, which is again based on the regression median. Further, we pay attention to nonlinear regression model. We focus on the nonlinear least weighted squares estimator, which is one of recently proposed robust estimators of parameters in a nonlinear regression. We study residuals of the estimator and use a numerical simulation to reveal that they can be severely heteroscedastic also for data generated from a model with homoscedastic disturbances. Thus, we give a warning that standard residuals of the robust nonlinear estimator may produce misleading results if used for the standard diagnostic tools
On Exact Heteroscedasticity Testing for Robust Regression
Kalina, Jan ; Peštová, Barbora
The paper is devoted to the least weighted squares estimator, which is one of highly robust estimators for the linear regression model. Novel permutation tests of heteroscedasticity are proposed. Also the asymptotic behavior of the permutation test statistics of the Goldfeld-Quandt and Breusch-Pagan tests is investigated. A numerical experiment on real economic data is presented, which also shows how to perform a robust prediction model under heteroscedasticity.
Detekce neobvyklých událostí v temporálních datech
Černík, Tomáš ; Bartík, Vladimír (oponent) ; Zendulka, Jaroslav (vedoucí práce)
Bakalářská práce se zabývá hledáním neobvyklých událostí (anomálií) v dostupných temporálních datech. V teoretické části je čtenář seznámen s existujícími technikami a algoritmy pro detekci anomálií v datech. Jsou zde také představena meteorologická data, která jsou poté použita k experimentálnímu ověření implementovaných detekčních algoritmů. Praktická část práce se zabývá návrhem, implementací a zjištěním úspěšnosti vybraných algoritmů pro hledání bodových, kontextuálních a kolektivních anomálií.
Dolovací modul systému pro dolování z dat na platformě NetBeans
Výtvar, Jaromír ; Křivka, Zbyněk (oponent) ; Zendulka, Jaroslav (vedoucí práce)
Cílem této diplomové práce je získat přehled o procesu získávání znalostí z databází a analýza dolovacího systému vyvíjeného na FIT VUT v Brně na platformě NetBeans za účelem vytvoření nového dolovacího modulu. Ze získaných znalostí bylo rozhodnuto o vytvoření modulu pro dolování odlehlých hodnot a doplnění existujícího modulu regrese o nový algoritmus vícenásobné lineární regrese založený na zobecněných lineárních modelech. Nové dolovací metody využívají existující řešení na straně Oracle data mining.
Zavedení a aplikace obecného regresního modelu
Hrabec, Pavel ; Štarha, Pavel (oponent) ; Bednář, Josef (vedoucí práce)
V práci byl podrobně popsán obecný lineární regresní model, včetně testových statistik pro jednotlivé koeficienty, podmodely, predikce a především testy odlehlých hodnot a pozorování výrazně deformujících model. Byl popsán způsob jak do regresního modelu zahrnout kategoriální proměnné. Tento model byl aplikován na popis saturace fotografických snímků chleba, kde vstupní proměnné byly typ mouky, typ přídavku a koncentrace mouky. Po identifikaci nevhodných pozorování jsme vytvořili matematický model, který má vysoký koeficient determinace a odborníkům z potravinářského průmyslu bude v kombinaci s matematickým modelem barvy a struktury, které nejsou předmětem této práce, sloužit k předběžné identifikaci možného složení chleba.
Some Robust Estimation Tools for Multivariate Models
Kalina, Jan
Standard procedures of multivariate statistics and data mining for the analysis of multivariate data are known to be vulnerable to the presence of outlying and/or highly influential observations. This paper has the aim to propose and investigate specific approaches for two situations. First, we consider clustering of categorical data. While attention has been paid to sensitivity of standard statistical and data mining methods for categorical data only recently, we aim at modifying standard distance measures between clusters of such data. This allows us to propose a hierarchical agglomerative cluster analysis for two-way contingency tables with a large number of categories, based on a regularized measure of distance between two contingency tables. Such proposal improves the robustness to the presence of measurement errors for categorical data. As a second problem, we investigate the nonlinear version of the least weighted squares regression for data with a continuous response. Our aim is to propose an efficient algorithm for the least weighted squares estimator, which is formulated in a general way applicable to both linear and nonlinear regression. Our numerical study reveals the computational aspects of the algorithm and brings arguments in favor of its credibility.
Robustness Aspects of Knowledge Discovery
Kalina, Jan
The sensitivity of common knowledge discovery methods to the presence of outlying measurements in the observed data is discussed as their major drawback. Our work is devoted to robust methods for information extraction from data. First, we discuss neural networks for function approximation and their sensitivity to the presence of noise and outlying measurements in the data. We propose to fit neural networks in a robust way by means of a robust nonlinear regression. Secondly, we consider information extraction from categorical data, which commonly suffers from measurement errors. To improve its robustness properties, we propose a regularized version of the common test statistics, which may find applications e.g. in pattern discovery from categorical data.
Shluková analýza rozsáhlých souborů dat: nové postupy založené na metodě k-průměrů
Žambochová, Marta ; Řezanková, Hana (vedoucí práce) ; Húsek, Dušan (oponent) ; Antoch, Jaromír (oponent)
Abstrakt Shluková analýza se stala jedním z hlavních nástrojů používaných při získávání znalostí z dat, které je označováno jako data mining. V této nové oblasti analýzy dat se často zpracovávají datové soubory velkých rozměrů, a to jak co do počtu sledovaných objektů, tak co do počtu proměnných, kterými jsou objekty charakterizovány. Pro shlukování dat bylo vyvinuto mnoho metod. Jednou z často používaných technik je metoda k-průměrů. Jejím základem je hledání nejlepšího přiřazení objektů do shluků na principu inicializačního rozdělení objektů a následného postupného přerozdělování s využitím optimalizační funkce. Cílem této disertační práce bylo jednak porovnání vybraných existujících variant metody k-průměrů, detailní charakteristika jejich pozitivních a negativních vlastností, jednak návrh nových modifikací této metody a jejich experimentální srovnání s již existujícími přístupy. Tyto cíle byly splněny. Ve své práci jsem se zaměřila na modifikace metod k-průměrů pro shlukování velkého počtu objektů, konkrétně na algoritmy BIRCH k-průměrů, filtrovací, dvou- fázový a k-průměrů++. Experimentálně jsem sledovala časovou náročnost jednotlivých algoritmů, vliv inicializačních rozdělení, vliv odlehlých objektů a validitu výsledných shluků. Při experimentech byly použity dva reálné datové soubory a dále několik souborů generovaných. V závěru práce jsou shrnuty společné a rozdílné rysy zkoumaných variant metody k-průměrů s důrazem na výše uvedená hlediska. Přínosem práce je tedy kromě zhodnocení současných variant metody k-průměrů především návrh výše uvedených nových modifikací, jejich naprogramování a experi- mentální ověření. Modifikace přinesly zejména urychlení výpočtu způsobené zjedno- dušením práce s účelovou funkcí a kritérií ukončení programu. Aplikování hlavní myšlenky algoritmu k-průměrů++ do jiných variant metody k-průměrů přineslo lepší vý-sledky shlukování z hlediska variability. Nejzásadnější z navržených změn je modifi-kace filtrovacího algoritmu, která přináší zcela novou vlastnost této metody, a to odhalení odlehlých objektů. Součástí práce je CD, které obsahuje zdrojové kódy jednotlivých programů vytvořených ve vývojovém prostředí MATLAB. Programy byly vytvořeny speciálně pro účely této práce a jsou určeny pro experimentální použití. CD také obsahuje datové soubory využívané k jednotlivým pokusům.
Metody identifikace počtu shluků a odlehlých hodnot implementované v profesionálních statistických programových systémech
Řezanková, H. ; Húsek, Dušan
Příspěvek se zabývá možnostmi stanovení optimálního počtu skupin objektů a nalezení odlehlých objektů při shlukování pomocí různých metod implementovaných v komerčních statistických programových systémech. V uvedeném příkladu je cílem nalézt skupiny podobných binárních proměnných. Použita je shluková analýza (hierarchická, k-medoidů, fuzzy, dvoukroková), vícerozměrné škálování, faktorová analýza (FA) a Booleovská FA.

Národní úložiště šedé literatury : Nalezeno 37 záznamů.   začátekpředchozí28 - 37  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.