Práce se zabývá regresní analýzou pro kompoziční data. Relativní
charakter kompozičních dat, který je odlišuje od standardních mnohorozměrných
dat, vyžaduje speciální zacházení. Jedním ze základních přístupů ke statistické
analýze kompozičních dat, který je použit i v této práci, je vyjádření kompozičníchdat ve vhodném souřadnicovém systému.
Nejprve je pozornost soustředěna na problematiku regresního modelu s kompoziční vysvětlovanou proměnnou. Pro kompoziční data vyjádřená v ortonormálních souřadnicích je v práci vytvořen mnohorozměrný regresní model a uvedeny
explicitní vzorce pro odhady neznámých regresních parametrů a testové statistiky
pro ověření jejich statistické významnosti. Dále je navržena jiná souřadnicová
reprezentace kompozičních dat, která umožnuje zjednodušit výpočty pro odhady
regresních parametrů a testové statistiky a vyhodnocena kvalita predikce v různých souřadnicových systémech.
Druhá část této práce je věnována kalibračnímu problému pro kompoziční
data. V práci je použit přístup založený na lineárním modelu s podmínkami typu
II. Je zde dokázána ekvivalence mezi lineárními modely s podmínkami typu II
a ortogonální regresí. Dále je zde navržena procedura pro kalibraci kompozičních
měření a prezentovány testy pro shodu dvou měřích přístrojů (metod).
V poslední části této práce je navržena procedura pro výběr kompozičních
složek, která zaručuje, že výsledná redukce dimenze kompozice nezpůsobí podstatnouztrátu informace o mnohorozměrné variabilitě datové struktuře.
Všechny teoretické výsledky jsou aplikovány při řešení reálných úloh.
Anotace v angličtině
The thesis is focused on regression analysis for compositional data.
Relative nature of compositional data that distinguishes them from the standard multivariate data call for a special treatment. Since for the most of the statistical
techniques there is still not developed stay-in the simplex approach, the log-ratio methodology presents a proper statistical approach that enable to express the data in a coordinate system.
Firstly, a regression model with compositional response variable is studied.
A multivariate regression model is built for the compositional data expressed
in orthonormal coordinates. The explicit formulas for the estimators of regression parameters and as well test statistics for the verification of their significance are provided. Further, new coordinate representation of the compositional data allowing to simplify the computation concerning regression parameters estimation and hypothesis testing is proposed and as well, the quality of prediction in different coordinate system is evaluated.
The second part of this thesis is devoted to the calibration problem for compositions. Here the calibration approach based on linear models with the type-II
constraints is used. The equivalence between the linear model with type-II constraints and the total least squares regression is proved. A procedure for calibration of compositional measurements is proposed and tests for conformity of two measuring devices (methods) are presented.
In the last part of the thesis, a variable selection procedure for compositions
that guarantees that a reduction of the original composition to a subcomposition
causes only negligible change of the information is presented.
All theoretical results are applied to real-world examples.
Klíčová slova
kompoziční data, regrese s kompoziční vysvětlovanou proměnnou, kalibrace, ortogonální regrese, lineární regresní model s podmínkami typu II, výběr proměnných
Klíčová slova v angličtině
compositional data, regression with compositional response, calibration, total least squares, linear model with type-II constraints, variable selection
Rozsah průvodní práce
98
Jazyk
AN
Anotace
Práce se zabývá regresní analýzou pro kompoziční data. Relativní
charakter kompozičních dat, který je odlišuje od standardních mnohorozměrných
dat, vyžaduje speciální zacházení. Jedním ze základních přístupů ke statistické
analýze kompozičních dat, který je použit i v této práci, je vyjádření kompozičníchdat ve vhodném souřadnicovém systému.
Nejprve je pozornost soustředěna na problematiku regresního modelu s kompoziční vysvětlovanou proměnnou. Pro kompoziční data vyjádřená v ortonormálních souřadnicích je v práci vytvořen mnohorozměrný regresní model a uvedeny
explicitní vzorce pro odhady neznámých regresních parametrů a testové statistiky
pro ověření jejich statistické významnosti. Dále je navržena jiná souřadnicová
reprezentace kompozičních dat, která umožnuje zjednodušit výpočty pro odhady
regresních parametrů a testové statistiky a vyhodnocena kvalita predikce v různých souřadnicových systémech.
Druhá část této práce je věnována kalibračnímu problému pro kompoziční
data. V práci je použit přístup založený na lineárním modelu s podmínkami typu
II. Je zde dokázána ekvivalence mezi lineárními modely s podmínkami typu II
a ortogonální regresí. Dále je zde navržena procedura pro kalibraci kompozičních
měření a prezentovány testy pro shodu dvou měřích přístrojů (metod).
V poslední části této práce je navržena procedura pro výběr kompozičních
složek, která zaručuje, že výsledná redukce dimenze kompozice nezpůsobí podstatnouztrátu informace o mnohorozměrné variabilitě datové struktuře.
Všechny teoretické výsledky jsou aplikovány při řešení reálných úloh.
Anotace v angličtině
The thesis is focused on regression analysis for compositional data.
Relative nature of compositional data that distinguishes them from the standard multivariate data call for a special treatment. Since for the most of the statistical
techniques there is still not developed stay-in the simplex approach, the log-ratio methodology presents a proper statistical approach that enable to express the data in a coordinate system.
Firstly, a regression model with compositional response variable is studied.
A multivariate regression model is built for the compositional data expressed
in orthonormal coordinates. The explicit formulas for the estimators of regression parameters and as well test statistics for the verification of their significance are provided. Further, new coordinate representation of the compositional data allowing to simplify the computation concerning regression parameters estimation and hypothesis testing is proposed and as well, the quality of prediction in different coordinate system is evaluated.
The second part of this thesis is devoted to the calibration problem for compositions. Here the calibration approach based on linear models with the type-II
constraints is used. The equivalence between the linear model with type-II constraints and the total least squares regression is proved. A procedure for calibration of compositional measurements is proposed and tests for conformity of two measuring devices (methods) are presented.
In the last part of the thesis, a variable selection procedure for compositions
that guarantees that a reduction of the original composition to a subcomposition
causes only negligible change of the information is presented.
All theoretical results are applied to real-world examples.
Klíčová slova
kompoziční data, regrese s kompoziční vysvětlovanou proměnnou, kalibrace, ortogonální regrese, lineární regresní model s podmínkami typu II, výběr proměnných
Klíčová slova v angličtině
compositional data, regression with compositional response, calibration, total least squares, linear model with type-II constraints, variable selection
Zásady pro vypracování
Cílem disertační práce je seznámení se jednak se speciální třídou tzv. kompozičních dat a jednak s teorií lineárních regresních modelů. Práce je zaměřena na zkoumání možností využití standardní regresní analýzy při zpracování kompozičních dat, pomocí které lze následně provádět běžné statistické inference jako je určení optimálních odhadů neznamých parametrů, stanovení oblastí spolehlivosti či testování hypotéz.
Zásady pro vypracování
Cílem disertační práce je seznámení se jednak se speciální třídou tzv. kompozičních dat a jednak s teorií lineárních regresních modelů. Práce je zaměřena na zkoumání možností využití standardní regresní analýzy při zpracování kompozičních dat, pomocí které lze následně provádět běžné statistické inference jako je určení optimálních odhadů neznamých parametrů, stanovení oblastí spolehlivosti či testování hypotéz.
Seznam doporučené literatury
Aitchison, J. (1986) The statistical analysis of compositional data. London: Chapman and Hall.
Fišerová, E., and Hron, K. (2010). Total least squares solution for compo-
sitional data using linear models. Journal of Applied Statistics, 37, 1137?
1152.
Fuller, W.A. (1987). Measurement Error Models. New York: John Wiley &
Sons.
Kubáček, L., and Kubáčková, L. (1997). One of the calibration problems.
Acta Univ. Palacki. Olomuc. Fac. Rerum. Nat., Math., 36, 117-130.
Kendall, M.G., and Stuart, A. (1967). The Advanced Theory of Statistics,
Vol. 2. London: Charles Griffin.
Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2007) Lecture notes on compositional data analysis
Seznam doporučené literatury
Aitchison, J. (1986) The statistical analysis of compositional data. London: Chapman and Hall.
Fišerová, E., and Hron, K. (2010). Total least squares solution for compo-
sitional data using linear models. Journal of Applied Statistics, 37, 1137?
1152.
Fuller, W.A. (1987). Measurement Error Models. New York: John Wiley &
Sons.
Kubáček, L., and Kubáčková, L. (1997). One of the calibration problems.
Acta Univ. Palacki. Olomuc. Fac. Rerum. Nat., Math., 36, 117-130.
Kendall, M.G., and Stuart, A. (1967). The Advanced Theory of Statistics,
Vol. 2. London: Charles Griffin.
Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2007) Lecture notes on compositional data analysis