Celá škála vědeckých oborů produkuje data, u kterých je hlavním zájmem jejich relativní struktura, obsažená ze své podstaty v podílech mezi proměnnými. Pro libovolnou statistickou analýzu takových (kompozičních) dat je proto nezbytná správná volba souřadnic zastřešená logpodílovou metodikou. V této dizertační práci jsou představeny nové metody navázané zejména na využití pivotových souřadnic v různých oblastech výzkumu generujících datové soubory vyšší dimenzionality nebo komplexnosti. Jedním z nejzásadnějších úkolů v tzv. -omických vědách je nalezení statisticky významných rozdílů mezi skupinami pacientů a kontrol, které slouží k detekci biomarkerů různých onemocnění s využitím jednorozměrných i mnohorozměrných statistických metod. Je zde představen koncept b-hodnot spolu s bayesovskou verzí populárního nástroje založeného na mnohonásobném testování hypotéz, jež se nazývá vulkánový graf. Díky bayesovské modifikaci lze do grafu zahrnout rovněž zóny vzdálenosti intervalů nejvyšší hustoty (HDI) od nuly. Dále je navržen nový typ souřadnicové reprezentace kompozičních dat, jehož cílem je zlepšit identifikaci biomarkerů. V souladu se svým názvem jsou tyto selektivní pivotové souřadnice konstruovány tak, že "vodící" souřadnice reprezentující vždy vybranou kompoziční složku agreguje všechny párové logpodíly této složky s ostatními komponentami, s výjimkou aberantních logpodílů. Na souřadnice je následně jako zlatý standard mnohorozměrné analýzy -omických dat aplikována diskriminační analýza metodou částečných dílčích čtverců. A konečně, složitější struktury kompozičních dat uspořádané podle dvou faktorů lze často považovat za kompoziční tabulky. Pro tato data je v práci uvedena speciální volba pivotových souřadnic reflektující možný rozklad tabulky na její nezávislou a interakční část. Za účelem redukce dimenze je pak použita robustní metoda hlavních komponent, která prostřednictvím přímého vztahu představených souřadnic s centrovanými logpodílovými koeficienty umožňuje získat lepší vhled do vztahů mezi danými faktory. Teoretické poznatky jsou ilustrovány na analýze reálných datových souborů z metabolomiky a socioekonomie, stejně jako na simulačních studiích demonstrujících přínosy nově navržených nástrojů ve srovnání s těmi v příslušných oborech již etablovanými.
Anotace v angličtině
An abundance of scientific fields produces data where their relative structure, which is inherently contained in ratios among variables, is of the main interest. Therefore, a proper choice of coordinates within the logratio framework is essential for any statistical analysis of such (compositional) data. In this thesis, novel methods linked particularly to the use of pivot coordinates are presented within different research areas generating data sets of higher dimensionality or complexity. One of the essential tasks in omics sciences is to find statistically significant differences between patient and control groups to detect biomarkers of particular diseases using both univariate and multivariate statistical methods. A concept of b-values is introduced together with a Bayesian version of a widespread tool based on multiple hypotheses testing, the so-called volcano plot, incorporating also distance levels of the posterior highest density intervals from zero. Next, a new type of coordinate representation aiming to enhance the identification of biomarkers is proposed. They are constructed so that the "pivoting" coordinate representing a certain compositional part aggregates all but the deviating pairwise logratios of that part to the remaining ones, in accord with the name selective pivot coordinates. They are further coupled with partial least squares discriminant analysis as a gold standard in the multivariate analysis of omics data. Finally, a data table arranged according to two factors can often be considered a compositional table. Hence, a special choice of pivot coordinates reflecting a decomposition process into independent and interactive parts is presented for compositional data comprising the two-factorial complexity. A robust principal component analysis is then performed for dimension reduction, allowing for investigation of the relationships between the given factors through a direct relation of the proposed coordinates to centered logratio coefficients. The theoretical background is illustrated using real data sets from metabolomics and socioeconomy, as well as simulation studies to demonstrate the benefits of the introduced approaches compared to well-established methods of the respective fields.
Klíčová slova
kompoziční data, logpodílová metodika, centrované logpodílové
koeficienty, pivotové souřadnice, vážené pivotové souřadnice, selektivní pivotové souřadnice, kompoziční tabulky, bayesovská statistika, robustní metoda hlavních komponent, vulkánový graf, metoda částečných nejmenších čtverců - diskriminační analýza, kompoziční biplot, metabolomická data, ekonomická data
Celá škála vědeckých oborů produkuje data, u kterých je hlavním zájmem jejich relativní struktura, obsažená ze své podstaty v podílech mezi proměnnými. Pro libovolnou statistickou analýzu takových (kompozičních) dat je proto nezbytná správná volba souřadnic zastřešená logpodílovou metodikou. V této dizertační práci jsou představeny nové metody navázané zejména na využití pivotových souřadnic v různých oblastech výzkumu generujících datové soubory vyšší dimenzionality nebo komplexnosti. Jedním z nejzásadnějších úkolů v tzv. -omických vědách je nalezení statisticky významných rozdílů mezi skupinami pacientů a kontrol, které slouží k detekci biomarkerů různých onemocnění s využitím jednorozměrných i mnohorozměrných statistických metod. Je zde představen koncept b-hodnot spolu s bayesovskou verzí populárního nástroje založeného na mnohonásobném testování hypotéz, jež se nazývá vulkánový graf. Díky bayesovské modifikaci lze do grafu zahrnout rovněž zóny vzdálenosti intervalů nejvyšší hustoty (HDI) od nuly. Dále je navržen nový typ souřadnicové reprezentace kompozičních dat, jehož cílem je zlepšit identifikaci biomarkerů. V souladu se svým názvem jsou tyto selektivní pivotové souřadnice konstruovány tak, že "vodící" souřadnice reprezentující vždy vybranou kompoziční složku agreguje všechny párové logpodíly této složky s ostatními komponentami, s výjimkou aberantních logpodílů. Na souřadnice je následně jako zlatý standard mnohorozměrné analýzy -omických dat aplikována diskriminační analýza metodou částečných dílčích čtverců. A konečně, složitější struktury kompozičních dat uspořádané podle dvou faktorů lze často považovat za kompoziční tabulky. Pro tato data je v práci uvedena speciální volba pivotových souřadnic reflektující možný rozklad tabulky na její nezávislou a interakční část. Za účelem redukce dimenze je pak použita robustní metoda hlavních komponent, která prostřednictvím přímého vztahu představených souřadnic s centrovanými logpodílovými koeficienty umožňuje získat lepší vhled do vztahů mezi danými faktory. Teoretické poznatky jsou ilustrovány na analýze reálných datových souborů z metabolomiky a socioekonomie, stejně jako na simulačních studiích demonstrujících přínosy nově navržených nástrojů ve srovnání s těmi v příslušných oborech již etablovanými.
Anotace v angličtině
An abundance of scientific fields produces data where their relative structure, which is inherently contained in ratios among variables, is of the main interest. Therefore, a proper choice of coordinates within the logratio framework is essential for any statistical analysis of such (compositional) data. In this thesis, novel methods linked particularly to the use of pivot coordinates are presented within different research areas generating data sets of higher dimensionality or complexity. One of the essential tasks in omics sciences is to find statistically significant differences between patient and control groups to detect biomarkers of particular diseases using both univariate and multivariate statistical methods. A concept of b-values is introduced together with a Bayesian version of a widespread tool based on multiple hypotheses testing, the so-called volcano plot, incorporating also distance levels of the posterior highest density intervals from zero. Next, a new type of coordinate representation aiming to enhance the identification of biomarkers is proposed. They are constructed so that the "pivoting" coordinate representing a certain compositional part aggregates all but the deviating pairwise logratios of that part to the remaining ones, in accord with the name selective pivot coordinates. They are further coupled with partial least squares discriminant analysis as a gold standard in the multivariate analysis of omics data. Finally, a data table arranged according to two factors can often be considered a compositional table. Hence, a special choice of pivot coordinates reflecting a decomposition process into independent and interactive parts is presented for compositional data comprising the two-factorial complexity. A robust principal component analysis is then performed for dimension reduction, allowing for investigation of the relationships between the given factors through a direct relation of the proposed coordinates to centered logratio coefficients. The theoretical background is illustrated using real data sets from metabolomics and socioeconomy, as well as simulation studies to demonstrate the benefits of the introduced approaches compared to well-established methods of the respective fields.
Klíčová slova
kompoziční data, logpodílová metodika, centrované logpodílové
koeficienty, pivotové souřadnice, vážené pivotové souřadnice, selektivní pivotové souřadnice, kompoziční tabulky, bayesovská statistika, robustní metoda hlavních komponent, vulkánový graf, metoda částečných nejmenších čtverců - diskriminační analýza, kompoziční biplot, metabolomická data, ekonomická data
Současný stav logratio metodiky, která je založena na Aitchisonově geometrii kompozičních dat s konečným počtem složek a Bayesových prostorů hustot rozdělení pravděpodobností, umožňuje rozvoj pokročilých metod pokrývajících široké spektrum problémů mnohorozměrné statistické analýzy a funkcionální analýzy dat. Cílem dizertační práce bude zaměřit se na některé z perspektivních směrů uvedené problematiky, například kompoziční tabulky a zobecněné lineární modely včetně možnosti bayesovského přístupu.
Zásady pro vypracování
Současný stav logratio metodiky, která je založena na Aitchisonově geometrii kompozičních dat s konečným počtem složek a Bayesových prostorů hustot rozdělení pravděpodobností, umožňuje rozvoj pokročilých metod pokrývajících široké spektrum problémů mnohorozměrné statistické analýzy a funkcionální analýzy dat. Cílem dizertační práce bude zaměřit se na některé z perspektivních směrů uvedené problematiky, například kompoziční tabulky a zobecněné lineární modely včetně možnosti bayesovského přístupu.
Seznam doporučené literatury
Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2015) Modeling and analysis of compositional data. Wiley, Chichester.
další literatura dle doporučení školitele
Seznam doporučené literatury
Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2015) Modeling and analysis of compositional data. Wiley, Chichester.
další literatura dle doporučení školitele