Avis de Soutenance
Madame Elen GOUJON, Soutiendra publiquement ses travaux de thèse intitulés
"Statistical approaches for multiblock data integration with confounding variation: multi-omics study in ecotoxicology"
« Approches statistiques pour l’intégration de données multiblocs en présence de variations confondantes : étude multi-omique en écotoxicologie »
sous la direction du Pr. Arthur TENENHAUS (L2S), et le co-encadrement du Dr. Imène GARALI (ASNR) et du Dr. Olivier ARMANT (ASNR).
Soutenance prévue le lundi 26 janvier à 10h00
Lieu : Auditorium de l’ASNR, 31 Avenue de la Division Leclerc, 92260 Fontenay-aux-Roses
Les personnes externes à l’ASNR seront inscrites sur une liste d’accès à l’Auditorium en amont de la soutenance, pour ce faire, merci de [remplir le sondage](https://beta.framadate.org/polls/43ce410ebfd20e8b509e, avant le 18/01/2026.)
Merci également d’apporter une pièce d’identité valide le jour J. Un plan d’accès peut être envoyé sur demande.
Lien teams , ID de la réunion : 339 562 164 583 12 / Code secret : Pk28eZ7N
Composition du jury proposé
Mots clés : Intégration de données multi-omiques, Biostatistiques, Analyse multiblocs, Ecotoxicologie, Variation confondante
Résumé : En étudiant une question biologique, les chercheurs ou chercheuses travaillent souvent avec plusieurs sources de données ou modalités, rassemblant ainsi des informations sur différents systèmes biologiques ou niveaux moléculaires. En particulier, les données multi-omiques peuvent constituer des ensembles de données multiblocs, où deux ou plus ensembles de variables sont observés sur les mêmes individus. L'étude conjointe de ces modalités permet d'obtenir des résultats plus interprétables et plus complets. Cependant, un défi méthodologique apparaît lorsque des effets de lots (dits effets batch) ou d'autres types de variations confondantes interfèrent avec l'analyse, pouvant conduire à des conclusions biaisées. Nous abordons ces problématiques dans le cadre d'une application en écotoxicologie. Notre étude de cas porte sur les effets d'une exposition chronique à de faibles doses de rayonnements ionisants chez des rainettes arboricoles de l'espèce Hyla orientalis collectées dans la zone d'exclusion de Tchornobyl en 2018. Dans cette étude, les mesures transcriptomiques et protéomiques sont influencées par le site d'échantillonnage des rainettes, d'une façon qui masque en partie les effets de la radiocontamination. Les contributions de cette thèse couvrent les deux types d'approches pour gérer les effets confondants dans des analyses omiques : correction lors du prétraitement ou inclusion directe des facteurs confondants dans le modèle. Tout d'abord, nous comparons les stratégies de correction visant à atténuer l'effet confondant dans les données RNA-seq des rainettes, à l'aide d'algorithmes de correction des effets batch, en ciblant différentes variables candidates. Ensuite, nous proposons une nouvelle méthode qui minimise la variation indésirable capturée par les composantes dans une analyse intégrative multiblocs. Cette approche s'appuie sur le cadre statistique de l'Analyse Canonique des Corrélations Généralisée Régularisée (RGCCA). Nous illustrons le champ d'application de la méthode proposée sur des données simulées et sur notre étude des rainettes. L'application aux données multi-omiques des rainettes arboricoles de la région de Tchornobyl met en évidence une signature commune entre transcriptomique et protéomique associée au débit de dose. Cette signature suggère une modulation des gènes et des protéines impliqués dans le métabolisme énergétique en fonction du gradient de radiocontamination.
Keywords: Multi-omics data integration, Biostatistics, Multiblock analysis, Ecotoxicology, Confounding variation
Abstract: When investigating a biological question, researchers often work with several data sources or modalities, thereby gathering information on different biological systems or molecular levels. In particular, multi-omics data can constitute multiblock datasets, where two or more sets of variables are observed on the same individuals. The joint study of these data modalities allows for more interpretable and comprehensive findings. However, methodological challenges arise when batch effects or other types of confounding variation interfere with the analysis, potentially leading to biased conclusions. We address these issues in an ecotoxicological application. Our case study focuses on the effects of chronic exposure to low-dose ionizing radiation in Hyla orientalis tree frogs collected from the Chornobyl Exclusion Zone in 2018. In this study, transcriptomic and proteomic measurements are affected by the frogs’ sampling sites, which partially masks the effects of radiocontamination. The contributions of this thesis span the two approaches to managing confounding effects in omics projects: correction in pre-processing or direct inclusion of confounders in the model. First, we compare correction strategies to mitigate the confounding effect in the frogs’ RNA-seq data using batch effect-correction algorithms targeting different candidate variables. Then, we propose a new method that minimizes the unwanted variation captured by components within a multiblock integration analysis. This approach relies on the statistical framework of Regularized Generalized Canonical Correlation Analysis (RGCCA). We illustrate the scope of the proposed method with simulated experiments and a focus on our tree frog study. Our application to the multi-omics data from the Chornobyl tree frogs highlights a common dose rate-associated signature across transcriptomics and proteomics, and suggests a modulation of genes and proteins involved in energy metabolism along the radiocontamination gradient.
Source : Open Agenda
0 Commentaire Soyez le premier à réagir