Statistical methods for the analysis of microbiome compositional data in HIV studies
Author
Publication date
2018-11-30Abstract
El microbioma humano participa en muchas funciones esenciales como
la digestión de alimentos y el mantenimiento del sistema inmunitario.
Alteraciones en su composición pueden afectar a la salud del individuo,
habiendo sido relacionados cambios en el microbioma con enfermedades
tales como obesidad, asma, cáncer o enfermedades cardiovasculares entre
otras.
Esta tesis está centrada en el estudio de la relación entre el microbioma
intestinal y la infección por VIH. Este interés surge debido al importante
daño que el VIH produce sobre el epitelio intestinal, el cuál contiene la
mayor parte del sistema inmunitario. Debido a este daño, los pacientes
infectados por VIH presentan una inflamación sistémica y crónica, responsable
del incremento del riesgo de padecer enfermedades no relacionadas
directamente con el SIDA. Así pues, resulta importante entender las alteraciones
en el microbioma intestinal asociadas a la infección y patogénesis
del VIH.
El análisis de los datos de microbioma resulta todo un desafio desde el punto
de vista estadístico. Dado que los datos de abundancia del microbioma
se obtienen por técnicas de secuenciación del ADN, el número total de
reads por muestra viene limitado por el número máximo de secuencias
que puede proporcionar el secuenciador. Esta limitación en el número de
reads genera fuertes dependencias entre las abundancias de las diferentes
taxas y define la naturaleza composicional de este tipo de datos. Este
hecho supone que los valores de abundancia no son informativos en sí
mismos, sino que la información la proporcionan realmente los ratios entre
distintas componentes. De ignorar la composicionalidad de los datos de
abundancia microbiana, los resultados obtenidos pueden ser confusos e
incoherentes. Así, pueden aparecer correlaciones espurias, incoherencias
subcomposicionales o incluso un incremento de los falsos positivos a la
hora de definir las diferencias entre distintos grupos de individuos. En este
contexto, presentamos dos nuevas propuestas para el estudio del microbioma
que preservan los principios del análisis de datos composicionales: los
algoritmos MiRKAT-CoDA (ponderada y sin ponderar) y selbal.
El algoritmo MiRKAT-CoDA es un método basado en distancias que permite
evaluar si existe una asociación global entre la composición microbiana
y una variable respuesta de interés. Este método es una extensión de la
Kernel machine regression dentro del ámbito del análisis de datos composicionales,
considerando una distancia subcomposicionalmente dominante
como es la distancia de Atichison. La versión ponderada de MiRKAT-
CoDA proporciona para cada variable un valor que mide la contribución de cada una de las taxas en la asociación global con la variable respuesta.
Por otra parte, el algoritmo selbal es una nueva propuesta focalizada en la
identificación de firmas microbianas asociadas a una variable de interés. El
método es novedoso debido a que en lugar de definir la firma microbiana
como una combinación lineal de un conjunto de variables, se define como
un balance entre dos grupos de taxas, una noción matemática que preserva
los principios del análisis de datos composiconales.
En resumen, las mayores aportaciones de esta tesis son dos estrategias
metodológicas diferentes: MiRKAT-CoDA (ponderada y sin ponderar) y
selbal. Estas propuestas resultan útiles para evaluar la asociación entre
microbioma y variable respuesta así como identifiar firmas microbianas,
respectivamente. Además, los resultados de esta tesis han contribuido al
avance en el estudio del papel que desempeña el microbioma intestinal en
la infección por VIH.
Document Type
Thesis
Language
English
Keywords
Sida
VIH (Virus)
Microbioma humà
Pages
196 p.
Note
Programa de Doctorat : Ciències Experimentals i Tecnologies
This item appears in the following Collection(s)
- Tesis doctorals [286]
Rights
Aquest document està subjecte a aquesta llicència Creative Commons
Except where otherwise noted, this item's license is described as http://creativecommons.org/licenses/by-nc-nd/3.0/es/