Séminaire (organisé par l’équipe de recherche DI)

Mélina GALLOPIN

Université Paris-Sud, INRA


Classification et inférence de réseaux pour les données RNA-seq


Mardi 26 janvier 2016 à 14 h en salle GI041

Résumé :

Cette présentation regroupe des contributions méthodologiques à l’analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d’échantillons disponibles, limité par le coût financier du séquençage.

Une première partie de la présentation porte sur la classification à l’aide de modèles de mélange. L’objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l’aide d’un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l’obtention de classes biologiquement interprétables. Il n’est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l’aide de modèles de mélange visant à enrichir les bases de données d’annotations fonctionnelles des gènes.

Une seconde partie de la présentation porte sur l’inférence de réseau à l’aide d’un modèle graphique. L’objectif de l’inférence de réseau est la détection des relations de dépendance entre les niveaux d’expression des gènes. Nous proposons un modèle d’inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d’inférence de réseau nécessitent un nombre d’échantillons élevé. Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n’est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d’inférence de réseau basé sur le modèle graphique gaussien.



Actualités
Vidéothèque
Téléchargements
Annuaire



FR SHIC 3272

Collegium UTC/CNRS