Annotation fonctionnelle de gènes par datamining inter-espèces des données d’expression, appliquée aux plantes

Vignette d'image
Date
2021-10-05
Auteurs
FYAD Houda
Nom de la revue
ISSN de la revue
Titre du volume
Éditeur
Université oran1 Ahmed Ben Bella
Résumé
Ces dernières décennies, le recours à l'Extraction des Connaissances à partir des Données (ECD) et plus particulièrement à la fouille de données (FDD), a trouvé son application dans des domaines divers avec des objectifs bien spécifiques, conduisant au développement de méthodes et d'outils aidant à la découverte et à l'extraction " pertinente " d'informations pour une meilleure compréhension des domaines. En biologie contemporaine, les projets de séquençage à haut débit ne cessent de croître à un rythme quasi exponentiel produisant continuellement des flux grandissant de données notamment dans les domaines "Omics" (génomique, protéomique et transcriptomique). De fait l'essor de ces technologies et en particulier celles des microarrays, fournit des quantités gigantesques d'informations sur l'expression de milliers de gènes de tous les organismes vivants stockées dans des banques de données telles que NCBI (National Center for Biotechnology Information) et EMBL (European Molecular Biology Laboratory). Ainsi, l'application de la FDD dans un tel domaine est devenue très courante. Les méthodes de Clustering, l'une des approches de la FDD, fournissent l'opportunité d'analyser ces données d'expression en regroupant les profils de gènes co-exprimés. Il est possible d'étudier : les niveaux d'un gène dans différentes conditions expérimentales, selon le stade de développement de l'organisme ou bien la nature d'un tissu ou d'un organe. Ce regroupement de données en clusters où les gènes ayant le même comportement au cours d'une expérience donnée se retrouvent dans un même groupe et donc ayant hypothétiquement une fonction identique est la finalité de l'annotation. Cependant, la quantité et la complexité de ces informations biologiques soulèvent des questions nécessitant des investigations pour y répondre (i) Quel algorithme de Clustering est le mieux adapté à ce type de données? A l'heure actuelle, il n'y a pas de consensus car cela dépend de la nature des datasets étudiés et de ce que le chercheur a formulé comme hypothèse en utilisant cette méthode. Dans ce contexte, une première contribution est décrite à travers une comparaison de plusieurs algorithmes de Clustering évalués par différentes mesures de validité internes et de stabilité sur un ensemble de données d'expression de gènes de trois plantes modèles sous stress salin. (ii) Comment déterminer la qualité des résultats obtenus? En effet, le Clustering permet de regrouper ces profils de gènes néanmoins il nécessite optimisation et ajout de connaissances pour un résultat qui serait plus en adéquation avec la réalité biologique. Dans cette optique, une deuxième contribution est présentée à travers une nouvelle approche appelée OBKML-GO qui combine à la fois l'aspect numérique et sémantique des données d'expression. Cette approche a été évaluée par des mesures internes et externes de validité sur des benchmarks référencés d'organismes de complexité différentes.
Description
Mots-clés
Data-mining, annotation fonctionnelle, microarray, expression de gènes, Bisecting KMeans, Clustering optimisé, Indice de validité WB, Gene Ontology, OBKML-GO, plantes modèles
Citation