Clustering dans les bases de données
Clustering dans les bases de données
Fichiers
Date
2012-06-18
Auteurs
KHATIR Nadjia
Nom de la revue
ISSN de la revue
Titre du volume
Éditeur
Résumé
La Classification non supervisée-Clustering- en Anglais est une étape importante du processus d'extraction de connaissance à partir de données (ECD). Elle vise à découvrir une structure intrinsèque d'un ensemble d'objets en formant des-Clusters- ou des regroupements qui partagent des caractéristiques similaires. L'augmentation de la dimension des données ces dernières décennies a eu des conséquences non négligeables sur les méthodes de traitement mises en œuvre. En effet, le nombre d'objets présents dans les bases de données a fortement augmenté ainsi que la taille de leurs descriptions. La santé, est un secteur où les données disponibles sont nombreuses et de nature variées (documents et rapports médicaux, fiches des patients, imagerie médicale, etc.) Ce mémoire est consacré à l'étude des méthodes et algorithmes de clustering sur des données médicales. Notre travail a pour une première contribution une plateforme pour l'application et la validation des algorithmes de clustering. La deuxième contribution réside dans l'évaluation statistique des résultats du clustering obtenus par les différents algorithmes sur des jeux de données de grande dimension d'expression des gènes. Nous proposons par la suite une méthode originale suffisamment générale basée sur les algorithmes de clustering, permettant la segmentation des images de sang microscopiques.
Description
Mots-clés
Classification non supervisée, Clustering, Données médicales, Puces à ADN, Image microscopique, Expression des gènes, Data mining, Fouille de données, Apprentissage automatique, Analyse de données