Nettoyage des données dans les bases de données distribuées

Vignette d'image
Date
2016-07-04
Auteurs
Abboura Asma
Nom de la revue
ISSN de la revue
Titre du volume
Éditeur
Université Oran1 Ahmed Ben Bella
Résumé
Nous avons abordé le problème de déduplication des réponses aux requêtes en mode online, appelé réconciliation des données, et cela par l'application des règles de réconciliation dérivées des MDs (Matching Dependencies). Pour atteindre cet objectif, nous avons complété les MDs par une fonction de réconciliation qui retourne parmi un ensemble de valeurs en conflits représentant la même entité du monde réel, les valeurs les plus consistantes. Cette fonction permet d'estimer la qualité de toutes ces valeurs afin de retourner la valeur avec la meilleure qualité, et cela en tirant profit des règles de qualité nommées dépendances fonctionnelles conditionnelles. Nous avons proposé une nouvelle classe de règles de matching, que nous avons appelées règles de réconciliation de données (Data Renconiliation Rules : DRRs). Notre méthode de réconciliation se base sur ces règles pour construire en offline un index (Index de Réconciliation des Données DRI) contenant tous les duplicatas des sources de données et leurs valeurs réconciliées. Cet index est utilisé pour accélérer la réconciliation. Nous avons travaillé sur une méthode de génération des règles de réconciliation de données, basée sur le crowdsourcing. Dans le cas de données volumineuses (Big Data) qui évoluent très rapidement, la génération manuelle de ces règles devient impossible. Ce qui explique notre proposition d'une méthode hybride (crowdsourcing-machine) qui permet à la fois d'introduire l'être humain à ce processus pour bénéficier de sa capacité d'analyse et d'automatiser la génération des règles. Le crowdsourcing nous a permis d'adapter notre approche pour les Big Data, dont les experts ne peuvent pas analyser toutes les données pour générer ces règles, car ce processus devient de plus en plus coûteux.
Description
Mots-clés
Qualité des données, Nettoyage des données, Réconciliation, Détection des duplicatas, règles de matching (MDs), Dépendances fonctionnelles conditionnelles (CFDs)
Citation