Thèses de Doctorat "Informatique"
URI permanent de cette collection
Parcourir par
Parcourir la collection Thèses de Doctorat "Informatique" par Auteur "Abboura Asma"
Voici les éléments 1 - 1 sur 1
Résultats par page
Options de tri
- ItemNettoyage des données dans les bases de données distribuées(Université Oran1 Ahmed Ben Bella, 2016-07-04) Abboura AsmaNous avons abordé le problème de déduplication des réponses aux requêtes en mode online, appelé réconciliation des données, et cela par l'application des règles de réconciliation dérivées des MDs (Matching Dependencies). Pour atteindre cet objectif, nous avons complété les MDs par une fonction de réconciliation qui retourne parmi un ensemble de valeurs en conflits représentant la même entité du monde réel, les valeurs les plus consistantes. Cette fonction permet d'estimer la qualité de toutes ces valeurs afin de retourner la valeur avec la meilleure qualité, et cela en tirant profit des règles de qualité nommées dépendances fonctionnelles conditionnelles. Nous avons proposé une nouvelle classe de règles de matching, que nous avons appelées règles de réconciliation de données (Data Renconiliation Rules : DRRs). Notre méthode de réconciliation se base sur ces règles pour construire en offline un index (Index de Réconciliation des Données DRI) contenant tous les duplicatas des sources de données et leurs valeurs réconciliées. Cet index est utilisé pour accélérer la réconciliation. Nous avons travaillé sur une méthode de génération des règles de réconciliation de données, basée sur le crowdsourcing. Dans le cas de données volumineuses (Big Data) qui évoluent très rapidement, la génération manuelle de ces règles devient impossible. Ce qui explique notre proposition d'une méthode hybride (crowdsourcing-machine) qui permet à la fois d'introduire l'être humain à ce processus pour bénéficier de sa capacité d'analyse et d'automatiser la génération des règles. Le crowdsourcing nous a permis d'adapter notre approche pour les Big Data, dont les experts ne peuvent pas analyser toutes les données pour générer ces règles, car ce processus devient de plus en plus coûteux.