Détection de courriels indésirables par apprentissage automatique
Détection de courriels indésirables par apprentissage automatique
Fichiers
Date
2012-06-21
Auteurs
BARIGOU Baya Naouel
Nom de la revue
ISSN de la revue
Titre du volume
Éditeur
Résumé
Le Courrier électronique rend vraiment service aux usagers, c'est un moyen rapide et économique pour échanger des informations. Cependant, les utilisateurs se retrouvent assez vite submergés de quantités de messages indésirables appelé aussi spam. En effet, le spam est rapidement devenu un problème majeur sur Internet. Pour faire face à cette charge croissante de ce type de courriels, plusieurs techniques de détection de spam ont vu le jour. Dans ce mémoire, nous nous intéressons aux techniques à base d'apprentissage automatique. Dans un premier temps, nous étudions une nouvelle approche d'induction symbolique à base d'automate cellulaire dans le domaine du filtrage de spam nommée SPAMAUT. Point de vu méthodologique, nous explorons toutes les phases du processus à savoir, le prétraitement linguistique et la sélection des attributs pour la représentation numérique des données textuelles, l'apprentissage supervisé pour la construction d'un classifieur de détection de spam. Nous examinons, par des expériences sur le corpus LingSpam, l'impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT.
Description
Mots-clés
Catégorisation de textes, Représentation vectorielle des données textuelles, Sélection des attributs, Apprentissage automatique, Apprentissage supervisé, Automate cellulaire, Combinaison de classifieurs, Filtrage des spam, Combinaison des classifieurs par vote, Machine cellulaire pour le filtrage