Elaboration de modèle de de thèmes logiciels automatiquement étiqueté : Approche Al-STM
Elaboration de modèle de de thèmes logiciels automatiquement étiqueté : Approche Al-STM
Fichiers
Date
2021-01-13
Auteurs
BOUZIANE Youcef
Nom de la revue
ISSN de la revue
Titre du volume
Éditeur
Université Oran1 Ahmed Ben Bella
Résumé
Les entrepôts publics de logiciels contiennent une quantité importante de données précieuses qui sont en constante croissance et qui offrent des opportunités pour soutenir le génie logiciel (GL). Les chercheurs ont appliqué des techniques de recherche d'information (IR) pour fouiller les entrepôts de logiciels (MSR). Le modèle de thème, avec sa capacité d'extraction non supervisée des structures sémantiques latentes, est l'une des techniques d' IR permettant de donner un sens aux données non structurées dans les entrepôts de logiciels en les regroupant par thème et par domaine. Cependant, cette technique ne donne aucune interprétation ni étiquette aux thèmes extraits et nécessite une analyse manuelle de leur distribution de mots pour les identifier. Certaines approches ont été proposées pour étiqueter automatiquement les thèmes à l'aide de tags issus des entrepôts de logiciels. Mais ils ne prennent pas en compte l'existence de tags spams et ils ont des difficultés à évoluer et s'adapter avec les grands espaces de tags. Dans cette thèse, nous présentons une nouvelle approche appelée modèle de thèmes logiciels automatiquement étiqueté (Al-stm). Al-stm étiquette les thèmes sur la base de tags observés sur les entrepôts de logiciel. Il atténue le problème de l'étiquetage manuel et automatique des modèles de thèmes dans le domaine du GL. Al-stm a été implémenté et entraîné sur 22K projets GitHub et évalué dans deux tâches GL. Les résultats empiriques suggèrent que Al-stm est plus robuste en termes des métriques F-mesure et nDCG (pour Normalised Discounted Cumulative Gain) et s'adapte mieux aux grands espaces d'étiquettes par rapport aux techniques actuellement utilisées
Description
Mots-clés
Modèle de thèmes logiciels, La fouille des entrepôts de logiciels, Génie logiciel, Etiquettes logicielles, Logiciels open source, Normalised Discounted Cumulative Gain, Al-stm, NER, MSR