WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse et détection de l'attrition dans une entreprise de télécommunication

( Télécharger le fichier original )
par Séraphin LOHAMBA OMATOKO
Université Notre Dame du Kasayi - Licencié en sciences informatique/Génie Logiciel 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy
b. Préparer les données pour l'analyse

Après le travail de repérage et d'identification décrit dans l'étape précédente, il faut préparer les données pour l'analyse. Cette étape est de loin la plus importante car la qualité des résultats obtenus est très fortement liée à la qualité de cette préparation.

On distinguera plusieurs étapes dans cette préparation : regrouper les données et les transformer. Enfin, distribuer les donnée

1°) Regrouper les données et les transformer

C'est la première étape qui consiste à regrouper, rapatrier, transcoder, transformer les données. Il faut faire face aux incompatibilités entre les différents systèmes informatiques de l'entreprise, importer les données externes, regrouper l'ensemble dans un format propice à l'exploitation par une application de data mining.

Parfois, on souhaitera agréger les données ou les regrouper.

Enfin, il est souvent utile de rajouter des champs supplémentaires, issus de résultats de calculs ou transformations depuis des champs existants. Ceci est particulièrement vrai si l'on cherche des relations entre champs ou pour suivre des évolutions dans le temps. A titre d'exemple, on pourrait citer :

-Index d'obésité = taille ² / poids

-Densité = population / surface

Ces travaux sont prévus voire automatisés dans le cadre de la mise en oeuvre d'un data warehouse.

2°) Distribuer les données

Une fois les données obtenues, il va falloir les distribuer en trois parties :

-Ensemble d'apprentissage

-Ensemble de test

-Ensemble d'évaluation

Ces trois ensembles devront être distincts (n'avoir aucun enregistrement en commun)

L'ensemble d'apprentissage est utilisé pour construire le modèle initial. C'est depuis cet ensemble que le système va calculer ses différents paramètres.

Une fois les paramètres calculés, il faut vérifier comment ils se comportent sur l'ensemble de test. Celui-ci va permettre d'ajuster les valeurs trouvées à l'étape précédente et les rendre moins sensibles à l'ensemble d'apprentissage.

Enfin, les paramètres seront testés sur l'ensemble d'évaluation. Si les résultats obtenus sont proches de ceux attendus, on pourra alors valider le système. Dans le cas contraire, il faudra analyser les raisons de cette différence. Pour mesurer la validité des résultats obtenus, on utilisera les outils statistiques traditionnels (le khi2 par exemple).

Il faut cependant respecter quelques règles :

Dans une analyse statistique traditionnelle, il est fréquent de choisir les variables à analyser pour tenter par exemple de déterminer la corrélation de l'une par rapport à une autre. De même, on supprime souvent certains champs trop complexes ou insuffisamment alimentés (valeurs absentes). Dans une approche de data mining, il est préférable de soumettre l'ensemble des données et laisser l'outil déterminer lui-même les données utiles car les champs absents ou complexes peuvent déboucher sur des connaissances importantes.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein