WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Economie et Finance

Une contribution du datamining àƒÂ la segmentation du marché et au ciblage des offres àƒÂ l'aide de la statistique de Bayes

( Télécharger le fichier original )
par samuel Kalombo
UNiversité de Kinshasa - Licence 2011

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.8.1. Analyse de données

L'analyse des données a pour but de fournir, grâce à l'ordinateur, un outil ou un ensemble de techniques permettant d'explorer le contenu de grandes bases de données en utilisant une représentation graphique facilement accessible par l'utilisateur. Pour Jambu M., l'analyse de données désigne l'ensemble des méthodes à partir desquelles on collecte, organise, résume, présente et étudie des données pour permettre d'en tirer des conclusions et de prendre des décisions. Il existe généralement deux grandes familles de méthodes d'analyse de données :

I.8.1.1 les méthodes factorielles.

Dans cette famille, on cherchera à réduire le nombre de variables en les résumant en un petit nombre de composantes synthétiques c'est-à-dire de passer d'un espace de dimension n (n>3), à un espace de dimension 3 ou 2 de préférence, dans cette catégorie nous pouvons citer :

Ø l'ACP, Analyse en Composantes Principales si les variables sont quantitatives

Ø l'AC, Analyse des Correspondances si les variables sont qualitatives, où on cherchera les liens entre les modalités

Ø l'AFC Analyse Factorielles des Correspondances (simples) dans le cas où on dispose de variables qualitatives ;

I.8.1.2 Les méthodes de classification

Dans cette famille on chercher à réduire la taille de l'ensemble des individus en les regroupant en un petit nombre de groupes homogènes en tenant compte d'un certain nombre de critères, dans cette famille, nous avons :

Ø CAH, Classification Ascendante Hiérarchique ...

Ø CDH, Classification Descendante Hiérarchique ...

Ø les méthodes de partitionnement ;

Ø L'Analyse Discriminante.

I.8.1.1.1 Analyse en composante principale

Le but de l'A.C.P est de transformer un jeu de variables corrélées en des variables non corrélées, qui, dans un contexte idéal (Gaussien) pourraient être interprétées comme des facteurs indépendants sous-jacents au phénomène. C'est pourquoi ces quantités orthogonales seront appelées «facteurs», bien que cette interprétation ne soit pas toujours parfaitement adéquate.

I.8.1.1.1.1 Principes de l'ACP

L'Analyse en Composante Principale (ACP) fait partie des analyses descriptives multivariées. Le but de cette analyse est de résumer le maximum d'informations possibles en perdant le moins possible pour :

Ø Faciliter l'interprétation d'un grand nombre de données initiales,

Ø Donner plus de sens aux données réduites

L'ACP permet donc de réduire des tableaux de grandes tailles en un petit nombre de variables (2 ou 3 généralement) tout en conservant un maximum d'information. Les variables de départ sont dites « métriques ». L'idée de l'ACP est de déterminer un nouveau repère de associé de manière naturelle à la structure du nuage considéré, de façon à pouvoir l'y examiner plus commodément.

Pour s'affranchir des effets d'échelle dus à l'hétérogénéité éventuelle des variables, ces dernières sont en général normalisées, c'est à dire que chaque colonne est divisée par son écart-type; toutes sont dès lors exprimées dans la même échelle standard.

D'autre part, l'origine est placée au centre de gravité du nuage. C'est le nuage ainsi transformé qui est en fait considéré; l'utilisateur n'a cependant pas à se préoccuper de ces transformations préalables, sauf demande contraire elles sont exécutées automatiquement par les logiciels d'ACP.

I.8.1.1.1.2 Directions principales - plans principaux et Représentation des individus

Le nuage présente généralement des directions d'allongement privilégiées, celle d'allongement maximal D₁ est dite première direction principale (axe principal) (du nuage), la suivante D₂ parmi toutes celles perpendiculaires à D1 est la seconde direction principale, la suivante D₃ parmi toutes celles perpendiculaires à D₁ et D₂ est la troisième direction principale, etc.

On choisit un vecteur unitaire sur chaque direction (le choix du sens est libre et décidé arbitrairement par le logiciel utilisé) et on obtient une base orthonormée de , c'est la base principale du nuage.

On appelle plan principal i j le plan vectoriel déterminé par les directions et . En général, le nuage est approximativement situé dans un sous-espace de de faible dimension, engendré par les premières directions principales; l'examen de ses projections sur quelques plans principaux bien choisis (12, 13, etc.) permet alors de découvrir ses particularités et de décrire sa structure assez précisément.

b) Composantes principales - représentation des variables

De même que les variables initiales sont associées aux axes canoniques de, de nouvelles variables appelées composantes principales sont associées aux axes principaux: la composante principale est le vecteur de qui donne les coordonnées des individus sur l'axe principal muni du vecteur unitaire .

Les composantes principales sont naturellement des combinaisons linéaires des variables initiales, on montre qu'elles sont centrées et non corrélées.

L'examen des corrélations entre les variables initiales et les composantes principales permet d'interpréter ces dernières et les axes principaux correspondants.

Les programmes usuels permettent de représenter ces quantités dans le cercle des corrélations. Cette représentation n'est pas de même nature que celle des individus sur les plans principaux. Et si certains logiciels superposent les deux sur les mêmes graphiques, il faut garder à l'esprit que la position des points-variables par rapport aux points-individus n'y est pas directement interprétable.

Une présentation alternative de l'ACP, privilégiant les variables mais équivalente, l'introduit comme la recherche de nouvelles variables (les composantes principales) non corrélées entre elles, et les plus corrélées avec l'ensemble des variables initiales.

Les composantes principales sont parfois vues comme des variables cachées non-observables, que la méthode permet donc de mettre en évidence derrière les variables initiales, seules observables. Elles permettent par ailleurs de résumer, par les premières d'entre elles, une information répartie sur un grand nombre de variables (cela est parfois utilisé en régression linéaire pour échapper à la multi-colinéarité).

c) Aides à l'interprétation

L'art de l'analyste est celui de l'interprétation des résultats, cela nécessite à la fois la compréhension des méthodes employées et la connaissance du domaine des données étudiées.

L'interprétation s'appuie sur l'examen de différentes quantités calculées et éditées par les logiciels d'ACP.

Inertie

Un individu i du nuage (supposé muni des poids uniformes = 1) a une inertie I(i) :

I(i) = O = O

Si est la projection de i sur l'axe principal , l'inertie de i suivant cet axe est: (i) = O

L'inertie de i se décompose en la somme de ses inerties suivant les différents axes principaux (perpendiculaires):

I(i)=

L'inertie totale suivant l'axe , est:

Et l'inertie totale du nuage est :

I= =

Les directions principales d'allongement du nuage sont en fait les directions perpendiculaires successives d'inertie maximum du nuage.

Taux d'inertie

Il s'agit des inerties successives etc. suivant les axes principaux etc. du nuage. Leurs valeurs relatives traduisent l'importance de l'allongement suivant ces directions successives. On édite les taux relatifs etc., ainsi que les taux relatifs cumulés

Lorsque ces derniers approchent 100%, on considère que l'on a assez d'axes principaux pour représenter convenablement le nuage.

Contributions des individus aux axes (CTR)

Il s'agit des ratios tels que :

CTR(i, k) = qui mesure la part prise par l'individu i dans la détermination de l'axe principal

On a:

Ces quantités sont les carrés de celles figurées dans le cercle des corrélations utilisé pour représenter graphiquement les variables.

Contributions des variables aux axes (CTR)

Il s'agit des ratios tels que:

CTR(j, k) = corr2(c_k, x.j) / S corr2(c_k, x.i)

On a: = 1

L'observation des premiers plans principaux ne permet aucune conclusion, et peut même être source de contresens, si elle ne s'accompagne pas de l'examen des quantités précédentes. Il faut donc toujours les faire éditer par le logiciel utilisé et les consulter.

I.8.1.1.1.3 Analyse des résultats d'une ACP

Analyser les résultats d'une ACP, c'est répondre à trois questions :

1. Les données sont-elles factorisables ?

2. Combien de facteurs retenir ?

3. Comment interpréter les résultats ?

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Là où il n'y a pas d'espoir, nous devons l'inventer" Albert Camus