I.8.1. Analyse de
données
L'analyse des données a pour but de fournir,
grâce à l'ordinateur, un outil ou un ensemble de techniques
permettant d'explorer le contenu de grandes bases de données en
utilisant une représentation graphique facilement accessible par
l'utilisateur. Pour Jambu M., l'analyse de données désigne
l'ensemble des méthodes à partir desquelles on collecte,
organise, résume, présente et étudie des données
pour permettre d'en tirer des conclusions et de prendre des décisions.
Il existe généralement deux grandes familles de méthodes
d'analyse de données :
I.8.1.1 les méthodes factorielles.
Dans cette famille, on cherchera à réduire le
nombre de variables en les résumant en un petit nombre de composantes
synthétiques c'est-à-dire de passer d'un espace de dimension n
(n>3), à un espace de dimension 3 ou 2 de préférence,
dans cette catégorie nous pouvons citer :
Ø l'ACP, Analyse en Composantes Principales si les
variables sont quantitatives
Ø l'AC, Analyse des Correspondances si les variables
sont qualitatives, où on cherchera les liens entre les
modalités
Ø l'AFC Analyse Factorielles des Correspondances
(simples) dans le cas où on dispose de variables qualitatives ;
I.8.1.2 Les méthodes de
classification
Dans cette famille on chercher à réduire la
taille de l'ensemble des individus en les regroupant en un petit nombre de
groupes homogènes en tenant compte d'un certain nombre de
critères, dans cette famille, nous avons :
Ø CAH, Classification Ascendante Hiérarchique
...
Ø CDH, Classification Descendante Hiérarchique
...
Ø les méthodes de partitionnement ;
Ø L'Analyse Discriminante.
I.8.1.1.1 Analyse en composante principale
Le but de l'A.C.P est de transformer un jeu de variables
corrélées en des variables non corrélées, qui, dans
un contexte idéal (Gaussien) pourraient être
interprétées comme des facteurs indépendants sous-jacents
au phénomène. C'est pourquoi ces quantités orthogonales
seront appelées «facteurs», bien que cette
interprétation ne soit pas toujours parfaitement adéquate.
I.8.1.1.1.1 Principes de l'ACP
L'Analyse en Composante Principale (ACP) fait partie des
analyses descriptives multivariées. Le but de cette analyse est de
résumer le maximum d'informations possibles en perdant le moins
possible pour :
Ø Faciliter l'interprétation d'un grand nombre
de données initiales,
Ø Donner plus de sens aux données
réduites
L'ACP permet donc de réduire des tableaux de grandes
tailles en un petit nombre de variables (2 ou 3 généralement)
tout en conservant un maximum d'information. Les variables de départ
sont dites « métriques ». L'idée de l'ACP est
de déterminer un nouveau repère de associé de manière naturelle à la structure du
nuage considéré, de façon à pouvoir l'y examiner
plus commodément.
Pour s'affranchir des effets d'échelle dus à
l'hétérogénéité éventuelle des
variables, ces dernières sont en général
normalisées, c'est à dire que chaque colonne est divisée
par son écart-type; toutes sont dès lors exprimées dans la
même échelle standard.
D'autre part, l'origine est placée au centre de
gravité du nuage. C'est le nuage ainsi transformé qui est en fait
considéré; l'utilisateur n'a cependant pas à se
préoccuper de ces transformations préalables, sauf demande
contraire elles sont exécutées automatiquement par les logiciels
d'ACP.
I.8.1.1.1.2 Directions principales - plans principaux
et Représentation des individus
Le nuage présente généralement des
directions d'allongement privilégiées, celle d'allongement
maximal D1 est dite première direction principale (axe
principal) (du nuage), la suivante D2 parmi toutes celles
perpendiculaires à D1 est la seconde direction principale, la suivante
D3 parmi toutes celles perpendiculaires à D1 et
D2 est la troisième direction principale, etc.
On choisit un vecteur unitaire sur chaque direction (le choix du sens est libre et décidé arbitrairement par
le logiciel utilisé) et on obtient une base orthonormée de , c'est la base principale du nuage.
On appelle plan principal i j le plan vectoriel
déterminé par les directions et . En général, le nuage est approximativement situé
dans un sous-espace de de faible dimension, engendré par les premières directions
principales; l'examen de ses projections sur quelques plans principaux bien
choisis (12, 13, etc.) permet alors de découvrir ses
particularités et de décrire sa structure assez
précisément.
b) Composantes principales - représentation des
variables
De même que les variables initiales sont
associées aux axes canoniques de , de nouvelles variables appelées composantes principales sont
associées aux axes principaux: la composante principale est le vecteur de qui donne les coordonnées des individus sur l'axe principal muni du vecteur unitaire .
Les composantes principales sont naturellement des
combinaisons linéaires des variables initiales, on montre qu'elles sont
centrées et non corrélées.
L'examen des corrélations entre les variables initiales
et les composantes principales permet d'interpréter ces dernières
et les axes principaux correspondants.
Les programmes usuels permettent de représenter ces
quantités dans le cercle des corrélations. Cette
représentation n'est pas de même nature que celle des individus
sur les plans principaux. Et si certains logiciels superposent les deux sur les
mêmes graphiques, il faut garder à l'esprit que la position des
points-variables par rapport aux points-individus n'y est pas directement
interprétable.
Une présentation alternative de l'ACP,
privilégiant les variables mais équivalente, l'introduit comme la
recherche de nouvelles variables (les composantes principales) non
corrélées entre elles, et les plus corrélées avec
l'ensemble des variables initiales.
Les composantes principales sont parfois vues comme des
variables cachées non-observables, que la méthode permet donc de
mettre en évidence derrière les variables initiales, seules
observables. Elles permettent par ailleurs de résumer, par les
premières d'entre elles, une information répartie sur un grand
nombre de variables (cela est parfois utilisé en régression
linéaire pour échapper à la
multi-colinéarité).
c) Aides à l'interprétation
L'art de l'analyste est celui de l'interprétation des
résultats, cela nécessite à la fois la
compréhension des méthodes employées et la connaissance du
domaine des données étudiées.
L'interprétation s'appuie sur l'examen de
différentes quantités calculées et éditées
par les logiciels d'ACP.

Inertie
Un individu i du nuage (supposé muni des poids
uniformes = 1) a une inertie I(i) :
I(i) = O = O
Si est la projection de i sur l'axe principal , l'inertie de i suivant cet axe est: (i) = O
L'inertie de i se décompose en la somme de ses inerties
suivant les différents axes principaux (perpendiculaires):
I(i)= 
L'inertie totale suivant l'axe , est:

Et l'inertie totale du nuage est :
I= = 
Les directions principales d'allongement du nuage sont en fait
les directions perpendiculaires successives d'inertie maximum du nuage.
Taux d'inertie
Il s'agit des inerties successives etc. suivant les axes principaux etc. du nuage. Leurs valeurs relatives traduisent l'importance de
l'allongement suivant ces directions successives. On édite les taux
relatifs etc., ainsi que les taux relatifs cumulés 
Lorsque ces derniers approchent 100%, on considère que
l'on a assez d'axes principaux pour représenter convenablement le
nuage.
Contributions des individus aux axes (CTR)
Il s'agit des ratios tels que :
CTR(i, k) = qui mesure la part prise par l'individu i dans la détermination
de l'axe principal 
On a: 
Ces quantités sont les carrés de celles
figurées dans le cercle des corrélations utilisé pour
représenter graphiquement les variables.
Contributions des variables aux axes (CTR)
Il s'agit des ratios tels que:
CTR(j, k) = corr2(ck, x.j) / S corr2(ck, x.i)
On a: = 1
L'observation des premiers plans principaux ne permet aucune
conclusion, et peut même être source de contresens, si elle ne
s'accompagne pas de l'examen des quantités précédentes. Il
faut donc toujours les faire éditer par le logiciel utilisé et
les consulter.
I.8.1.1.1.3 Analyse des résultats d'une
ACP
Analyser les résultats d'une ACP, c'est répondre
à trois questions :
1. Les données sont-elles factorisables ?
2. Combien de facteurs retenir ?
3. Comment interpréter les résultats ?
|