7. Analyse en composante principale
Le but de l'A.C.P est de transformer un jeu de variables
corrélées en des variables non corrélées, qui, dans
un contexte idéal (Gaussien) pourraient être
interprétées comme des facteurs indépendants sous-jacents
au phénomène. C'est pourquoi ces quantités orthogonales
seront appelées «facteurs», bien que cette
interprétation ne soit pas toujours parfaitement adéquate.
7.1 Principes de l'ACP
L'Analyse en Composante Principale (ACP) fait partie des
analyses descriptives multivariées. Le but de cette analyse est de
résumer le maximum d'informations possibles en perdant le moins
possible pour :
Ø Faciliter l'interprétation d'un grand nombre
de données initiales,
Ø Donner plus de sens aux données
réduites
L'ACP permet donc de réduire des tableaux de grandes
tailles en un petit nombre de variables (2 ou 3 généralement)
tout en conservant un maximum d'information. Les variables de départ
sont dites « métriques ». L'idée de l'ACP est
de déterminer un nouveau repère de associé de manière naturelle à la structure du
nuage considéré, de façon à pouvoir l'y examiner
plus commodément.
Pour s'affranchir des effets d'échelle dus à
l'hétérogénéité éventuelle des
variables, ces dernières sont en général
normalisées, c'est à dire que chaque colonne est divisée
par son écart-type; toutes sont dès lors exprimées dans la
même échelle standard.
D'autre part, l'origine est placée au centre de
gravité du nuage. C'est le nuage ainsi transformé qui est en fait
considéré; l'utilisateur n'a cependant pas à se
préoccuper de ces transformations préalables, sauf demande
contraire, elles sont exécutées automatiquement par les logiciels
d'ACP.
7.2 Directions principales - plans principaux et
Représentation des individus
Le nuage présente généralement des
directions d'allongement privilégiées, celle d'allongement
maximal D1 est dite première direction principale (axe
principal) (du nuage), la suivante D2 parmi toutes celles
perpendiculaires à D1 est la seconde direction principale, la suivante
D3 parmi toutes celles perpendiculaires à D1 et
D2 est la troisième direction principale, etc.
On choisit un vecteur unitaire sur chaque direction (le choix du sens est libre et décidé arbitrairement par
le logiciel utilisé) et on obtient une base orthonormée de , c'est la base principale du nuage.
On appelle plan principal i j le plan vectoriel
déterminé par les directions et . En général, le nuage est approximativement situé
dans un sous-espace de de faible dimension, engendré par les premières directions
principales; l'examen de ses projections sur quelques plans principaux bien
choisis (12, 13, etc.) permet alors de découvrir ses
particularités et de décrire sa structure assez
précisément.
a) Composantes principales - représentation des
variables
De même que les variables initiales sont
associées aux axes canoniques de, de nouvelles variables appelées composantes principales sont
associées aux axes principaux: la composante principale est le vecteur de qui donne les coordonnées des individus sur l'axe principal muni du vecteur unitaire .
Les composantes principales sont naturellement des
combinaisons linéaires des variables initiales, on montre qu'elles sont
centrées et non corrélées.
L'examen des corrélations entre les variables initiales
et les composantes principales permet d'interpréter ces dernières
et les axes principaux correspondants.
Inertie
Un individu i du nuage (supposé muni des poids
uniformes = 1) a une inertie I(i) :
I(i) = O = O
Si est la projection de i sur l'axe principal , l'inertie de i suivant cet axe est: (i) = O
L'inertie de i se décompose en la somme de ses inerties
suivant les différents axes principaux (perpendiculaires):
I(i)=
L'inertie totale suivant l'axe , est:
Et l'inertie totale du nuage est :
I= =
Les directions principales d'allongement du nuage sont en fait
les directions perpendiculaires successives d'inertie maximum du nuage.
Taux d'inertie
Il s'agit des inerties successives etc. suivant les axes principaux etc. du nuage. Leurs valeurs relatives traduisent l'importance de
l'allongement suivant ces directions successives. On édite les taux
relatifs etc., ainsi que les taux relatifs cumulés
Lorsque ces derniers approchent 100%, on considère que
l'on a assez d'axes principaux pour représenter convenablement le
nuage.
Contributions des axes aux individus (COR)
Il s'agit des ratios tels que:
COR(k, i) = qui mesure la qualité de la représentation de l'individu
i sur l'axe principal
On a:
Il n'est licite de commenter la position de l'individu i sur
le plan principal kh que si le ratio:
n'est pas trop faible.
La considération de ces ratios, qui sont des cosinus
carrés, n'est pertinente que pour les points pas trop proches de
l'origine. Pour ceux-ci, c'est plus leur position, centrale, que la direction
dans laquelle se manifeste leur faible éloignement, qui les
caractérise.
Contributions des individus aux axes (CTR)
Il s'agit des ratios tels que :
CTR(i, k) = qui mesure la part prise par l'individu i dans la détermination
de l'axe principal
On a:
Contributions des axes aux variables (COR)
Il s'agit des coefficients de corrélation au
carré tels que:
COR(k, j) = entre la variable initiale et la composante principale . Elles permettent comme on l'a vu de dégager la signification
des axes.
On a :
Ces quantités sont les carrés de celles
figurées dans le cercle des corrélations utilisé pour
représenter graphiquement les variables.
Contributions des variables aux axes (CTR)
Il s'agit des ratios tels que:
CTR(j, k) = corr2(ck, x.j) / S corr2(ck, x.i)
On a: = 1
L'observation des premiers plans principaux ne permet aucune
conclusion, et peut même être source de contresens, si elle ne
s'accompagne pas de l'examen des quantités précédentes. Il
faut donc toujours les faire éditer par le logiciel utilisé et
les consulter.
|