B. Sélection du meilleur système d'axes
:
Le premier critère de sélection d'axes consiste
à choisir parmi les T systèmes d'axes trouvés celui qui
est tel que la somme des pertes d'inertie lorsque l'on projette tous les nuages
sur le système d'axe soit minimum. C'est l'indice Ö
précédemment défini qui est utilisé. Soit r une
? ?
date comprise entre 1 et T. l'indice : Ö (t, r) =
?
Mesure la perte d'inertie en pourcentage du nuage lorsqu'on le
projette sur les q
premiers facteurs principaux du nuage au lieu de le projeter sur
ses q premiers facteurs
principaux.
Ainsi, si l'on projette les T nuages , t=1...T sur le sous-espace
vectoriel engendré par les
on perd ? (. , r) = ? En moyenne :
Ce premier critère prône de choisir le
système d'axe tel que :
Ö(. , r) =
On représentera alors les trajectoires des individus dans
l'image euclidienne définie par les q axes suivants :
= pour l=1...q (facteurs principaux).
= pour l=1...q (composantes principales).
En effet, en notant ? la mesure de proximité entre les
systèmes
de facteur principaux associés aux nuages et , on peut
définir un autre critère de
choix de système d'axes. Ainsi, si l'on représente
les T nuages sur le sous-espace vectoriel
engendré par les , la qualité de la
représentation (en terme de somme des cosinus
carrés d'angles entre les axes des différents
systèmes) se mesure par la quantité :
? = ? ?
On pourrait alors choisir le système tel que : = .
C. Un second critère maximisant l'inertie
expliquée :
Notons le système recherché. Alors, l'inertie du
nuage expliquée par le
système est égale à la quantité : ?
.
Le second critère a pour objectif de maximiser
l'inertie de l'ensemble des nuages projetés, ce qui revient à
résoudre le problème d'optimisation suivant :
? ?
= ? où V=?
Chapitre II Double analyse en composantes principales
USTHB Page 16
La solution d'un tel problème est classique puisque c'est
la base de l'analyse en composantes principales, qui consiste à
rechercher des vecteurs orthogonaux maximisant l'inertie du nuage
projeté ; les sont donc les q vecteurs propres de la
matrice MV=?
associés à
ses q plus grandes valeurs propres. Quatre remarques
importantes :
1. On peut comparer ce second critère avec le
précèdent : en effet, le premier critère consiste
en fait à maximiser la fonction ø (. , r) = ?
où l'indice ø(t,r)=? Q (t)
représente le pourcentage d'inertie de expliquée
par le système
Le premier critère revient donc à rechercher,
parmi les T systèmes d'axes connus, le système
tel que la quantité :
? ?
=?
[ ?
] soit maximale.
?
?
Puisque le dénominateur dépend de t ; la
solution obtenue par le premier critère ne peut donc pas être
considérée comme un sous-optimum de celle obtenue par le
second.
2. En fait, nous suggérons de définir
là-aussi un critère supplémentaire : il consisterait
à considérer les éléments propres non plus de la
matrice MV, mais de la matrice M où est
définie par : ?
Ce critère reviendrait alors à « normer
» chaque matrice V,
?
par l'approximation d'ordre q de sa trace, cette « norme
» est sensiblement différente de celle issue du produit scalaire de
Hibert-schmidt. Cette méthode serait intéressante dans des
configurations où les objets auraient des « normes » (somme
des valeurs propres de M ) très différentes les unes des autres.
On s'inspire ainsi de la notion de « pondération des variables
» utilisée par l'analyse factorielle multiple.
En effet, dans le cas où des objets de normes
élevées influenceraient de façon considérable le
système d'axes retenu, diviser chaque objet v par sa « norme »
permettrait d'équilibrer l'influence des différents nuages dans
la construction de la nouvelle image euclidienne.
La méthode proposée, que l'on retrouve aussi
dans STATIS, fournirait des résultats différents de ceux obtenus
avec une DACP classique.
Le critère a pour but de résoudre le
problème d'optimisation suivant :
? ?
? = ? Où ?
?
La solution de ce problème est obtenue en recherchant les
q vecteurs propres de la
matrice M associés à ses q plus grandes valeurs
propres.
Chapitre II Double analyse en composantes principales
USTHB Page 17
Il apparait alors, si l'on utilise ce critère, que le
recours au premier critère n'est plus indispensable puisque ce dernier
conduit à un sous-optimum de ce critère qui est plus difficile
à mettre en oeuvre que le premier critère.
3. La matrice V est en fait la matrice d'inertie du nuage = ?
Par rapport à son origine. Le second critère conduit donc
à effectuer un ACP sur le nuage des nT individus par rapport à
leur centre de gravité et définis par les p variables.
4. Lorsque l'on considère ce second critère on
voit apparaitre plus clairement des ressemblances entre l'obtention des
trajectoires par les méthodes STATIS duale et DACP :
-d'une part, des objets normés par une norme proche de
celle issue du produit scalaire de Hibert-Schmidt se dégager de la
DACP.
-d'autre part, la recherche d'un espace commun revient
à chercher les éléments propres d'un objet V que l'on
pourrait qualifier de « matrice de variance-covariance compromis ».
Dans l'image euclidienne ainsi déterminée, on peut
représenter les positions compromis des variables, donc les
coordonnées correspondent aux corrélations moyennes des variables
avec les axes sur la période ainsi que les trajectoires des
individus.
|