8. Analyse factorielle des correspondances
multiples
L'analyse des correspondances multiples (ACM) est une
technique de description de données qualitatives : on
considère ici n individus décrits par p variables X1, X2, .... Xp
à m1, m2,...,mp catégories. Cette méthode est
particulièrement bien adaptée à l'exploration
d'enquête où les questions sont à réponses
multiples.
Sur le plan formel il s'agit d'une application de l'analyse
des correspondances au tableau disjonctif complet des m1 + m2 +...+mp
indicatrices des catégories. Cette méthode peut être
considérée comme l'équivalent de l'analyse en composantes
principales pour les données qualitatives.
Codage des individus
Les données peuvent être rassemblées dans
un tableau de type Individus × variables. Les lignes représentent
les individus, les colonnes représentent les variables : à
l'intersection de la ligne i et de la colonne j, se trouve la valeur
xij de l'individu i pour la variable j. Naturellement, les valeurs
xij sont des codifications qui ne possèdent pas de
propriétés numériques. Si la variable j est la couleur des
yeux des individus, cette couleur peut être codifiée ainsi :
bleu = 1, blanc = 2. Il est clair que la moyenne entre bleu et blanc n'a pas de
sens numériques.
Une autre façon de présenter ces mêmes
données est de construire un tableau Disjonctif Complet (voir tableau
2.1). Dans ce tableau, les lignes représentent les individus et les
colonnes représentent les modalités des variables : à
l'intersection de la ligne i et de la colonne j on trouve xij qui
vaut 1 ou 0 selon que l'individu i possède la modalité j ou non.
L'origine de la terminologie Tableau Disjonctif Complet est la suivante :
l'ensemble des valeurs xij d'un même individu, pour les
modalités d'une même variable, comporte la valeur 1 une fois
(complet) et une fois seulement (disjonctif).
Tableau 2.1 : tableau disjonctif
complet
Il existe d'autres formes de représentation des
données : l'hyper tableau de contingence et le tableau de Burt
(tableau 2.2). Le tableau de Burt est construit en multipliant le tableau
disjonctif complet avec sa transposé T'T.
On appelle Analyse Factorielle des Correspondances Multiples
(ACM) des variables (X1, ..., Xp) relativement à l'échantillon
considéré l'AFC réalisée soit sur la matrice X
appelée tableau disjonctif complet, soit sur la matrice de Burt B (A.
Baccini et P. Besse) ( Springer, 359-368 (1996)
Tableau 2.2 : tableau de Burt
Analyse factorielle de correspondances
appliquée au Tableau Disjonctif Complet
L'analyse factorielle de correspondances (AFC) est
conçue pour traiter des tableaux de fréquences issues d'un
tableau de contingence. En revanche, si on applique les principes de l'AFC et
la métrique de khi-deux à un TDC, on aboutira aux mêmes
axes factoriels (voir Gilbert SAPORTA pour la démonstration,
Probabilité, Analyse de données et statistique 2006). Mais, dans
ce cas, ces calculs doivent être réinterprétés en
fonction de la nature particulière du tableau. Ces calculs, munis de
cette nouvelle interprétation, constituent une méthode à
part entière ; d'où l'introduction du vocale Analyse des
correspondances multiples. L'AFC d'un TDC n'est qu'une façon pratique de
réaliser les calculs, d'ailleurs incomplète puisqu'elle ignore la
notion de variables et donc ne fournit aucun résultat les concernant.
Cela étant nous suivrons cette démarche historique et commode
pour présenter l'Analyse des correspondances multiples.
Nuage des individus
Un individu est représenté par les
modalités qu'il possède. Pour calculer la distance entre deux
individus on utilise la métrique de khi-deux. Plus
précisément, la distance entre les individus i et i'
s'écrit :
Les coordonnées des points lignes (les composantes
principales) s'obtiennent en diagonalisant le produit suivant :
Avec T : le tableau disjonctif complet, D-1 la
transposée matrice des effectifs marginaux des modalités et K le
nombre des variables. Les vecteurs propres du produit seront les composantes
principales des individus.
Nuage des modalités
La modalité k est représentée par le
profil de la colonne k. les nombres du TDC ne peuvent prendre que les valeurs 0
ou 1, le profil de la colonne k ne contient à son tour que deux valeurs
possibles : 0 ou 1. La distance entre deux modalités k et h est
définie par :
Les coordonnées des variables sont les vecteurs propres
du produit suivant
Remarque : dans ce travail nous nous sommes
intéressés directement aux composantes principales pour obtenir
directement les coordonnées factorielles des profils lignes et
colonnes. Les ouvrages d'analyse des données donnent aussi les formules
pour trouver les facteurs. En analysant les facteurs et les composantes
principales on constate une parfaite symétrie entre les résultats
de deux profils. Cette symétrie conduit alors à des
représentations simultanées des deux profils sur un même
plan.
Relation des transitions
Les coordonnées des profils lignes et les
coordonnées des profils colonnes sont reliées par des formules
simples dont le premier intérêt est d'éviter de
réaliser deux diagonalisations. On diagonalisera la matrice la plus
petite.
Avec ? ?? la á nième
coordonnée des variables, Fá la á
nième coordonnée des individus et ëá
nième la á nième valeur propre. Il faut noter
que les deux diagonalisations donnent les mêmes valeurs propres.
Pratique de L'analyse factorielle des correspondances
multiples
L'interprétation des résultats d'une analyse
factorielle des correspondances multiples se fait comme une analyse factorielle
des correspondances et comme en analyse en composantes principales. On prendra
garde ici au fait que les pourcentages d'inertie n'ont qu'un
intérêt restreint. La sélection et l'interprétation
des axes factorielles se fait essentiellement à l'aide des contributions
des variables actives et des valeurs-tests associées aux variables
supplémentaires.
|