I.2 L'analyse factorielle des correspondances,
L' analyse factorielle des correspondances (en sigle
AFC)est une méthode statistique d'analyse des données mise au
point par Jean-Paul Benzecri à l'Université Pierre-et-MarieCurie
à Paris (ISUP et Laboratoire de statistique
multidimensionnelle).
La technique de l'AFC est essentiellement
utilisée pour de grands tableaux de données toutes comparables
entre elles (si possible exprimées toutes dans la même
unité, comme une monnaie, une dimension, une fréquence ou toute
autre grandeur mesurable). L'AFC sert à déterminer et à
hiérarchiser toutes les dépendances entre les lignes et les
colonnes du tableau.
Le principe de ces méthodes est de partir sans
a priori sur les données et de les décrire en analysant la
hiérarchisation de l'information présente dans les
données. Pour ce faire, les analyses factorielles étudient
l'inertie du nuage de points ayant pour coordonnées les valeurs
présentes sur les lignes du tableau de données.
La "morphologie du nuage" et la répartition des
points sur chacun de ces axes d'inertie permettent alors, de rendre lisible et
hiérarchisée l'information contenue dans le tableau.
Mathématiquement, après avoir centré et réduit le
tableau de données et que l'on a affecté d'un système de
masse (par exemple, les sommes marginales de chaque ligne), on calcule la
matrice d'inertie associée et on la diagonalise (la répartition
de l'information selon les différents axes est représentée
par l'histogramme des valeurs propres). On effectue alors un changement de base
selon ses vecteurs propres, c'est-à-dire selon les axes principaux
d'inertie du nuage de points. On projette alors les points figurant chaque
ligne sur les nouveaux axes. L'ensemble de l'information est conservée,
mais celle-ci est maintenant hiérarchisée, axe d'inertie par axe
d'inertie. L'histogramme des valeurs propres permet de voir le type de
répartition de l'information entre les différents axes et
l'étendue en dimension de celle-ci.
Le premier axe d'inertie oppose les points,
c'est-à-dire les lignes du tableau ayant les plus grandes distances ou
"différences". La première valeur propre d'inertie,
(associée à ce premier axe) mesure la quantité
d'information présente le long de cet axe, c'est-à-dire dans
cette opposition.
Plusieurs méthodes d'analyse des
correspondances existent, qui diffèrent par le type de
représentation de l'information, c'est-à-dire de métrique,
ou de système de masse qu'elles utilisent.
Le but de l'AFC est de mettre en évidence les
relations de dépendance ou d'indépendance de deux
modalités étudiés et mesurer à l'aide du
x2 ; d'une part la ressemblance entre profils lignes et d'autre part
la ressemblance entre profilscolonnes.
Le x2 permet de mesurer l'intensité de
la liaison entre les deux nuages de variables.
I.2.1 Distance entre les profils, Métrique du x2
Chaque ligne du tableau des fréquences lignes
peut être vue comme la liste des coordonnées d'un point dans un
espace à q dimensions. On obtient ainsi le nuage des individuslignes. On
définit de même le nuage des individus-colonnes à partir du
tableau des fréquences colonnes. Comme en ACP, on s'intéresse
alors aux directions de "plus grande dispersion" de chacun de ces nuages de
points. Mais, pour mesurer la "distance" entre deux individus, on utilise la
Métrique du x2.
La distance du x2 entre la ligne i et la ligne
i' est ainsi définie par :
(flpI -
f1p'I)2
I
dX2(L1, L1') = q.
I
La ressemblance entre le profil colonne j et le profil
colonne 1 est mesuré par :
dx2(PCJ, PC~9 = >.1
1
|
1
(%1
|
- %l
)2
|
f f~
|
%~
|
|