II.4 DOMAINE D'APPLICATION DE L'ANALYSE FACTORIELLE DE
CORRESPONDANCE (AFC)
L'analyse factorielle de correspondance est une méthode
adaptée au tableau de contingence et permet d'étudier les
éventuelles relations existantes entre deux variables nominales. C'est
une méthode de description des données qualitatives et part d'un
tableau rectangulaire et tente de résoudre les problèmes suivant
:
- Quelle est l'entreprise de téléphonie mobile
répond efficacement aux besoins de la communication dans la ville de
Lubumbashi ?
- Pourquoi la préférence d'une maison plutôt
qu'une autre ; ou encore pourquoi seulement tel et tel autre réseau de
téléphonie mobile ?
Notons que l'analyse factorielle de correspondance multiple est
une analyse de correspondance factorielle appliquée non plus a un
tableau de contingence plutôt a un tableau disjonctif complet.
Ainsi pour répondre a ces questions, nous devons d'abords
transformer le tableau des données brutes en tableau des
fréquences fij, appliqué non pas a un tableau de
contingence mais a un tableau disjonctif complet.
a) Tableau des fréquences
A partir du tableau x, on peut définir celui des
fréquences y :
~
Y= ~ ~
1 ...
De même on définit :
~
k
k=
=
j= = =
b) Tableau de contingence
Soient deux variables quantitatives minimales, la
première à n modalités (i=1, 2,3,..., n) et la
deuxième a p modalités (j=1, 2,3,..., p) caractérisant N
individus. Le tableau de contingence se définit :
1 ~ X= ~ ~ 1 ~
Ou kij représente le nombre d'individus qui
présente simultanément les
modalités i de la première variable et j de la
deuxième. Face à un tel tableau des données, l'analyse
factorielle de correspondance cherche a étudier les proximités
entre les modalités de la première variable (modalité en
ligne) et celle de la deuxième (modalité en colonne).
Contrairement à ce qui se passe dans le tableau de mesure, les lignes et
les colonnes jouent un rôle symétrique, on posera :
Ki=
|
~
|
i=1,
|
2,
|
3... k
|
Kj=
|
~
|
i=1,
|
2,
|
3... p
|
D'autre part on a:
=
~ = ~ =N
c) Tableau connexe de contingence :
1) Tableau de mesures homogènes
Ce sont des tableaux de mesure de même unités,
l'ensemble I est un ensemble d'individus ; l'ensemble j est un système
de mesure choisi de sorte que la ieme soit une description
satisfaisante d'individus i pour la même unité de mesure.
2) Tableau de note d'intensité
C'est un tableau ou kij est une note
d'intensité, de mérite, ou de
préférence de l'individu i en la matrice ou en
objet j. les notes d'une colonne j étant toute comprises entre 0 et une
borne supérieur qui est la même pour toute les colonnes du
tableau.
3) Tableau de description logistique
C'est un cas particulier du tableau des notes d'intensités
ou la borne supérieure est égale a 1 avec 0 qui est l'absence et
1 la présence c'est-adire kij :
- 0 si l'individu i ne possède pas la
propriété j ;
- 1 si l'individu i a la propriété j ou vice
versa.
Dans ce cas, on recourt au dédoublement du tableau et on
dit que le
tableau de description logique est sous forme disjonctive
complète presque chaque individu i possède dans chaque classe de
j une et une seul propriété.
Soit le tableau des données kij= {kij|i I, j J}
des nombres positifs (tableau de contingence).
Soit la loi ij définie par ij={ ij|i I, j J}
Ou ij=kij|k avec k=?kij et les lois marginales :
i= { i|i I} ou i=? ij sur I j= { j|j J} ou j=?
ij sur J
Etant donnée une loi conjointe et les lois marginales,
on peut calculer les lois conditionnelles définissant deux transitions
probabilistes i|j de i vers j et j|i de j vers i.
i|j= { i|j|j J} ou i|j= { i|j|i I} avec ij=
: loi conditionnelle de i pour j données. i|j
est le profil de la modalité J sur I.
De même :
j|i= { ij|i I} ou i|j= { j|i|j J} avec ij=
: loi conditionnelle de j pour I données. j|i
est le profil de la modalité I sur J.
Ainsi les ensembles des modalités i et j jouent des
rôles symétriques. Alors on a :
- Soit le nuage N(I)= { ij|i I} des lois conditionnelles ou des
profils
affectés des masses i dans Rp. donc
N(I)= { j|i, i|? i=1}
- Ou encore, on a le message N(I)= { i|j|j J} affectés des
masses i dans Rn et le but de l'analyse factorielle de
correspondance est d'étudier la structure de dépendance
c'est-a-dire les profils de deux espaces de caractères en correspondance
et voir les proximités entre les différentes modalités.
4) Tableau disjonctif complet
Partant du tableau de données x, on construit le tableau Z
à n lignes et p colonnes décrivant les S réponses de n
individus par un codage binaires.
Le tableau Z= {z1, z2, z3,..., Zn}.
Le sous tableau Zq= (n, pq) décrit
la question q, le terme général du tableau disjonctif complet
:
Zij i, e e a a a e
,
? zij=zi=S
? zij= zj= les individus qui ont choisit la modalité j a
la question q
Pour chaque sous tableau, on a Zq= ?zj=n
L'effectif total du tableau Z est Z= qui représente
la somme des marges.
5) Tableau de BURT
On le construit à partir du tableau disjonctif complet Z,
le tableau
symétrique B (p, p) d'ordre pxp qui rassemble le
croisement 2x2 de toutes les variables.
Le terme général de B = ~ ~ B est le tableau de
contingence BURT associé au tableau disjonctif complet Z.
B est une juxtaposition des tableaux des contingences.
P1
|
Pq
|
Ps
|
|
|
|
|
|
|
Z1
0,00
|
Zq
100
|
Zs
0000
|
Z (n, p)=
P1
|
|
Pq
|
|
ps
|
|
0
|
0
|
II
|
|
II
|
|
II
|
|
0
|
0
|
II
|
|
II
|
|
II
|
|
0
|
0
|
Le terme général de B s'écrit :
B?bjj'=
~ (les marges sont le plus souvent les modalités des
réponses a des questions).
|