Annexe D : Aperçu sur l'analyse factorielle :
AFC, ACM et ACH
D.1 L'AFC
Encadré D1 : l'
AFC
L'analyse des correspondances binaires (ACORBI) ou analyse
factorielle des correspondances (AFC) permet d'étudier la
dépendance de 2 variables qualitatives. Elle est basée sur une
décomposition du Chi-Deux de contingence. Elle s'applique par excellence
aux tableaux de contingence (dits aussi tableaux de dépendance ou
tableaux croisés) formés d'individus décrits par 2
caractères qualitatifs. Une AFC sur un tableau de contingence se
justifie si : (i) on est intéressé par l'analyse des relations
entre les catégories de l'une et l'autre variable (ii) on dispose au
moins 3 modalités par variable et suffisamment bien remplies (par
regroupement au besoin)
· L'AFC est simultanément une analyse des
profils-lignes et des profils-colonnes. La métrique utilisée pour
mesurer la proximité entre deux individus est la distance du Chi-Deux.
L'objectif de l'AFC est de résumer et de décrire les liens entre
les profils-lignes et les profils-colonnes puis mettre en relief les
proximités entre les profils- lignes, entre profils-colonnes et la
nature de la liaison entre les lignes et les colonnes ;
· La qualité globale de la représentation
du nuage initial par le sous-espace de dimension q
[1 = q = r = inf( n - 1, p
- 1)] est mesurée par le pourcentage d'inertie pris en compte par les q
premiers axes factoriels
définissant ce sous-espacers non corrélés.
Cela signifie que la valeur de l'inertie totale (somme des valeurs propres) est
un indicateur de la dispersion du nuage et mesure la liaison entre 2
variables A et B, et avant toute interprétation, il faut s'assurer que
le
÷observé 2
dans la table de contingence est suffisamment grand et
supérieur au point critique X
( n - 1),( p- 1)(1 - á) pour
que la liaison
entre les deux variables qualitatives A et B soit jugée
significative. C'est seulement dans une telle circonstance qu'exhiber
l'AFC interviendra utilement, pour décrire cette dépendance
entre lignes et colonnes du tableau de contingence ; On rappelle
que
|
2
|
|
( o ij t
-
|
2
|
k i kj
, avec : oaf = : effectif observé ;
t.. =
k : effectif théorique d'indépendance ; i
=
|
÷
observé
|
i , j L tai
|
|
1,...,n ; j = 1,...,p et k : l'effectif total de la table de
contingence.
Source : Cléophas
Ondo, Cours analyse des données, IAS 3, ISSEA-2007 ; LEBART L. et al
(1994)
D.2 L'ACM
Les travaux de l'ACM sont dus à Guttman (1941) et
à Benzécri (1973). L'ACM généralise
l'AFC et permet de représenter sur le même
graphique les modalités de réponses de plus de 2 variables. Elle
permet de décrire de vastes tableaux binaires. Elle s'applique à
un tableau disjonctif complet (qui présente en ligne les individus et en
colonne les modalités des variables qualitatives retenues, les cases
d'intersection comportant la valeur 1 si l'individu répond au
critère en colonne et 0 dans le cas contraire) ou à un tableau de
Burt. Le choix la dimension q du sous-espace de projection est
révélé soit par le critère du coude de Cattell
(décrochement ou décroissance des 1 ères valeurs propres)
soit le critère de Kaiser, et très souvent par la règle de
la valeur propre
supérieure à la moyenne des valeurs propres (
ëá ? 1 ). Notons qu'en ACM, une variable
continue
p
n'est active que si elle est rendue nominale
(découpée en classes ou recodée selon 2 colonnes
numériques)
Encadré D2 : Indices
d'aide à l'interprétation en ACM
La contribution relative d'un axe à un individu
: elle représente la qualité de la représentation
d'un individu par le sous-espace qui ajuste le nuage initial. Elle se mesure
par l'indice CO2 ; le cosinus carré de l'angle formé par
l'individu i et l'axe factoriel. Si CO2 est proche de 1, l'individu est bien
représenté sur cet axe, si au contraire CO2 est proche de 0,
l'individu i est très mal représenté sur cet axe. On peut
généraliser cette notion en passant d'un axe à un
sous-espace généré par les q premiers axes factoriels.
? La contribution relative du sous-espace
généré par les q premiers axes factoriels : elle
est désignée par QLT. Si un point est bien
représenté sur un sous-espace à q dimensions
(c'est-à-dire, QLT 1), on en déduira qu'il est inutile
de chercher à améliorer la représentation de ce point par
la prise en compte d'autres axes factoriels ;
? La contribution relative d'un individu à un axe
: on dispose pour la mesurer d'un indice désigné CTR. La
somme des CTR vaut 1 et une modalité est d'autant plus importante dans
la construction du á ième axe factoriel que son CTR est
élevée ; Remarques
? La faible part de la variance (inertie) expliquée sur
les premiers axes est une caractéristique de l'ACM qui donne
généralement des mesures pessimistes de l'information extraite
;
? L'ACM présente une propriété
particulière redevable à la nature même du tableau
disjonctif complet. En effet, elle met en évidence des types d'individus
ayant des profils semblables quant aux attributs choisis ;
? On exprime : (i) la proximité entre individus en
terme de ressemblances : deux individus se ressemblent s'ils ont choisi
globalement les mêmes modalités ; (ii) la proximité entre
modalités de variables différentes en terme d'association : ces
modalités sont proches si elles concernent globalement les mêmes
individus (individus semblables) ; (iii) la proximité entre 2
modalités d'une même variable en terme de ressemblance : par
construction, les modalités d'une même variable s'excluent et si
elles sont proches, cette proximité s'interprète en terme de
ressemblance entre les groupes d'individus qui les ont choisies
(vis-à-vis d'autres variables actives de l'analyse) ;
? L'inertie totale est donnée par Ito tale =
J-1 et exprime le nombre moyen des J modalités par
les p variablesp
actives, diminué d'une unité. Dépendant
uniquement du nombre de variables et de modalités et non des liaisons
entre les variables, elle n'a donc pas de signification statistique. Mais
contrairement à cette somme des valeurs propres (inertie totale) qui n'a
pas de sens statistique, la somme des carrés des valeurs propres est un
indicateur de liaison entre variables : elle est d'autant plus
élevée que les liaisons sont plus fortes ;
Source : LEBART L. et al (1994).
|
D.3 La classification
Pourquoi une classification ? (i) Il est toujours difficile
d'interpréter les axes factoriels au-
delà du plan factoriel ; (ii) la compression excessive
de l'espace de projection peut entraîner des distorsions fâcheuses
et des superpositions de points occupant des positions distinctes dans l'espace
;(iii) les visualisations peuvent manquer de robustesse et (iv) les
visualisations peuvent concerner des milliers de points et donner lieu à
des graphiques illisibles. D'où la nécessité d'une
classification ; méthode robuste en ce sens que, les parties basses des
dendrogrammes produits sont indépendantes des éventuels points
marginaux isolés.
Encadré D.3 :
l'ACH
La technique de classification fournit une autre forme de
synthèse des données qu'une analyse factorielle. Elle constitue
des classes homogènes d'individus, les classes étant distinctes
les unes des autres le plus probable relativement aux variables
considérées. Les individus qui se ressemblent au niveau des
variables actives sont rassemblés dans une même classe et la
synthèse de toute l'information contenue dans le tableau de
données se ramène alors à la caractérisation de ce
petit nombre de classes homogènes. Il s'agit d'une classification sur
facteurs issus de l'AFC ou de l'ACM. Elle revient à créer une
variable qualitative qui correspond à l'appartenance à une classe
; SPAD propose la classification hiérarchique (CAH/RECIP) qui fournit
une hiérarchie de partitions, et la méthode d'agrégation
autour de centres mobiles qui conduit directement à une seule
partition.
n La méthode de classification sur les facteurs de
SPAD effectue une classification des individus à partir d'un ensemble de
p variables (ou p facteurs) issus d'une analyse factorielle préalable.
Elle est effectuée selon le critère de Ward.. L'arbre
d'agrégation appelé dendrogramme ainsi créé peut
ensuite être coupé en un nombre donné
d'éléments «terminaux»où les individus sont
regroupés selon une hiérarchie H de façon ascendante : on
regroupe les individus les plus proches et on recommence pour les n-1 points
suivants... On produit donc une suite de partitions emboîtées ;
n L'Indice de niveau donne la valeur de l'indice
d'agrégation de chaque noeud et mesure, au sens de Ward, la
dissimilarité entre les classes. Et le choix du niveau de coupure du
dendrogramme, et donc, du nombre de classes de la partition n'étant pas
toujours facilité par simple inspection visuelle, sera fait par examen
de l'histogramme des indices croissants de niveau, en réalisant la
coupure après agrégation correspondant à des valeurs peu
élevées qui regroupent les éléments les plus
proches à des valeurs élevées de l'indice, qui dissocient,
les groupes bien distincts dans la population (coupure au niveau pour lequel
cet histogramme marque un palier important). La CAH présente l'avantage
de laisser libre le choix du nombre de classes qui est imposé avec la
méthode des centres mobiles. De plus, elle est déterministe.
Source : LEBART L. et al (1994) ; Notes de cours IAS
3, ISSEA-2006/2007, Analyse des données.
|
Annexe E : Résultats additionnels de l'ICP et
partitionnement en 2 classes
Source : Travaux de I'auteur sur I'EDSC-I
2005
E.1 : Figure 4.E.1 : Représentation simultanée des
individus et des variables sur le plan (1,2)
Tableau 4.E.2 : Description de la coupure de l'arbre en 2 classes
et caractéristiques par les modalités
CLASSE 1 / 2 («Pauvres»)
V.TEST PROBA POURC MODALITES IDEN POURC POIDS
MOD/CLA CARACTERISTIQUES DE LA VARIABLE MOD/ENS
CLASSE 2 / 2 («Non-pauvres» ou «Riches»)
V.TEST PROBA POURC MODALITES IDEN POURC POIDS
MOD/CLA CARACTERISTIQUES DE LA VARIABLE MOD/ENS
LA CLASSE : CLASSE 1 / 2 CONTIENT ... aa1a 42.2 1827
0.57 0.284 99.3% de Allaité Allaitement au sein ALL1 99.2
4290
- 2.62 0.004 99.3% de VPOL VaccinationPOLIO POL1 99.6 4309
- 3.96 0.000 98.6% de VBCG VaccinationBCG BCG1 99.3 4294
- 5.57 0.000 97.0% de VDTCoq VaccinationDTCOQ DTC1 98.3 4254
- 3.53 0.000 96.9% de NVRoug VaccinationROUGeole ROU2 97.9
4234
56.84 0.000 95.1% de SolTrad Nature du sol SOL2 48.3 2091
0.80 0.213 95.1% de sévèremt malnutris Indice
taillepourâge TAG1 94.7 4098
- 3.98 0.000 89.3% de VitaminéA Vitamine VIT1 91.4
3952
33.96 0.000 76.2% de MursTrad Nature des murs MUR2 46.7 2022
3.91 0.000 73.0% de WCTrad Sanitaires W 69.8 3020
45.88 0.000 72.0% de Puits/ForInsalubres Principale source
d'eau EAU4 34.6 1497
- 5.20 0.000 69.7% de Sel>15PPM Iodation du sel SEL3 73.8
3192
- 4.03 0.000 64.0% de WCCollectif Gestion des sanitaires GWC1
67.4 2917
10.72 0.000 61.6% de >30mn Temps pour approv en eau TEM2
52.1 2252
- 40.21 0.000 55.9% de ToitMod Nature du toit TOI1 81.3 3519
- 0.40 0.346 54.4% de IPL2-3 Indice de peuplement du logement
IPL2 54.8 2370
45.19 0.000 52.5% de Pluspauvre Indice de Richesse du
Ménage IRM1 22.2 960
40.15 0.000 44.0% de ToitTrad Nature du toit TOI2 18.6 805
0.22 0.413 43.7% de IPL>3 Indice de peuplement du logement
IPL3 43.5 1880
30.43 0.000 39.0% de Pauvre Indice de Richesse du Ménage
IRM2 18.6 804
- 10.78 0.000 37.2% de <=30mn Temps pour approv en eau TEM3
46.7 2021
4.03 0.000 36.0% de WCPrivé Gestion des sanitaires GW
32.6 1409
22.99 0.000 26.4% de SansWC Sanitaires WC3 12.9 560
- 36.22 0.000 20.4% de MursMod Nature des murs MUR1 51.7 2237
4.94 0.000 16.1% de SelOPPM Iodation du sel SEL1 13.1 566
1.78 0.037 14.2% de Sel<15PPM Iodation du sel SEL2 13.1
568
5.77 0.000 12.5% de Puits/ForSalubres Principale source d'eau
EAU3 9.4 408
3.98 0.000 10.7% de NVitaminéA Vitamine VIT2 8.6 374
- 47.38 0.000 10.6% de Robinet Principale source d'eau EAU2 50.6
2187
- 20.75 0.000 8.1% de Moyenpauvre Indice de Richesse du
Ménage IRM3 22.9 990
- 0.80 0.213 4.9% de malnutris Indice taillepourâge TAG2
5.3 228
- 56.16 0.000 4.8% de SolMod Nature du sol SOL1 50.9 2204
- 2.31 0.010 3.6% de AutresEaux Principale source d'eau EAU5 4.5
194
0.00 0.500 3.4% de AutresMurs Nature des murs MUR3 1.5 67
3.53 0.000 3.1% de VRoug VaccinationROUGeole ROU1 2.1 92
0.00 0.500 3.0% de NVDTCoq VaccinationDTCOQ DT 1.7 72
0.00 0.500 1.9% de ipl0-1 Indice de peuplement du logement IPL1
1.8 76
0.00 0.500 1.4% de NVBCG VaccinationBCG BCG2 0.7 32
0.00 0.500 1.4% de Citerne/Bouteilles Principale source d'eau
EAU1 0.9 40
0.00 0.500 1.3% de Surplace Temps pour approv en eau TEM1 1.2
53
0.00 0.500 0.7% de NVPOL VaccinationPOLIO POL2 0.4 17
0.00 0.500 0.7% de NonAllaité Allaitement au sein ALL2
0.8 36
- 28.48 0.000 0.6% de WCMod Sanitaires WC1 17.2 746
- 32.46 0.000 0.3% de Riche Indice de Richesse du Ménage
IRM4 20.4 883
0.00 0.500 0.2% de AutreSol Nature du sol SOL3 0.7 31
0.00 0.500 0.1% de AutreToit Nature du toit TOI3 0.0 2
- 29.02 0.000 0.0% de Plus riche Indice de Richesse du
Ménage IRM5 15.9 689
LA CLASSE : CLASSE 2 / 2 CONTIENT ... aa2a 57.8 2499
40.21 0.000 99.9% de ToitMod Nature du toit TOI1 81.3 3519
2.62 0.004 99.8% de VPOL VaccinationPOLIO POL1 99.6 4309
3.96 0.000 99.7% de VBCG VaccinationBCG BCG1 99.3 4294
5.57 0.000 99.3% de VDTCoq VaccinationDTCOQ DTC1 98.3 4254
- 0.57 0.284 99.1% de Allaité Allaitement au sein ALL1
99.2 4290
3.53 0.000 98.6% de NVRoug VaccinationROUGeole ROU2 97.9 4234
- 0.80 0.213 94.5% de sévèremt malnutris Indice
taillepourâge TAG1 94.7 4098
3.98 0.000 92.8% de VitaminéA Vitamine VIT1 91.4 3952
56.16 0.000 84.7% de SolMod Nature du sol SOL1 50.9 2204
47.38 0.000 79.8% de Robinet Principale source d'eau EAU2 50.6
2187
5.20 0.000 76.8% de Sel>15PPM Iodation du sel SEL3 73.8
3192
36.22 0.000 74.6% de MursMod Nature des murs MUR1 51.7 2237
4.03 0.000 69.9% de WCCollectif Gestion des sanitaires GWC1 67.4
2917
- 3.91 0.000 67.5% de WCTrad Sanitaires W 69.8 3020
0.40 0.346 55.1% de IPL2-3 Indice de peuplement du logement IPL2
54.8 2370
10.78 0.000 53.7% de <=30mn Temps pour approv en eau TEM3
46.7 2021
- 10.72 0.000 45.1% de >30mn Temps pour approv en eau TEM2
52.1 2252
- 0.22 0.413 43.3% de IPL>3 Indice de peuplement du logement
IPL3 43.5 1880
32.46 0.000 35.1% de Riche Indice de Richesse du Ménage
IRM4 20.4 883
20.75 0.000 33.7% de Moyenpauvre Indice de Richesse du
Ménage IRM3 22.9 990
- 4.03 0.000 30.1% de WCPrivé Gestion des sanitaires GW
32.6 1409
28.48 0.000 29.4% de WCMod Sanitaires WC1 17.2 746
29.02 0.000 27.6% de Plus riche Indice de Richesse du
Ménage IRM5 15.9 689
- 33.96 0.000 25.2% de MursTrad Nature des murs MUR2 46.7
2022
- 56.84 0.000 14.2% de SolTrad Nature du sol SOL2 48.3 2091
- 1.78 0.037 12.3% de Sel<15PPM Iodation du sel SEL2 13.1
568
- 4.94 0.000 10.9% de SelOPPM Iodation du sel SEL1 13.1 566
- 45.88 0.000 7.3% de Puits/ForInsalubres Principale source
d'eau EAU4 34.6 1497
- 5.77 0.000 7.2% de Puits/ForSalubres Principale source d'eau
EAU3 9.4 408
- 3.98 0.000 7.2% de NVitaminéA Vitamine VIT2 8.6 374
0.80 0.213 5.5% de malnutris Indice taillepourâge TAG2 5.3
228
2.31 0.010 5.1% de AutresEaux Principale source d'eau EAU5 4.5
194
- 30.43 0.000 3.6% de Pauvre Indice de Richesse du Ménage
IRM2 18.6 804
- 22.99 0.000 3.1% de SansWC Sanitaires WC3 12.9 560
0.00 0.500 1.6% de ipl0-1 Indice de peuplement du logement IPL1
1.8 76
- 3.53 0.000 1.4% de VRoug VaccinationROUGeole ROU1 2.1 92
0.00 0.500 1.2% de Surplace Temps pour approv en eau TEM1 1.2
53
0.00 0.500 1.1% de AutreSol Nature du sol SOL3 0.7 31
0.00 0.500 0.9% de NonAllaité Allaitement au sein ALL2
0.8 36
0.00 0.500 0.7% de NVDTCoq VaccinationDTCOQ DT 1.7 72
0.00 0.500 0.6% de Citerne/Bouteilles Principale source d'eau
EAU1 0.9 40
0.00 0.500 0.3% de NVBCG VaccinationBCG BCG2 0.7 32
0.00 0.500 0.2% de AutresMurs Nature des murs MUR3 1.5 67
0.00 0.500 0.2% de NVPOL VaccinationPOLIO POL2 0.4 17
- 40.15 0.000 0.1% de ToitTrad Nature du toit TOI2 18.6 805
0.00 0.500 0.0% de AutreToit Nature du toit TOI3 0.0 2
- 45.19 0.000 0.0% de Pluspauvre Indice de Richesse du
Ménage IRM1 22.2 960
Annexe F : Détails sur la modélisation
probit
Encadré F 1 : Définitions sur le
modèle probit L'objectif d'un modèle dichotomique consiste
à expliquer la survenue de l'événement
considéré, en fonction d'un certain nombre de
caractéristiques observées : l'on cherche
à spécifier pi . Il admet pour variable
expliquée, non pas un codage quantitatif associé à la
réalisation d'un événement, mais la probabilité
d'apparition de cet événement, conditionnellement aux variables
exogènes.
Définition 1 : Modèle
Probit
Soit un modèle dichotomique : p i=
pr ( yi = 1/ xi ) = F (
x i â ) ? i = 1,..., n
'
Dans cette formule, F(.) désigne une fonction de
répartition. Le modèle Probit est le modèle dichotomique
qui admet pour fonction de répartition la fonction de distribution d'une
loi normale centrée réduite N (0, 1) :
Définition 2 : Effet
marginal dans un modèle probit
Si l'on note f (.) la fonction de densité des
résidus du modèle dichotomique, l'effet marginal associé
à la j ème
Définition 3 :
Élasticité dans un modèle probit
Il est parfois plus aisé de calculer une
élasticité plutôt qu'un effet marginal. En effet,
l'élasticité a l'avantage d'être indépendante des
unités de mesure. L'on définit l'élasticité comme
la variation (en %) de la probabilité de
survenue de yi = 1/ xi,
suite à une variation de 1 % de la j ème explicative
xij :
Autrement, pour les individus pour lesquels l'on est sûr de
la survenue d'un événement ( pi = F(
x 'iâ) = 1 ou '
xi â
positif et très élevée),
l'élasticité sera faible : seule une variation très
importante des variables explicatives pourra modifier sensiblement la
probabilité. Inversement, les individus pour lesquels l'on est sûr
de la non survenue d'un événement ( pi =
F( x 'iâ) = 0 ou
'
xiâ négatif et très
élevée en valeur absolue), l'élasticité sera
faible.
Le modèle probit définit la probabilité
associée à l'événement yi = 1 ,
comme la valeur de la fonction de répartition de la loi de la loi
normale centrée réduite considérée au point
xi' â ; c'est-à-dire :
variable explicative xij est : p i
= f
Puisque par définition f (.)>0, le signe de cette
dérivée dépend de celui de âj .
Il en découle que la hausse
d'une variable associée à un coefficient positif
induit une hausse de la probabilité de réalisation de
l'événement yi = 1 . À l'inverse, la
hausse d'une variable associé à un coefficient négatif
induit une baisse de la probabilité de réalisation de
l'événement yi = 1 .
La fonction de densité f (.) du modèle Probit est
symétrique, uni modale et atteint son maximum en zéro. Dès
lors,
l'impact d'une variable explicative est d'autant plus important
pour les individus ayant le scalaire
x
i ij ' ij
p x f x
å = = ( )
â â
p x
i ij
/ i j
? x p F x
( ' )
â
ij i i
?
? w ?
xi ' â t 2
1
( )
'
p = Ö x exp( ) ,
- dt i 1,..., n
i i â = ? = 2 ð -8
2
?
?
xij
R
: F(w)
' 2
1 ( )
x â
( ).
x ' i
â â = e x p [ - ]. â
i j 2 ð 2
2ð
1
-
w
8
exp(-
t
2
2
)dt =Ö(w)
j
xiâproche de zéro. '
Source : Travaux de l'auteur sur
l'EDSC-I 2005
variable associée influence à la hausse ou à
la baisse la probabilité pi
considérée. Le signe des coefficients et les effets
marginaux restent les seules informations directement
exploitables.
Remarque 3 : Un « probit »
plutôt qu'un « logit »
Un modèle aussi proche du probit est le logit. Il
n'existe que peu de différences entre ces deux modèles
dichotomiques. Cela, à cause de la proximité des familles de lois
: logistique pour un logit et normale pour un probit. Elles donnent des
résultats similaires. Dès lors, la question du choix entre les
deux ne présente que peu d'importance. Cependant, bien qu'il soit
souvent cité
l'avantage du modèle logit dans la facilitation de
l'interprétation des paramètres â associés aux
variables, l'argument avancé
dans le choix d'un modèle probit réside dans
le fait que la loi logistique tend à attribuer aux
événements «extrêmes» une probabilité plus
forte que la distribution normale ; ce qui surestimerait dans le cas
d'espèce, le risque de pauvreté infanto-juvénile.
Remarque 4 : Estimation des coefficients d'un
modèle probit par maximisation de la vraisemblance (EMV)
L'on considère un échantillon de n individus
indicés i = 1, ..,n. Pour chaque individu, on observe si un certain
événement
s'est réalisé et l'on note yi
la variable codée associée à l'événement.
Posons pour tout i =1,..., n :
permet d'estimer la totalité des paramètres
â .
Remarque 2 : Variance de l'erreur dans un
modèle probit
Dans un modèle probit, la variance de l'erreur du
modèle n'est pas identifiable. Elle est normalisée à
l'unité. De ce fait, la
valeur numérique des paramètres estimés
n'a pas d'intérêt en soi dans la mesure où ils ne
correspondent aux paramètres â de l'équation de
la variable latente qu'à une constante multiplicative près. De
plus, la limite c n'est pas identifiable car elle se
confond au terme constant du vecteur des explicatives xi
. Ainsi, la seule information réellement utilisable est le signe des
â , indiquant si la
Encadré F2 : Des remarques sur le
modèle probit
Remarque 1 : Modèle Probit sous la forme
latente
Tout modèle dichotomique (Probit ici) peut
s'écrire sous la forme d'une équation de mesure du type :
vecteurs des paramètres est donné par la
résolution de l'équation :
nG ) =
[ y - Ö ( x;â )]ö
( x;,6" )
Ex = 0
' ' i
( à )[1 ( à )]
Ö x â - Ö x â i i
inobservable), définie en fonction des
caractéristiques observables xi et d'une
perturbation (erreur) ui indépendante et
identiquement distribué (i.i.d.), Ui -3
N(0, ón2
) ; '
y * = x i â + u
i . En général, une adoption de normalisation c =
0 et ó = 1
observables et où fi = (fi1,...fik
YE Rk est un vecteur de paramètres inconnus. La
vraisemblance associée à l'observation yi
est :
garantit l'unicité de cette fonction et implique que les
EMV sont convergents vers les vraies valeurs des paramètres. Le gradient
ou
L ( y , â) = ? F (
x j13 ) yi [1 - F (
xiâ )]1-yi . Finalement, la vraisemblance logarithmique
est :
y i
log L ( y , â) = E lo g F
( x ;â ) + E log [1 - F (
x;â )] . Notons que log L ( y ,
â ) est strictement concave, ce qui
i : yi = 1 i :y
i=o
=
'
1 p i = F ( xiâ)
0 1 - p i = 1 - F (
xiâ)
L y i â p i
( , ) y i (1
= -
i
=
n
1
y i
i =1
pi )1 -yi ; la vraisemblance
associée à l'échantillon de taille n s'écrit :
=
1 s i y * > c
0
a ille u r s
Où
xi = ( x 1i
,..., xki ) , ? i = 1,...,n ,
désigne un vecteur de caractéristiques '
où c est une limite réelle et y* une variable
latente (tolérance
avec ö fonction dérivée deÖ au
point â
à
à
*
à
yi
à
n
n
1
1
i
i
=
=
Évaluation de la qualité du
modèle
Notons pi = F(xiâ)
la probabilité de la survenue de l'événement
yi = 1 . Il est possible d'estimer cette
probabilité par pà i = F
( xi'âà)
= yài . De plus, l'on peut réaliser
une prédiction de yi en utilisant :
3. Prise en compte de
l'hétéroscédasticité
L'hétéroscédasticité
apparaît quand on traite des unités pour lesquels il peut exister
un effet taille. Elle correspond à une situation où la variance
des erreurs n'est pas constante pour toutes les observations. Sa
détection se fait à l'aide des principaux tests, tels : tests de
White, de Huber, de Golfeld-Quant et de Gleister [voir Y. Tillé (2004)
pour les détails relatifs à ces tests]. Parfois, la prise en
compte de l'hétéroscédasticité demande juste la
pondération par la racine carrée du nombre d'individus.
Encadré F3 : Tests de
spécification et inférence
1. Test sur les coefficients du
modèle
Il y a trois principaux tests couramment usités : le
test de Wald, le test du score ou du multiplicateur de Lagrange (LM : Lagrange
Multiplicator) et le test du rapport des maxima de vraisemblance (LRT :
Likelihood Ratio Test). Ces trois tests sont asymptotiquement
équivalents. Mais le LRT reste localement le plus robuste. Il est le
test indiqué lorsque la nécessité de l'estimation du
modèle avec ou sans contraintes s'impose. Son calcul ne nécessite
que la connaissance des valeurs de la vraisemblance maximisée. De plus
il ne demande aucun calcul analytique de dérivées ni de variance
(P. Deschamps, 2007). Dans un modèle probit, l'on peut appliquer
sans difficulté particulière la logique du test du rapport des
maxima de vraisemblance. L'on estime le modèle non contraint et le
modèle contraint :
*
soient âj et ,0 j
les deux estimations respectives ainsi obtenues. La statistique LRT correspond
alors tout simplement
à l'écart des vraisemblances logarithmiques. La
statistique LRTj du test du rapport des maxima de vraisemblance associée
au test unidirectionnel H0 : â
j= â0 contre H1 :
â j? â0 admet la loi
suivante sous H0 :
L'on rejette H0 si LRTj
x0 95(1), le membre de droite désignant le quantile
à 95 % de la loi du khi-deux à 1 degré de liberté.
Notons que si le test porte sur plus d'un paramètre, l'on utilise la
statistique suivante : LRT = - 2log ë = - 2[log( ,
â à ) - log( , â à * )] ???
÷ 2 ( )
L
y y r , lorsque n ? 8 ;
r étant le nombre de restrictions imposées sur les
paramètres.
2. Tests de spécification du
modèle
Il s'agit ici des tests qui permettent d'évaluer la
qualité de l'ajustement par le modèle. En effet, il se peut que
l'on ait estimé le modèle avec des explicatives fortement
corrélées (l'on parle de multicolinéarité ou
dépendance linéaire approximative entre les colonnes des
explicatives). La multicolinéarité se définit comme le
fait que la matrice
des exogènes ne soit pas de plein rang. Dans ce cas,
les
aux faibles fluctuations d'échantillonnage. Ce
phénomène est détecté par plusieurs tests. Au rang
de ces tests l'on peut citer : le test de Klein, de Farrar-Glauber, de Theil,
du VIF [pour les détails théoriques sur ces tests, voir Y.
Tillé (2004)].
Dès lors, deux indices sont souvent utilisés pour
évaluer la qualité globale du modèle : (i) le coefficient
de détermination calculé entre les yi et les
yài ; (ii) la proportion d'unités
bien classés, définies par :
% ubc = [ n- E( y i - A)
2]/
LRT = - 2 log ë = - 2 Llog( y
ijj ) - log( y , /3; ) 1
÷2 (1) , lorsque n ?8
n ou alors, le nombre de fausses prédictions
nfp = E (yi -- A)2
0 si .A= F
(xiâ) < 1 / 2
1 si y i = F (xiâ) =1
/ 2
â j ont soit des fortes variances
estimées soit une instabilité
|