WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Une approche de mesure du bien-etre des enfants et de la pauvreté des ménages au Congo

( Télécharger le fichier original )
par Anaclet Géraud NGANGA KOUBEMBA
Institut Sous-régional de Statistique et d'Economie Appliquée (ISSEA) - Ingénieur Statisticien 2008
  

précédent sommaire

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Annexe D : Aperçu sur l'analyse factorielle : AFC, ACM et ACH

D.1 L'AFC

Encadré D1 : l' AFC

L'analyse des correspondances binaires (ACORBI) ou analyse factorielle des correspondances (AFC) permet d'étudier la dépendance de 2 variables qualitatives. Elle est basée sur une décomposition du Chi-Deux de contingence. Elle s'applique par excellence aux tableaux de contingence (dits aussi tableaux de dépendance ou tableaux croisés) formés d'individus décrits par 2 caractères qualitatifs. Une AFC sur un tableau de contingence se justifie si : (i) on est intéressé par l'analyse des relations entre les catégories de l'une et l'autre variable (ii) on dispose au moins 3 modalités par variable et suffisamment bien remplies (par regroupement au besoin)

· L'AFC est simultanément une analyse des profils-lignes et des profils-colonnes. La métrique utilisée pour mesurer la proximité entre deux individus est la distance du Chi-Deux. L'objectif de l'AFC est de résumer et de décrire les liens entre les profils-lignes et les profils-colonnes puis mettre en relief les proximités entre les profils- lignes, entre profils-colonnes et la nature de la liaison entre les lignes et les colonnes ;

· La qualité globale de la représentation du nuage initial par le sous-espace de dimension q

[1 = q = r = inf( n - 1, p - 1)] est mesurée par le pourcentage d'inertie pris en compte par les q premiers axes factoriels

définissant ce sous-espacers non corrélés. Cela signifie que la valeur de l'inertie totale (somme des valeurs propres) est un indicateur
de la dispersion du nuage et mesure la liaison entre 2 variables A et B, et avant toute interprétation, il faut s'assurer que le

÷observé 2

dans la table de contingence est suffisamment grand et supérieur au point critique X

( n - 1),( p- 1)(1 - á) pour que la liaison

entre les deux variables qualitatives A et B soit jugée significative. C'est seulement dans une telle circonstance qu'exhiber l'AFC
interviendra utilement, pour décrire cette dépendance entre lignes et colonnes du tableau de contingence ; On rappelle

que

2

 

( o ij t

-

2

k i kj

, avec : oaf = : effectif observé ; t.. =

k : effectif théorique d'indépendance ; i =

÷

observé

i , j L tai

 

1,...,n ; j = 1,...,p et k : l'effectif total de la table de contingence.

Source : Cléophas Ondo, Cours analyse des données, IAS 3, ISSEA-2007 ; LEBART L. et al (1994)

D.2 L'ACM

Les travaux de l'ACM sont dus à Guttman (1941) et à Benzécri (1973). L'ACM généralise

l'AFC et permet de représenter sur le même graphique les modalités de réponses de plus de 2 variables. Elle permet de décrire de vastes tableaux binaires. Elle s'applique à un tableau disjonctif complet (qui présente en ligne les individus et en colonne les modalités des variables qualitatives retenues, les cases d'intersection comportant la valeur 1 si l'individu répond au critère en colonne et 0 dans le cas contraire) ou à un tableau de Burt. Le choix la dimension q du sous-espace de projection est révélé soit par le critère du coude de Cattell (décrochement ou décroissance des 1 ères valeurs propres) soit le critère de Kaiser, et très souvent par la règle de la valeur propre

supérieure à la moyenne des valeurs propres ( ëá ? 1 ). Notons qu'en ACM, une variable continue

p

n'est active que si elle est rendue nominale (découpée en classes ou recodée selon 2 colonnes numériques)

Encadré D2 : Indices d'aide à l'interprétation en ACM

La contribution relative d'un axe à un individu : elle représente la qualité de la représentation d'un individu par le sous-espace qui ajuste le nuage initial. Elle se mesure par l'indice CO2 ; le cosinus carré de l'angle formé par l'individu i et l'axe factoriel. Si CO2 est proche de 1, l'individu est bien représenté sur cet axe, si au contraire CO2 est proche de 0, l'individu i est très mal représenté sur cet axe. On peut généraliser cette notion en passant d'un axe à un sous-espace généré par les q premiers axes factoriels.

? La contribution relative du sous-espace généré par les q premiers axes factoriels : elle est désignée par QLT. Si un point est bien représenté sur un sous-espace à q dimensions (c'est-à-dire, QLT 1), on en déduira qu'il est inutile de chercher à améliorer la représentation de ce point par la prise en compte d'autres axes factoriels ;

? La contribution relative d'un individu à un axe : on dispose pour la mesurer d'un indice désigné CTR. La somme des CTR vaut 1 et une modalité est d'autant plus importante dans la construction du á ième axe factoriel que son CTR est élevée ; Remarques

? La faible part de la variance (inertie) expliquée sur les premiers axes est une caractéristique de l'ACM qui donne généralement des mesures pessimistes de l'information extraite ;

? L'ACM présente une propriété particulière redevable à la nature même du tableau disjonctif complet. En effet, elle met en évidence des types d'individus ayant des profils semblables quant aux attributs choisis ;

? On exprime : (i) la proximité entre individus en terme de ressemblances : deux individus se ressemblent s'ils ont choisi globalement les mêmes modalités ; (ii) la proximité entre modalités de variables différentes en terme d'association : ces modalités sont proches si elles concernent globalement les mêmes individus (individus semblables) ; (iii) la proximité entre 2 modalités d'une même variable en terme de ressemblance : par construction, les modalités d'une même variable s'excluent et si elles sont proches, cette proximité s'interprète en terme de ressemblance entre les groupes d'individus qui les ont choisies (vis-à-vis d'autres variables actives de l'analyse) ;

? L'inertie totale est donnée par Ito tale = J-1 et exprime le nombre moyen des J modalités par les p variablesp

actives, diminué d'une unité. Dépendant uniquement du nombre de variables et de modalités et non des liaisons entre les variables, elle n'a donc pas de signification statistique. Mais contrairement à cette somme des valeurs propres (inertie totale) qui n'a pas de sens statistique, la somme des carrés des valeurs propres est un indicateur de liaison entre variables : elle est d'autant plus élevée que les liaisons sont plus fortes ;

Source : LEBART L. et al (1994).

D.3 La classification

Pourquoi une classification ? (i) Il est toujours difficile d'interpréter les axes factoriels au-

delà du plan factoriel ; (ii) la compression excessive de l'espace de projection peut entraîner des distorsions fâcheuses et des superpositions de points occupant des positions distinctes dans l'espace ;(iii) les visualisations peuvent manquer de robustesse et (iv) les visualisations peuvent concerner des milliers de points et donner lieu à des graphiques illisibles. D'où la nécessité d'une classification ; méthode robuste en ce sens que, les parties basses des dendrogrammes produits sont indépendantes des éventuels points marginaux isolés.

Encadré D.3 : l'ACH

La technique de classification fournit une autre forme de synthèse des données qu'une analyse factorielle. Elle constitue des classes homogènes d'individus, les classes étant distinctes les unes des autres le plus probable relativement aux variables considérées. Les individus qui se ressemblent au niveau des variables actives sont rassemblés dans une même classe et la synthèse de toute l'information contenue dans le tableau de données se ramène alors à la caractérisation de ce petit nombre de classes homogènes. Il s'agit d'une classification sur facteurs issus de l'AFC ou de l'ACM. Elle revient à créer une variable qualitative qui correspond à l'appartenance à une classe ; SPAD propose la classification hiérarchique (CAH/RECIP) qui fournit une hiérarchie de partitions, et la méthode d'agrégation autour de centres mobiles qui conduit directement à une seule partition.

n La méthode de classification sur les facteurs de SPAD effectue une classification des individus à partir d'un ensemble de p variables (ou p facteurs) issus d'une analyse factorielle préalable. Elle est effectuée selon le critère de Ward.. L'arbre d'agrégation appelé dendrogramme ainsi créé peut ensuite être coupé en un nombre donné d'éléments «terminaux»où les individus sont regroupés selon une hiérarchie H de façon ascendante : on regroupe les individus les plus proches et on recommence pour les n-1 points suivants... On produit donc une suite de partitions emboîtées ;

n L'Indice de niveau donne la valeur de l'indice d'agrégation de chaque noeud et mesure, au sens de Ward, la dissimilarité entre les classes. Et le choix du niveau de coupure du dendrogramme, et donc, du nombre de classes de la partition n'étant pas toujours facilité par simple inspection visuelle, sera fait par examen de l'histogramme des indices croissants de niveau, en réalisant la coupure après agrégation correspondant à des valeurs peu élevées qui regroupent les éléments les plus proches à des valeurs élevées de l'indice, qui dissocient, les groupes bien distincts dans la population (coupure au niveau pour lequel cet histogramme marque un palier important). La CAH présente l'avantage de laisser libre le choix du nombre de classes qui est imposé avec la méthode des centres mobiles. De plus, elle est déterministe.

Source : LEBART L. et al (1994) ; Notes de cours IAS 3, ISSEA-2006/2007, Analyse des données.

Annexe E : Résultats additionnels de l'ICP et partitionnement en 2 classes

Source : Travaux de I'auteur sur I'EDSC-I 2005

E.1 : Figure 4.E.1 : Représentation simultanée des individus et des variables sur le plan (1,2)

Tableau 4.E.2 : Description de la coupure de l'arbre en 2 classes et caractéristiques par les modalités

CLASSE 1 / 2 («Pauvres»)

V.TEST PROBA POURC MODALITES IDEN POURC POIDS

MOD/CLA CARACTERISTIQUES DE LA VARIABLE MOD/ENS

CLASSE 2 / 2 («Non-pauvres» ou «Riches»)

V.TEST PROBA POURC MODALITES IDEN POURC POIDS

MOD/CLA CARACTERISTIQUES DE LA VARIABLE MOD/ENS

LA CLASSE : CLASSE 1 / 2 CONTIENT ... aa1a 42.2 1827

0.57 0.284 99.3% de Allaité Allaitement au sein ALL1 99.2 4290

- 2.62 0.004 99.3% de VPOL VaccinationPOLIO POL1 99.6 4309

- 3.96 0.000 98.6% de VBCG VaccinationBCG BCG1 99.3 4294

- 5.57 0.000 97.0% de VDTCoq VaccinationDTCOQ DTC1 98.3 4254

- 3.53 0.000 96.9% de NVRoug VaccinationROUGeole ROU2 97.9 4234

56.84 0.000 95.1% de SolTrad Nature du sol SOL2 48.3 2091

0.80 0.213 95.1% de sévèremt malnutris Indice taillepourâge TAG1 94.7 4098

- 3.98 0.000 89.3% de VitaminéA Vitamine VIT1 91.4 3952

33.96 0.000 76.2% de MursTrad Nature des murs MUR2 46.7 2022

3.91 0.000 73.0% de WCTrad Sanitaires W 69.8 3020

45.88 0.000 72.0% de Puits/ForInsalubres Principale source d'eau EAU4 34.6 1497

- 5.20 0.000 69.7% de Sel>15PPM Iodation du sel SEL3 73.8 3192

- 4.03 0.000 64.0% de WCCollectif Gestion des sanitaires GWC1 67.4 2917

10.72 0.000 61.6% de >30mn Temps pour approv en eau TEM2 52.1 2252

- 40.21 0.000 55.9% de ToitMod Nature du toit TOI1 81.3 3519

- 0.40 0.346 54.4% de IPL2-3 Indice de peuplement du logement IPL2 54.8 2370

45.19 0.000 52.5% de Pluspauvre Indice de Richesse du Ménage IRM1 22.2 960

40.15 0.000 44.0% de ToitTrad Nature du toit TOI2 18.6 805

0.22 0.413 43.7% de IPL>3 Indice de peuplement du logement IPL3 43.5 1880

30.43 0.000 39.0% de Pauvre Indice de Richesse du Ménage IRM2 18.6 804

- 10.78 0.000 37.2% de <=30mn Temps pour approv en eau TEM3 46.7 2021

4.03 0.000 36.0% de WCPrivé Gestion des sanitaires GW 32.6 1409

22.99 0.000 26.4% de SansWC Sanitaires WC3 12.9 560

- 36.22 0.000 20.4% de MursMod Nature des murs MUR1 51.7 2237

4.94 0.000 16.1% de SelOPPM Iodation du sel SEL1 13.1 566

1.78 0.037 14.2% de Sel<15PPM Iodation du sel SEL2 13.1 568

5.77 0.000 12.5% de Puits/ForSalubres Principale source d'eau EAU3 9.4 408

3.98 0.000 10.7% de NVitaminéA Vitamine VIT2 8.6 374

- 47.38 0.000 10.6% de Robinet Principale source d'eau EAU2 50.6 2187

- 20.75 0.000 8.1% de Moyenpauvre Indice de Richesse du Ménage IRM3 22.9 990

- 0.80 0.213 4.9% de malnutris Indice taillepourâge TAG2 5.3 228

- 56.16 0.000 4.8% de SolMod Nature du sol SOL1 50.9 2204

- 2.31 0.010 3.6% de AutresEaux Principale source d'eau EAU5 4.5 194

0.00 0.500 3.4% de AutresMurs Nature des murs MUR3 1.5 67

3.53 0.000 3.1% de VRoug VaccinationROUGeole ROU1 2.1 92

0.00 0.500 3.0% de NVDTCoq VaccinationDTCOQ DT 1.7 72

0.00 0.500 1.9% de ipl0-1 Indice de peuplement du logement IPL1 1.8 76

0.00 0.500 1.4% de NVBCG VaccinationBCG BCG2 0.7 32

0.00 0.500 1.4% de Citerne/Bouteilles Principale source d'eau EAU1 0.9 40

0.00 0.500 1.3% de Surplace Temps pour approv en eau TEM1 1.2 53

0.00 0.500 0.7% de NVPOL VaccinationPOLIO POL2 0.4 17

0.00 0.500 0.7% de NonAllaité Allaitement au sein ALL2 0.8 36

- 28.48 0.000 0.6% de WCMod Sanitaires WC1 17.2 746

- 32.46 0.000 0.3% de Riche Indice de Richesse du Ménage IRM4 20.4 883

0.00 0.500 0.2% de AutreSol Nature du sol SOL3 0.7 31

0.00 0.500 0.1% de AutreToit Nature du toit TOI3 0.0 2

- 29.02 0.000 0.0% de Plus riche Indice de Richesse du Ménage IRM5 15.9 689

LA CLASSE : CLASSE 2 / 2 CONTIENT ... aa2a 57.8 2499

40.21 0.000 99.9% de ToitMod Nature du toit TOI1 81.3 3519

2.62 0.004 99.8% de VPOL VaccinationPOLIO POL1 99.6 4309

3.96 0.000 99.7% de VBCG VaccinationBCG BCG1 99.3 4294

5.57 0.000 99.3% de VDTCoq VaccinationDTCOQ DTC1 98.3 4254

- 0.57 0.284 99.1% de Allaité Allaitement au sein ALL1 99.2 4290

3.53 0.000 98.6% de NVRoug VaccinationROUGeole ROU2 97.9 4234

- 0.80 0.213 94.5% de sévèremt malnutris Indice taillepourâge TAG1 94.7 4098

3.98 0.000 92.8% de VitaminéA Vitamine VIT1 91.4 3952

56.16 0.000 84.7% de SolMod Nature du sol SOL1 50.9 2204

47.38 0.000 79.8% de Robinet Principale source d'eau EAU2 50.6 2187

5.20 0.000 76.8% de Sel>15PPM Iodation du sel SEL3 73.8 3192

36.22 0.000 74.6% de MursMod Nature des murs MUR1 51.7 2237

4.03 0.000 69.9% de WCCollectif Gestion des sanitaires GWC1 67.4 2917

- 3.91 0.000 67.5% de WCTrad Sanitaires W 69.8 3020

0.40 0.346 55.1% de IPL2-3 Indice de peuplement du logement IPL2 54.8 2370

10.78 0.000 53.7% de <=30mn Temps pour approv en eau TEM3 46.7 2021

- 10.72 0.000 45.1% de >30mn Temps pour approv en eau TEM2 52.1 2252

- 0.22 0.413 43.3% de IPL>3 Indice de peuplement du logement IPL3 43.5 1880

32.46 0.000 35.1% de Riche Indice de Richesse du Ménage IRM4 20.4 883

20.75 0.000 33.7% de Moyenpauvre Indice de Richesse du Ménage IRM3 22.9 990

- 4.03 0.000 30.1% de WCPrivé Gestion des sanitaires GW 32.6 1409

28.48 0.000 29.4% de WCMod Sanitaires WC1 17.2 746

29.02 0.000 27.6% de Plus riche Indice de Richesse du Ménage IRM5 15.9 689

- 33.96 0.000 25.2% de MursTrad Nature des murs MUR2 46.7 2022

- 56.84 0.000 14.2% de SolTrad Nature du sol SOL2 48.3 2091

- 1.78 0.037 12.3% de Sel<15PPM Iodation du sel SEL2 13.1 568

- 4.94 0.000 10.9% de SelOPPM Iodation du sel SEL1 13.1 566

- 45.88 0.000 7.3% de Puits/ForInsalubres Principale source d'eau EAU4 34.6 1497

- 5.77 0.000 7.2% de Puits/ForSalubres Principale source d'eau EAU3 9.4 408

- 3.98 0.000 7.2% de NVitaminéA Vitamine VIT2 8.6 374

0.80 0.213 5.5% de malnutris Indice taillepourâge TAG2 5.3 228

2.31 0.010 5.1% de AutresEaux Principale source d'eau EAU5 4.5 194

- 30.43 0.000 3.6% de Pauvre Indice de Richesse du Ménage IRM2 18.6 804

- 22.99 0.000 3.1% de SansWC Sanitaires WC3 12.9 560

0.00 0.500 1.6% de ipl0-1 Indice de peuplement du logement IPL1 1.8 76

- 3.53 0.000 1.4% de VRoug VaccinationROUGeole ROU1 2.1 92

0.00 0.500 1.2% de Surplace Temps pour approv en eau TEM1 1.2 53

0.00 0.500 1.1% de AutreSol Nature du sol SOL3 0.7 31

0.00 0.500 0.9% de NonAllaité Allaitement au sein ALL2 0.8 36

0.00 0.500 0.7% de NVDTCoq VaccinationDTCOQ DT 1.7 72

0.00 0.500 0.6% de Citerne/Bouteilles Principale source d'eau EAU1 0.9 40

0.00 0.500 0.3% de NVBCG VaccinationBCG BCG2 0.7 32

0.00 0.500 0.2% de AutresMurs Nature des murs MUR3 1.5 67

0.00 0.500 0.2% de NVPOL VaccinationPOLIO POL2 0.4 17

- 40.15 0.000 0.1% de ToitTrad Nature du toit TOI2 18.6 805

0.00 0.500 0.0% de AutreToit Nature du toit TOI3 0.0 2

- 45.19 0.000 0.0% de Pluspauvre Indice de Richesse du Ménage IRM1 22.2 960

Annexe F : Détails sur la modélisation probit

Encadré F 1 : Définitions sur le modèle probit
L'objectif d'un modèle dichotomique consiste à expliquer la survenue de l'événement considéré, en fonction d'un certain nombre de

caractéristiques observées : l'on cherche à spécifier pi . Il admet pour variable expliquée, non pas un codage quantitatif associé à la réalisation d'un événement, mais la probabilité d'apparition de cet événement, conditionnellement aux variables exogènes.

Définition 1 : Modèle Probit

Soit un modèle dichotomique : p i= pr ( yi = 1/ xi ) = F ( x i â ) ? i = 1,..., n

'

Dans cette formule, F(.) désigne une fonction de répartition. Le modèle Probit est le modèle dichotomique qui admet pour fonction de répartition la fonction de distribution d'une loi normale centrée réduite N (0, 1) :

Définition 2 : Effet marginal dans un modèle probit

Si l'on note f (.) la fonction de densité des résidus du modèle dichotomique, l'effet marginal associé à la j ème

Définition 3 : Élasticité dans un modèle probit

Il est parfois plus aisé de calculer une élasticité plutôt qu'un effet marginal. En effet, l'élasticité a l'avantage d'être indépendante des unités de mesure. L'on définit l'élasticité comme la variation (en %) de la probabilité de

survenue de yi = 1/ xi, suite à une variation de 1 % de la j ème explicative xij :

Autrement, pour les individus pour lesquels l'on est sûr de la survenue d'un événement ( pi = F( x 'iâ) = 1 ou '

xi â

positif et très élevée), l'élasticité sera faible : seule une variation très importante des variables explicatives pourra modifier sensiblement la probabilité. Inversement, les individus pour lesquels l'on est sûr de la non survenue d'un événement ( pi = F( x 'iâ) = 0 ou '

xiâ négatif et très élevée en valeur absolue), l'élasticité sera faible.

Le modèle probit définit la probabilité associée à l'événement yi = 1 , comme la valeur de la fonction de répartition de la loi de la loi normale centrée réduite considérée au point xi' â ; c'est-à-dire :

variable explicative xij est : p i = f

Puisque par définition f (.)>0, le signe de cette dérivée dépend de celui de âj . Il en découle que la hausse

d'une variable associée à un coefficient positif induit une hausse de la probabilité de réalisation de l'événement yi = 1 . À l'inverse, la hausse d'une variable associé à un coefficient négatif induit une baisse de la probabilité de réalisation de l'événement yi = 1 .

La fonction de densité f (.) du modèle Probit est symétrique, uni modale et atteint son maximum en zéro. Dès lors,

l'impact d'une variable explicative est d'autant plus important pour les individus ayant le scalaire

x

i ij ' ij

p x f x

å = = ( )

â â

p x

i ij

/ i j

? x p F x

( ' )

â

ij i i

?

? w ?

xi ' â t 2

1

( )

'

p = Ö x exp( ) ,

- dt i 1,..., n

i i â = ? = 2 ð -8

2

?

?

xij

R

: F(w)

' 2

1 ( )

x â

( ).

x ' i

â â = e x p [ - ]. â

i j 2 ð 2

2ð

1

-

w

8

exp(-

t

2

2

)dt =Ö(w)

j

xiâproche de zéro. '

Source : Travaux de l'auteur sur l'EDSC-I 2005

variable associée influence à la hausse ou à la baisse la probabilité pi considérée. Le signe des coefficients et les effets marginaux restent les seules informations directement exploitables.

Remarque 3 : Un « probit » plutôt qu'un « logit »

Un modèle aussi proche du probit est le logit. Il n'existe que peu de différences entre ces deux modèles dichotomiques. Cela, à cause de la proximité des familles de lois : logistique pour un logit et normale pour un probit. Elles donnent des résultats similaires. Dès lors, la question du choix entre les deux ne présente que peu d'importance. Cependant, bien qu'il soit souvent cité

l'avantage du modèle logit dans la facilitation de l'interprétation des paramètres â associés aux variables, l'argument avancé

dans le choix d'un modèle probit réside dans le fait que la loi logistique tend à attribuer aux événements «extrêmes» une probabilité plus forte que la distribution normale ; ce qui surestimerait dans le cas d'espèce, le risque de pauvreté infanto-juvénile. Remarque 4 : Estimation des coefficients d'un modèle probit par maximisation de la vraisemblance (EMV)

L'on considère un échantillon de n individus indicés i = 1, ..,n. Pour chaque individu, on observe si un certain événement

s'est réalisé et l'on note yi la variable codée associée à l'événement. Posons pour tout i =1,..., n :

permet d'estimer la totalité des paramètres â .

Remarque 2 : Variance de l'erreur dans un modèle probit

Dans un modèle probit, la variance de l'erreur du modèle n'est pas identifiable. Elle est normalisée à l'unité. De ce fait, la

valeur numérique des paramètres estimés n'a pas d'intérêt en soi dans la mesure où ils ne correspondent aux paramètres â de
l'équation de la variable latente qu'à une constante multiplicative près. De plus, la limite c n'est pas identifiable car elle se confond
au terme constant du vecteur des explicatives xi . Ainsi, la seule information réellement utilisable est le signe des â , indiquant si la

Encadré F2 : Des remarques sur le modèle probit

Remarque 1 : Modèle Probit sous la forme latente

Tout modèle dichotomique (Probit ici) peut s'écrire sous la forme d'une équation de mesure du type :

vecteurs des paramètres est donné par la résolution de l'équation :

nG ) =

[ y - Ö ( x;â )]ö ( x;,6" )

Ex = 0

' ' i

( à )[1 ( à )]

Ö x â - Ö x â i i

inobservable), définie en fonction des caractéristiques observables xi et d'une perturbation (erreur) ui indépendante et

identiquement distribué (i.i.d.), Ui -3 N(0, ón2

) ; '

y * = x i â + u i . En général, une adoption de normalisation c = 0 et ó = 1

observables et où fi = (fi1,...fik YE Rk est un vecteur de paramètres inconnus. La vraisemblance associée à l'observation yi

est :

garantit l'unicité de cette fonction et implique que les EMV sont convergents vers les vraies valeurs des paramètres. Le gradient ou

L ( y , â) = ? F ( x j13 ) yi [1 - F ( xiâ )]1-yi . Finalement, la vraisemblance logarithmique est :

y i

log L ( y , â) = E lo g F ( x ;â ) + E log [1 - F ( x;â )] . Notons que log L ( y , â ) est strictement concave, ce qui

i : yi = 1 i :y i=o

=

'

1 p i = F ( xiâ)

0 1 - p i = 1 - F ( xiâ)

L y i â p i

( , ) y i (1

= -

i

=

n

1

y i

i =1

pi )1 -yi ; la vraisemblance associée à l'échantillon de taille n s'écrit :

=

1 s i y * > c

0

a ille u r s

xi = ( x 1i ,..., xki ) , ? i = 1,...,n , désigne un vecteur de caractéristiques '

où c est une limite réelle et y* une variable latente (tolérance

avec ö fonction dérivée deÖ au point â

à

à

*

à

yi

à

n

n

1

1

i

i

=

=

Évaluation de la qualité du modèle

Notons pi = F(xiâ) la probabilité de la survenue de l'événement yi = 1 . Il est possible d'estimer cette

probabilité par pà i = F ( xi'âà) = yài . De plus, l'on peut réaliser une prédiction de yi en utilisant :

3. Prise en compte de l'hétéroscédasticité

L'hétéroscédasticité apparaît quand on traite des unités pour lesquels il peut exister un effet taille. Elle correspond à une situation où la variance des erreurs n'est pas constante pour toutes les observations. Sa détection se fait à l'aide des principaux tests, tels : tests de White, de Huber, de Golfeld-Quant et de Gleister [voir Y. Tillé (2004) pour les détails relatifs à ces tests]. Parfois, la prise en compte de l'hétéroscédasticité demande juste la pondération par la racine carrée du nombre d'individus.

Encadré F3 : Tests de spécification et inférence

1. Test sur les coefficients du modèle

Il y a trois principaux tests couramment usités : le test de Wald, le test du score ou du multiplicateur de Lagrange (LM : Lagrange Multiplicator) et le test du rapport des maxima de vraisemblance (LRT : Likelihood Ratio Test). Ces trois tests sont asymptotiquement équivalents. Mais le LRT reste localement le plus robuste. Il est le test indiqué lorsque la nécessité de l'estimation du modèle avec ou sans contraintes s'impose. Son calcul ne nécessite que la connaissance des valeurs de la vraisemblance maximisée. De plus il ne demande aucun calcul analytique de dérivées ni de variance (P. Deschamps, 2007). Dans un modèle probit, l'on peut appliquer sans difficulté particulière la logique du test du rapport des maxima de vraisemblance. L'on estime le modèle non contraint et le modèle contraint :

*

soient âj et ,0 j les deux estimations respectives ainsi obtenues. La statistique LRT correspond alors tout simplement

à l'écart des vraisemblances logarithmiques. La statistique LRTj du test du rapport des maxima de vraisemblance associée au test unidirectionnel H0 : â j= â0 contre H1 : â j? â0 admet la loi suivante sous H0 :

L'on rejette H0 si LRTj x0 95(1), le membre de droite désignant le quantile à 95 % de la loi du khi-deux à 1 degré de liberté. Notons que si le test porte sur plus d'un paramètre, l'on utilise la statistique suivante : LRT = - 2log ë = - 2[log( , â à ) - log( , â à * )] ??? ÷ 2 ( )

L

y y r , lorsque n ? 8 ;

r étant le nombre de restrictions imposées sur les paramètres.

2. Tests de spécification du modèle

Il s'agit ici des tests qui permettent d'évaluer la qualité de l'ajustement par le modèle. En effet, il se peut que l'on ait estimé le modèle avec des explicatives fortement corrélées (l'on parle de multicolinéarité ou dépendance linéaire approximative entre les colonnes des explicatives). La multicolinéarité se définit comme le fait que la matrice

des exogènes ne soit pas de plein rang. Dans ce cas, les

aux faibles fluctuations d'échantillonnage. Ce phénomène est détecté par plusieurs tests. Au rang de ces tests l'on peut citer : le test de Klein, de Farrar-Glauber, de Theil, du VIF [pour les détails théoriques sur ces tests, voir Y. Tillé (2004)].

Dès lors, deux indices sont souvent utilisés pour évaluer la qualité globale du modèle : (i) le coefficient de détermination calculé entre les yi et les yài ; (ii) la proportion d'unités bien classés, définies par :

% ubc = [ n- E( y i - A) 2]/

LRT = - 2 log ë = - 2 Llog( y ijj ) - log( y , /3; ) 1 ÷2 (1) , lorsque n ?8

n ou alors, le nombre de fausses prédictions nfp = E (yi -- A)2

0 si .A= F (xiâ) < 1 / 2

1 si y i = F (xiâ) =1 / 2

â j ont soit des fortes variances estimées soit une instabilité

précédent sommaire






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus