3.3.2 Formulation de l'indicateur de
vulnérabilité
Comment agréger des variables dichotomiques, ordinales,
et quantitatives, en un seul indicateur composite qui ait la
propriété d'être un bon résumé de
l'information contenu dans ces variables ? En tenant compte de l'étude
des fonctions effectuée plus haut et des valeurs prises par nos
données, nous avons construit l'indicateur ci-dessous.
Considérons m variables et les notations suivantes :
Nk est le nombre de modalité de la variable
k.
I prend la valeur 1 lorsque l'individu a adopté
la modalité i de la variable k, 0 sinon. est la valeur normalisée
de la modalité i de la variable k.
p répresente le poids de la modalité i de la
variable k.
Rang(i,k) répresente le rang de la
modalité i de la variable k.
L'indicateur de vulnérabilité total (I.V.T) par
individu se formule comme suite :
171 Nk Tri Nk m Nk
I .V.T = * Rang (i, k) * ik
>2alpik * +1;>_:pk * *
k=1 i=1 k=1 i=1 k=1 i=1
variables ordinales variables dichotomiques variables
quantitatives
L'IVT admet une formulation simplifiée de la forme :
711 Nk
I.V.T
=>_aldpik * e *
k=1 i=1
avec
6 2k
|
|
Rang(i,k) x
{2k
1
|
si k est une variable ordinale et 0 sinon
si k est une variable quantitative et 0 sinon si k est une
variable dichotomique et 0 sinon
|
La vulnérabilité moyenne individuelle vaut :
Indicateur de Vulnérabilité Total
nombre total de variables
vulnérabilité moyenne individuelle =
Il ressort de cette formule que nous avons un indicateur
simple, car il est une combinaison linéaire des autres composantes. De
plus, cet indicateur est une adaptation élargie de l'indicateur
composite de pauvreté'.
Il ne nous reste plus qu'à estimer les coefficients de
pondération de notre indicateur.
3.3.3 Détermination des coefficients de
pondération
Ce sont les valeurs issues de la détermination de ces
coefficients qui vont permettre le calcul effectif de notre indicateur pour
chaque individu. Il faut déjà admettre qu'il existe plusieurs
méthodes de détermination de ces coefficients. Ces
différentes méthodes peuvent être classées en deux
groupes : les méthodes basées sur les faits et celles
basées sur l'opinion ou le choix de l'utilisateur.
Méthodes basées sur l'opinion
On peut les classer en deux grands groupes, celles qui
recourent à l'étude du comportement des fonctions
mathématiques, afin d'obtenir un ordre de priorité des
différentes composantes et celles qui consistent tout simplement
à accorder de manière intuitive un ordre de priorité aux
différentes composantes. Nous illustrerons l'usage de ces deux
'l'indice composite de pauvreté que l'on doit à
Louis Marie Asselin(2002), se formule comme
m
ICP =E Ek rk
Pi *
k=1 iEl..Nk
techniques. Considérons les pondérations a, des
différentes variables, soit h une fonction paramétrique
et p2 la priorité de la variable X tels que
h(p2) = a,. Si h est la fonction constante,
c'est-à-dire telle qu'il existe un réel c tel que
h(x)--c, alors E2n h(p2) = 1. Il
s'ensuit que c = On se trouve dans la cas où les
différentes variables ont le même poids. Pour ce qui est de la
détermination intuitive des poids, on peut par exemple pour des raisons
justifiables considérer que l'alimentation est prioritaire par rapport
à la santé, qui à son tour passe avant l'éducation.
On définit, ainsi un ordre de priorité pour chaque composante,
ensuite on résoud le problème linéaire qui consiste
à maximiser la fonction de l'indicateur sous les contraintes de
priorité des composantes. Ce qui peut se formuler de la façon
suivante :
Maximiser {Vulnérabilité Totale}
Sous les contraintes :
- La somme des pondérations vaut 1
0. - Les pondérations des différentes variables
sont ordonnées
0. - Tenir compte des intervalles de variations des
différentes composantes, car chaque variable a un ensemble de valeurs
qu'elle peut prendre.
Méthodes basées sur les faits
Comme la dénomination l'indique, il s'agit d'un
ensemble de méthodes qui permettent la détermination des
coefficents de pondération des modalités des différentes
variables, en s'appuyant sur l'observation d'un ensemble d'informations
collectées. Parmi ces méthodes, on peut citer la
régression linéaire et l'analyse factorielle.
Régression linéaire
Elle consiste à estimer les paramètres d'une
relation existant entre une variable dépendante et un ensemble de
variables explicatives. L'on considère dans ce cas qu'il existe une
relation entre la valeur de l'indice et les valeurs prises par chaque
composante. Cette approche consiste à dériver les valeurs des
paramètres en utilisant le modèle suivant (David steifel et Davis
Sein) :
a,k = * cZ + U2k, ce qui veut dire
que la possession d'un actif (attribut) k par le mé-
nage i, représentée par la variable
a,k, est une fonction linéaire d'une variable
commune
inobservable c2, qui représente le
bien-être économique (l'indicateur). L'avantage de cette approche
est qu'elle laisse une possibilité d'erreur u,k,
représentant la partie de l'information contenue par les composantes et
non expliquable par le bien-être économique. La difficulté
de la mise en oeuvre de cette approche réside dans les hypothèses
suivantes :
H1 : les ménages sont supposés
indépendants et identiquement distribués ;
H2 : E(212/Cz) =
H3 : (ci, u2) suivent une loi normale
multivariée.
C'est l'hypothèse 3 qui pose problème dans notre
contexte, car si le facteur et les résidus suivent une loi
multivariée, alors les variables traduisant la possession d'un actif
devraient logiquement suivre une loi multivariée. Or certaines de nos
variables sont dichotomiques ou ordinales. Ce qui nous amène à
adopter l'analyse factorielle.
Analyse factorielle
Cette méthode s'appuie sur la géométrie
euclidienne, elle est en général employée pour le
traitement de grands volumes de données. Elle se veut une réponse
aux problèmes qui consistent à observer en dimension deux sans
dégrader l'information, des objets qui nécessitent des hyperplans
pour être totalement décrits. Suivant le type de données,
il existe plusieurs méthodes. C'est l'analyse des correspondances
multiples (ACM) qui est adaptée à notre situation (variables
qualitatives et quantitatives). Plusieurs approches sont connues dans la
littérature pour déterminer les poids des différentes
variables utilisées dans notre indicateur : l'approche classique et la
recherche d'un axe discriminant.
Approche dite classique : utilisation des coordonnées du
premier axe factoriel
Le poids à attribuer à chaque composante
(modalité) de notre indicateur (IVT) est la coordonnée
factorielle normalisée sur le premier axe. Cette approche se base sur le
fait que le premier axe factoriel explique la plus grande part de l'inertie et
qu'il traduit de manière pertinente la vulnérabilité des
individus. La mise en oeuvre de cette approche nécessite que l'on
effectue deux ACM, parfois combinées avec des classifications des
variables.
La première ACM porte sur l'ensemble des variables qui
ont été choisies pour déterminer la
vulnérabilité. En s'appuyant sur des critères tels que la
qualité de la réprésentation,
la Consistance Ordinale de Premier Axe (COPA)2, on
élimine un certain nombre de variables qui sont jugées non
pertinentes.(Asselin, 2002)
La deuxième ACM s'effectue donc avec les variables
restantes, ce sont les scores (coordonnées) représentés
sur le nouvel axe qui serviront de pondérations (Ils subiront ensuite
des opérations de standartisation).
Toutefois avant de passer à la phase pratique de notre
technique, il est nécessaire de s'entourer d'un minimum de
précautions. Il s'agit de savoir si les variables selectionnées
peuvent permettre l'extraction d'un facteur (axe factoriel) commun. La
recherche d'un seul facteur capable de résumer nos variables
présuppose qu'elles sont fortement correlées avec le facteur.
Dans le cas contraire, on sera dans l'obligation de faire plusieurs groupes de
variables corrélées entre elles et donc d'extraire autant de
facteurs que nous avons de groupes. Cela nous conduira donc à employer
l'approche qui préconise une combinaison de plusieurs axes factoriels
pour déterminer le score de vulnérabilité pour chaque
modalité.
Recherche d'un axe discriminant
L'idée est qu'il existe forcément deux groupes
d'individus, les individus vulnérables et les moins vulnérables.
Etant en présence de ces deux groupes, l'on peut utiliser un seul axe
pour les discriminer. Le choix d'un tel axe se fait généralement
parmi les facteurs, le critère retenu à cet effet est celui qui
consiste à choisir l'axe présentant la plus faible dispersion
à l'intérieur de chaque groupe (dispersion intra groupes) et la
plus forte dispersion entre des groupes différents (dispersion inter
groupes).
Lorsque ces critères de dispersion ne semblent pas
satisfaisants, en utilisant les notions de géométrie euclidienne,
il est possible de construire un axe discrimant (en utilisant certains
critères) dans le plan de notre choix.
Une fois la détermination des scores effectuée,
l'on devra procéder à leur standartisation.
Notre contribution
Nous partons d'une critique au sujet de l'approche dite
classique, qui consiste à choisir
2Cette propriété consiste, pour un
indicateur, à s'assurer que sa structure ordinale est respectée
par la disposition ordinale des différentes modalités sur cet
axe. En d'autres termes les modalités à faible score sur l'axe
doivent correspondre à de faible potentiel de
vulnérabilité et vice versa.
les scores du premier axe factoriel, qui est censé
représenter le mieux le phénomène. Il est reproché
à cette méthode de ne pas tenir compte de la qualité de
réprésentation des modalités. Il est vrai que dans le
cadre de l'ACM, lorsque les variables sont nombreuses la notion de
qualité de réprésentation devient relative. Toutefois,
nous pensons qu'il serait possible de reconstituer les fragments de
réprésentation de chacune des modalités afin d'avoir une
information plus proche du score réel des différentes variables.
Afin d'illustrer nos propos, supposons qu'une variable ait un score de 2,6 sur
le premier axe factoriel, si elle est mal représentée, avec un
cosinus carré de l'ordre de 0,001 (ce qui correspond à une
qualité de représentation de 0,1 %), alors ce score ne peut
qu'être une valeur erronée résultant du principe de
résolution. En d'autres termes, son score réel serait de l'ordre
de 0,001*2,6 sur cet axe, soit 0,0026. Ce qui correspondrait bien à la
logique de construction des axes factoriels.
Ainsi, il faudrait multiplier les scores des
différentes variables par leurs qualités de
réprésentation. Une fois cela fait, on devra se fixer le nombre
d'axes factoriels qui seront pris en compte dans notre analyse en utilisant les
principes tels que celui du coude'. Suite à cela, il sera
nécessaire d'interpréter la signification de chaque axe factoriel
retenu et d'appliquer le principe de la COPA dans chaque axe. Il s'en suit
qu'on assitera à une élimination de certaines variables non
pertinentes. Le sens dans lequel chaque axe permet d'ordonner les
modalités des différentes variables est très important,
car cela permettra de determiner le signe par lequel il faudra multiplier les
scores modifiés de chaque axe. La dernière étape consiste
à tenir compte de l'importance relative de chaque axe, puisque les axes
factoriels n'ont pas le même pouvoir explicatif, il est clair qu'un score
modifié de 0,8 par exemple, pour le premier axe est supérieur au
même score dans le deuxième axe. Afin de tenir compte de cela,
nous allons multiplier les scores modifiés par le pourcentage d'inertie
expliquée par chaque axe factoriel. Par conséquent, la
formulation du score final d'une modalité i de la variable k,
lorsque p axe(s) ont été retenus sera :
'La règle du coude consiste à délimiter
le nombre d'axes à observer en tenant compte du diagramme en bâton
des valeurs propres associées aux axes d'inerties. Il s'agit d'observer
le point de décroissance brusque qui se caractérise par un point
anguleux qui justifie son appellation. Une fois ce point connu, on ne tient
plus compte des axes dont la valeur propre est inférieure à ce
point
Score f inalik
(scoreik) . * (cosinus carre)
|
j
P
j=1 "J
|
avec
(scorel) : score de la modalité
d'ordre i de la variable k sur le j -ème axe
factoriel. (cosinus carré)] : valeur du cosinus
carré de la modalité d'ordre i de la variable k sur le
j -ème axe factoriel. Cette valeur indique sa qualité de
réprésentation sur cet axe.
A : est la valeur propre associée au j
-ème axe factoriel.
|