5.2) Sélection de l'échantillon pour
l'étude économétrique
Les données d'enquête sont le plus souvent
affectées par la non-participation systématique. Ceci peut se
produire à travers une variété de mécanismes. Si
des personnes se déclarent comme non-participantes dans
l'échantillon d'intérêt sur la base d'une combinaison de
caractéristiques observées et non observées, et que les
modèles économétriques ignorent un tel mécanisme,
cela affecte les estimations qui ne seront pas susceptibles d'être
représentatives de la population d'intérêt. Le
modèle d'inflation zéro (ou modèle augmenté de
Poisson)2 est conçu pour ne traiter que le cas où
les individus donnent des réponses "zéro" biaisées
à une question donnée. Par exemple, dans une enquête
correspondant à l'usage illicite de drogues, des réponses
à une question telle que "à quelle fréquence
utilisez-vous un médicament A ?", avec des options distinctes de
niveaux de consommation, y compris "jamais/pas récemment", i.e (yi
= 0), sont susceptibles d'avoir un excès d'observations
"zéro". Les modèles probit traditionnels présentent des
limites dans l'explication de la prépondérance des observations
"zéro", en particulier lorsque les zéros en effet, se rapportent
à deux sources distinctes. Dans notre cas, les modèles de
sélection de l'échantillon sont les plus adaptés.
Le modèle de sélection est celui dans lequel la
décision de participation (correspondant dans notre cas
à la variable être actif ou non) vise à
déterminer si les données sur la variable de résultat (ici
l'activité d'auto-emploi) seront observées, plutôt que de
savoir uniquement si l'activité d'auto-emploi est exercée ou non.
Le modèle de sélection d'échantillon le plus familier, a
été étendu à des modèles de choix binaires
par Wynand et van Praag (1981) et Boyes, Hoffman et Lowe (1989). Ces
modèles de sélectivité de l'échantillon dans ce
domaine sont construits comme des extensions du modèle canonique de
Heckman3 (1979).
Comme énoncé ci-haut, dans une population
où la motivation des individus à travailler peut être une
variable non observée qui revient au niveau de deux décisions
consécutives (ici la
1. Situation dans laquelle la variable que représente
la motivation et le potentiel d'adaptation, significative dans une
double décision consécutive et liée au niveau
d'instruction, est non-observable (et difficile à mesurer), et engendre
un problème de sélection endogène.
2. Le Modèle d'inflation zéro est un
modèle formel pour expliquer comme Lambert (1992), des données
sur le contrôle de qualité dans une industrie.
L'échantillonnage pour les déficients dans un processus de
production peut produire deux types de zéros (par unité de
temps). Le processus peut être sous contrôle, ou il peut être
hors de contrôle et l'observateur considèrera des "zéros"
anormaux dans un échantillon particulier (le "zéro" est mis pour
la modalité pièce déficiente). Ceci gonfle le
nombre de zéros dans un échantillon au-delà de ce qui
était attendu par un modèle de comptage tels que le modèle
de Poisson - le modèle est connu sous le nom de la ZIP (Zero Inflated
Poisson) ou ZAP (Zero Altered Poisson), de Harris et Zhao (2004). Voir aussi
Hinde et al. (1998) et Mullahy (1997).
3. En 2000, James Joseph Heckman a reçu le Prix Nobel
Sveriges Riksbank en sciences économiques pour ses développements
sur la théorie et les méthodes de traitements des
problèmes de sélection d'échantillon.
38
participation à la population active, et la
décision d'être un travailleur indépendant ou non), la
seconde étudiée séparément et indépendamment
de la première conduit à un biais de sélection. Il est
impératif que la stratégie de modélisation tienne compte
des deux raisons distinctes d'activité ou non, pour éviter
d'estimer à tort les caractéristiques de l'auto-emploi dans la
population active.
Soit r une variable binaire indiquant la scission
entre le régime 0 (r = 0, pour les non-actifs) et le
régime 1 (r = 1, pour les actifs), qui est liée
à la variable latente 4 r*.
Modèle probit pour l'appartenance à la
population active (sélection)
r*i =
á'wi + ui, ri =
1[r*i > 0]
Modèle de Régression pour une activité
d'auto-emploi (Si ri = 1)
y*i =
â'xi + åi, (åi, ui)
ti D(åi, ui)
Observation faite si : ri = 1.
wi est un vecteur de variables comportant des
caractéristiques des individus, et détermine le choix du
régime, á est un vecteur de coefficients inconnus, et
ui 5 un terme d'erreur. Par conséquent, la
probabilité qu'un individu donné soit en régime 1 est
donnée par :
Pr(ri = 1|wi) =
Pr(r*i >
0)|wi)
D(åi, ui) est la distribution
conjointe de åi et ui. L'approche usuelle du probit lie
la variable latente y* aux résultats observés
y. Conditionnelle à ri = 1, le type d'emploi (auto-emploi ou
non) sous le régime 1 est représenté par y (avec
yi = 0, 1), qui est généré par un
modèle probit sur la base de la variable latente y*.
La correspondance entre y et y* est donnée
par :
?
?
?
yi =
0 if y*i < 0 1 if
y*i > 0
Nous avons les probabilités suivantes :
Pr =
|
{ Pr(yi = 0|ri = 1) Pr(yi
= 1|ri = 1)
|
|
|
|
4. Cette variable latente peut être
interprêtée comme le gain d'un individu lié à son
statut d'actif ou de non-actif.
5. Habituellement, ui est normalement
distribué (Voir Harris et Zhao (2004)). Mais, nous n'adoptons pas
automatiquement cette approche ici.
39
40
41
L'estimation de la régression pour l'activité
d'auto-emploi tout en ignorant la question de sélection produit des
estimateurs biaisés, pour tous les paramètres du modèle.
L'estimation de ce modèle en deux étapes est documentée
dans une volumineuse littérature, y compris Heckman (1979) et Greene
(2008). Avec des variables qualitatives comme types de variables à
expliquer, nous ne saurions faire une régression
linéaire6 simple dans la seconde équation (la
principale). Pour une méthode en deux étapes, deux estimations de
type probit seront effectuées. Une fois l'ensemble des
probabilités spécifiées, et ainsi que les matrices (y,
w, x), nous pouvons maintenant présenter la distribution conjointe
de åi et ui.
|