5.4.2) Robustesse de Zhelonkin
Dans une thèse de doctorat sur la robustesse des
modèles de sélection, Zhelonkin et al. (2013) développent
un cadre général pour étudier les propriétés
de robustesse des estimateurs et les tests dans les modèles de
sélection de l'échantillon. Ils utilisent une approche
infinitésimale (Hampel et al. 1986), qui permet d'explorer les questions
de robustesse et de construire des estimateurs et tests robustes. Pour
comprendre son approche, nous invoquerons ici les notions de fonction
d'influence, de changement de variance, et de variance asymptotiquement. Il
s'est plus intéressé à l'estimateur d'Heckman en deux
étapes, où l'on effectue une régression avec les moindres
carrées ordinaires en deuxième étape. A partir de
résultats généraux, Zhelonkin et al. (2013) :
1. dérivent les propriétés et conditions
de robustesse de l'estimateur d'Heckman en deux étapes.
2. ensuite, ils montrent que les estimations et le test du
modèle sont très sensibles aux valeurs aberrantes, et aux
déviations par rapport aux hypothèses de distribution
(l'hypothèse gaussienne surtout),
3. et proposent des estimateurs plus robustes et moins
sensibles à tous ses problèmes infé-rentiels, puis
prouvent leur normalité asymptotique.
Nous avons adapté leur thèse à notre
modèle qui, cette fois-ci explique dans l'équation principale une
variable dichotomique. Dans le paragraphe suivant, nous donnons les formules
générales, et les démonstrations sont fournies dans
l'annexe H.
Soit FN la distribution empirique des données de
masse1 N au point zi =
(z(1)
i , z(2)
i ), où
zi = (wi, ri) et z(2)
(1) i = (xi, yi), avec i = 1,
..., N. De même, soit è = (á,
â) et soit F la distribution de zi. Pour une
fonctionnelle T(F) (avec T(FN) =
àâ), la fonction d'influence définie
par Hampel (1974) est :
IF(z; T, F) = lim
å?0[T(Få) - T
(F )]/å
avec Få = (1 -
å)F + åÄz,
où Äz est une distribution au point z. La
fonction d'influence décrit le biais standard asymptotique d'un
estimateur dû à une contamination å au point z.
å est la proportion du nombre d'observations
générées à partir de la distribution
Äz, et l'idée est donc de chercher des
estimateurs fiables pour la majorité des données
générées à partir de la distribution
paramétrique F, et non-sensibles à la contamination
Äz. Zhelonkin et al. (2013) ont montré que
cette fonction d'influence n'est pas bornée
14, pour le modèle spécifié ci-haut,
14. Ceci est l'origine de la grande sensibilité des
estimateurs aux valeurs aberrantes, et aux déviations de la distribution
d'hypothèse.
43
et ont proposé une estimation plus robuste, dont les
détails sur les fonctions scores modifiées sont
précisés dans leur thèse. Le tout est
implémenté dans le package ssmrob sur R,
dont nous nous sommes servis pour une modélisation plus
robuste.
44
Chapitre
|