4.2.5 Choix de fenetres
Nous présentons a ce niveau trois méthodes de choix
de fenêtres pour approcher a valeur idéale de la fenêtre h
définie par
hid = arg min
h>0
|
MISE(n,h,K,f) = hid(n,K,f). (4.17)
|
a. Minimisation des erreurs quadratiques
Du point de vue purement pratique on X =
(X1, . . . ,Xn) est un échantillon de variables
aléatoires de fonction de masse de probabilité f, associé
aussi a la distribution empirique f0 de f, nous proposons
maintenant quelques types de fenêtres
liées aux erreurs d'estimations. La premiere est déduite de
???rr??r q???r?t?q?? ??te?r(? (en
anglais " Integrated Squared Error")
définie par
ISE := E
x?N
|
{ :In(x) -- f(x) }2 = ISE(X; h,K,f), (4.18)
|
laquelle mesure sur un seul échantillon
X l'écart (au sens quadratique) entre
fb et f. Par conséquent, la minimisation en h
de l'ISE (4.18) conduit a choisir une fenêtre
adéquate
h** = arg min
h>0
|
ISE(X;h,K,f) = h**(n,K,f). (4.19)
|
En remplacant f par f0 dans (4.19), nous utilisons
h**0 = h**(n,K,f0) pour le lissage
discret d'un f0 de f. Autrement dit, nous avons
h** 0= arg min h>0
|
ISE(X;h,K,f) = h**(n,K,f0). (4.20)
|
Basé sur la convergence de f0 vers f
quand n --> +00, nous avons immédiatement
lim
n?+8
|
h** 0(n,K,f0) = lim n?+8
|
h**(n,K,f), (4.21)
|
pour un type de noyau associé K
donné. L'importance de la fenetre adéquate h** (4.19)
de h est due, en partie, aux relations suivantes
MISE = E (ISE) = E
x??
|
MSE (x). (4.22)
|
b. Validation croisée
Toutcommelecascontinu,laméthodeclassiquedevalidationcroisée(enanglais"Cross
Validation") ne fait pas usage des approximations des
dérivées de f est toujours applicable dans le contexte
des estimateurs a noyau discret pour mieux estimer la valeur
idéale hid (4.17) de h.
Le principe de cette méthode est de minimiser par
rapport a h un estimateur de MISE pour trouver le paramètre optimal.
Pour cela la forme du MISE peut etre développé comme suit:
MISE = E {E R(x)} - 2E {Efn(x) f (x)}+ E f
(x)2.
x?N x?N x?N
Le terme Ex?N f(x)2 n'est pas
aléatoire, et ne dépend pas de h. Nous notons alors,
MISEcv = E E f--2n (x ) - 2E {
E (x) f (x)} = MISEcv(h),
x?N x?N
1.12n(x) qui est un estimateur
sans
le terme MISE qui dépend de h. Dans la suite,
nous déterminons un estimateur CV (h)
de MISEcv. D'abord, nous avons évidemment
x?N
biais de E {Ex?N f-12n(x)} .
Ensuite, soit
1
fn,-i(x) = n - 1E
jai
|
Kx,h (Xj)
|
Par construction,
1
i=1
1
i=1
KX%,h (Xj)
n(n - 1)
ij
est un estimateur de E {r x?N
bfn(x)f(x)} et on vérifie de
plus qu'il est sans biais En
effet, d'une part, comme les Xi sont i.i.d., nous avons
?
?
?
i=1
j1
= E
1
n(n - 1)
KX,,h (Xj)
?
?
?
= E
1E
n - 1 j1
K (Xj)
= E {KX,,h (X2)}
Finalement, nous venons de montrer que
CV (h) = E
xEN
|
b12n(x) - n2
|
Xn i=1
|
b1n,-i (Xi)
|
( n 2
= E n E Kx,h (Xi) } 2- n(n - 1) E E KXi,h
(Xj).(4.23)
xEN i=1 i=1 j6=1
est un estimateur sans biais de MISEcv. Par
conséquent, la fen:etre optimale par la méthode de la
validation croisée s'obtient par
hcv = arg min
h>0
|
CV (h) (4.24)
|
on CV(h) est donné en (4.23). Pour
quelques détails, nous pouvons nous
référer a de nombreux auteurs tels Bowman (1984), Marron (1984)
Rudemo (1982) Stone (1984) et leurs références.
c. Exces de zeros
Pour cette section, le choix de la fen:etre repose sur une
particularité des données de comptage avec ? = N
qui n'est autre que l'exces des zéros dans
léchantillon X = (X1, . . . ,Xn). Pour ce
phénomene bien connu (voir, par exemple Kokonendji et al.,
2007, et leurs références) et étant donné un
noyau discret associé Kx,h, nous pouvons choisir
une fen:etre adaptée h0 = h0(X; K) de h satisfaisant
Xn i=1
|
Pr (KXi,h0 = 0) = n0, (4.25)
|
on n0 désigne le nombre des zéros
dans X; voir Marsh & Mukhopadhyay
(1999) pour leur noyau du type poissonnien. Cette
fen:etre h0 ajuste le nombre de zéros
théorique au nombre de zéros observé.
L'équation (4.25) s'obtient a partir de
lexpression
E {in(x)} = E
yEN
|
Pr (Kx,h) 1(y),
|
dans laquelle nous prenons y = 0 et 1(0) = 1 afin
d'identifier le nombre de zéros théoriques au nombres
de zéros empiriques n0.
Dans le cas du noyau associé poissonien la
fen:etre adaptée h0 est connue explicitement. Tandis que dans
le cas des noyaux associés binomial et binomial
négatif, la fen:etre h0 est obtenue par la résolution
numérique dune équation non-linéaire
(voir Table 4.1)
4.3 Noyau associe discret multiple
TAB. 4.1 -- Solutions h0 pour les noyaux associes
discrets standards
Type de noyau h0
Poisson h0 = log (n1:0 Ein 1 eXi
Binomial (1--h0
= n0
Li=1 Xi+1
Binomial négatif Ein=1 (2XXi+i+1+1h0 =
n0
fonction de masse de probabilité f et inconnue defini sur
= N de dimension d. L'esti-
b
mateur fn de f noyau asocié discret
est
fn (x) = 1
n
|
Xn i=1
|
Kx,H (Xi) , (4.26)
|
on la cible x =t (x1, . . . ,xd), H est la matrice
pleine inversible de variance-covariance desfenêtres hdedimension
d×d(présentéedanslasection2.2),et Xi =t
(Xi1, . . . ,Xid). La fonction Kx,H est le
noyau associé asymétrique sur
?x,h.
Dans le but d'avoir une forme plus
sympathique et qui ne dépend pas des
coefcients de corrélation,nousprésentonsl'estimateur
(4.26)quiutiliseleproduitdesnoyauxassociés
univariés. En efet, nous avons
fn (x) = 1
n
|
Xn i=1
|
? ?
?
|
d j=1
|
Kj xj,hj (Xij)
|
?
?
?
|
,
|
(4.27)
|
on xj est la jème composante du vecteur x,
hj est la jème fenêtre et Xij est la ième
observation de la jème composante. Le noyau
associé Kj est la fonction noyau associé
univarié décrite tout au long de cette partie.
|