2.1.1 Propriétés
élémentaires
Danscettepartie,nousprésentonslespropriétésfondamentalesdelestimateuretles
critères d'erreurs usuels. Nous calculons dabord le biais et la variance
de lestimateur
b
fn(x). Ensuite, nous exprimons le risque
quadratique exact en un point x fixé, puis le
risque intégré. Enfin, nous approximons ces
résultats. Dans ce qui suit, nous supposons que
les dérivées première et seconde de f existent et
admettent une intégrale finie sur le support de la
densité ?.
FIG. 2.1 - Illustration des noyauc continus
symétriques
b
Propriété 1: La fonction x -?
|
de prohahilité
fn(x) est une densité
b
|
Démonstration: La somme continue de
|
fn(x) sur le support ? = R est
|
Z Z (x - Xi )
Xn 1
bfn(x)dx = nh K dx
h
R R i=1
Z (x - X1 ~
1
= hK dx,
h
R
en posant t = (x - X1)/h et donc dx = hdt, nous trouvons
Z Z
bfn(x)dx = K(t)dt = 1.
R R
Deplus,lenoyauK
estdéfinipositif.Lasommesurtoutléchantillonresteaussipositive.
Par conséquent, l'hypothèse de
positivité est vérifiée.
2.1.2 Biais ponctuel
Le hiais ponctuel mesure la différence entre la valeur
moyenne de lestimateur bfn et la valeur de la
fonction inconnue f en un point x.
{ } { }
Biais bfn(x) = E
bfn(x)- f(x). (2.6)
Propriété 2: Soit x fixé dans R.
Le hiais de l'estimateur a noyau
présenté dans (21) est
{ } Z
Biais bfn(x) ÿ=1
2h2f00 (x) t2K (t) dt. (2.7)
R
FIG. 2.2 Estimation totale a noyau
gaussien
Le signe » ÿ=» indique
que la quantité à gauche est
équivalente à la quantité à
droite. Démonstration: Comme les variables aléatoires X1,X2,.. .
,Xn sont i.i.d., nous avons successivement
( )}
{ } Xn (x - Xi
1 1
E bfn(x) = E h K
n h
i=1
1 n
Xn i=1
{ 1 (x - Xi )} E h K h
{ 1 (x - X1 )}
= E hK h
Z ~x - x1 )
1
= hK f (x1) dx1.
h
R
Nous effectuons le changement de variables suivant
-t = (x - x1)/h, d'oñ x1 = ht + x.
b
De là, en utilisant l'hypothèse (2.2),
le biais de fn(x) s'exprime ainsi par
{ } Z
Biais bfn(x) = K (-t) f (x + ht) dt -
f(x)
Z R
= K (t) f (x + ht) dt - f(x).
R
Dans le but d'avoir une forme plus simple qui ne
dépend que du paramètre h, nous approximons la formule
du biais en utilisant la formule de
TaylorrLagrange
f (x + ht) = f(x) + htf' (x) + h2t2
2 f'' (x) + o (h2t2).
Ainsi, nous obtenons
Biais { :fn(x) } = f (x) J K (t)dt + hf(x) JtK(t)dt
R R
+2h2 f" (x) I t2K(t)dt - f
(x) + o(h2).
D'apres les hypotheses (2.3) , (2.4) et (2.5) nous
avons finalement
Biais { in(x)} 12 h2 f00
(x) JRt2K (t) dt.
2.1.3 Variance ponctuelle
Propriete 3 : Soit x fixe dans R. La variance de
l'estimateur bfn est
Var { :fn(x)} =ÿ nhf (x) I K
(t)2 dt. (2.8)
Demonstration: Partant de l'hypothese d'independance
entre les Xi, nous avons
-- Xi V ar { :fii(x) } = V ar n {1 ÷`i x K h
i=1
n
1 V ar{ h 11 K (x - hX1)1
2
E [11 K (x h X1)J )12 n Lt1 1
[Elh 1 K (x h X1)j)11
n
1
1 1
n h2 K2 x h x1) f (x1) dx1
n JR
1 h
1 i1K(x x1)
|
2
f (x1) dx1 l .
|
Nous effectuons le changement de variable -t = (x -
x1)/h. Nous trouvons
nh2
1 1
V ar { :fii(x) } = K (-t)2 n f (ht + x)hdt - {IRK
(-t) f (ht + x) hdt} 2
h 1 1
IRK (t)2 f (ht + x) dt - n[Biais {
:fii(x)} + f (x)i2
n
h 1 IRK (t)2 f (ht + x)dt - 1 {O
(h2) + f (x)}2
n
Finalement, sous la condition d'avoir f K(t)2dt <
+8 et pour n grand, nous avons
Var { rn(x)} =ÿ nhf (x) I K
(t)2 dt.
2.1.4 Erreur quadratique moyenne
(MSE)
Propriete 4: L'erreur quadratique
moyenne (en anglais "Mean squared Error") en
un point x fixe s'exprime par
MSE (x) = V ar { :fii(x) } + Biais2 {:fii(x) }
(2.9)
Demonstration: Nous obtenons par succession
MSE (x) = E [{ 1n(x) - f (x)}21
= E ([in(x) E { in(x)} E {
in(x)} f(x)i2)
= E ([ 1n(x) - E { Mx) }i2) + 2E [ 1n(x) -
E { 1n(x)}i
[E { in(x)} f(x)i [E {
in(x)} f(x)i 2
= V ar { rn(x) } + Biais2 {rn(x)}
= MSE(x;n,h,K,f).
D'apres les resultats (2.7) et (2.8), l'approximation du critere
MSE en un point x fixe est
2
AMSE (x) = n1hf (x) I K
(t)2 dt + {1 2 h2 f" (x) I t2K (t)dt } .
(2.10)
2.1.5 Erreur quadratique moyenne
integree (MISE)
Propriete 5: L'erreur quadratique
moyenne integree (en anglais "Mean
Integrated Squared Error ") est la mesure
theorique commune la plus utilisée pour evaluer lerreur entre
la fonction f et bfn. Nous avons etudie dans la partie
precedente le comportement de bfn(x) en un point fixe. Il
est egalement convenable devaluer lerreur globale sur le
support R de cet estimateur.
MISE(n,h,K,f) = I MSE(x)dx (2.11)
R
=
IV ar { :fn(x)} dx + I Biais2
{:fn(x)} dx.
R R
En utilisant l'expression approchee du critere MSE (210) nous
avons successivement
AMISE(n,h,K,f) =
|
h1
JRK(t)2dt I f(x)dx
nh
|
2
+h4 t2K(t)dt } f f"(x)2dx
4 R
1 J K(t)2dt +
41h4 t2K(t)dt }2 I
h f" (x)2dx
nR
avec
V (K) = f t2K(t)dt = V ar(K).
2.1.6 Choix du noyau
Le premier choix porte sur la nature de la densité
noyau que nous utilisons. Pour mesurer l'efcacité
de chacun des noyaux continus
symétriques présenté dans lele
tableau 2.1, nous utilisons une mesure commune qui consiste a
calculer le rapport du critere AMISE des deux noyaux mis en
évidence
eff(K1,K2) = AMISE(K1)
AMISE(K2)
Nous supposons que K1 est le noyau
d'Epanechnikov. Ce noyau est considéré comme une
référence par rapport a tous les autres noyaux
continus classiques. Il estest largee ment
apprécié pour ses performances (au sens on sa forme répond
bien a la plupart des questions soulevées par le probleme de
lestimation non paramétrique de densité) et il est
considéré comme optimal au sens des mesures derreur IlII o~re la
valeur défcacité maximale. Nous nous sommes appuis sur les
travaux de Tsybakov (2004).(2004). Ainsi, apres avoir fait les
calculs nécessaires lefcacité dun noyau K para rapport
au noyau d'Epanechnikov se mesure par
1
VfR t2K(t)dt fR
K(t)2dt < 1.
5V5
eff (K) = 3
Le choix de K dépend seulement de la nature de f et
nous admettons qu'en pratique le choix du
noyau d'Epanechnikov est le plus staisfaisant Nous donnons lele
tableau récapitulatif (Tab. 2.2) qui présente la
valeur defcacité des différents noyaux continus
symétriques.
TAB. 2.2 -- Efficacite des noyaux
continus symetriques
Noyau Efficacité
Epanechnikov 1.000
Biweight 0.994
Triangular 0.986
Normal 0.951
Uniform 0.930
Commentaire:
Danslecasdesnoyauxcontinussymétriques,nousremarquonsque
les valeurs d'efcacité des noyaux tels que le
noyau biweight triangulaire ou Epanechnikov
sont tres proches. Par conséquent Le choix du
noyau nest pas tres important.
|