Chapitre 4
Influence et choix de la fenêtre de lissage
4.1 introduction
Nous avons vu, dans le rappel sur l'estimation de la
densité de probabilité par la méthode du noyau
que le choix du paramètre de lissage est crucial
pour la qualité de l'estimation. En ACP de densités,
on est amené a estimer simultanément plusieurs densités.
La qualité de l'estimation dépend comme nous l'avons
constaté dans le paragraphe précédent, des
différences entre les densités et leurs estimations, des
différences qu'on a résumées par les erreurs
quadratiques intégrées
asymptotiques. Une chose qui nous semble
évidente, si nous choisissons ces erreurs comme un critère de
sélection, on est donc amené a chercher pour chaque
densité du nuage une fenêtre correspondante, on parlera
alors de plusieurs fenêtres optimales.
Notre souci dans ce présent chapitre est de proposer un
critère avec lequel on calculera une fenêtre h
dite" optimale", qu'on utilise dans l'estimation
simultanée de toutes les densités.
4.2 Influence de la fenêtre de lissage
Soit (Ù,A,P) un espace probabilisé et
Xt: (Ù,A,P) -? (IR, BIR), t E
{1, . . . ,L}, une famille finie de variables aléatoires
de densités inconnues ft vérifiant:
? t =6 s, P{w E Ù,
Xt(w) = Xs(w)} = 0.
(4.1)
Soit (xt,i,...,xt,nt), t ? {1,...,L},
nt réalisations de la variable aléatoire Xt .
L'estimation par noyau de ft, t ?
{1,...,L} est définie par:
?x ? R, fh,t(x) = 1nth
|
nt
i=1
|
K(x (4.2)
h
|
h un nombre réel strictement positif, et
K un noyau uniformément borné,
symétrique autour de zéro et
vérifiant
Z
|t|K(t)dt < 8. RI On a alors le
théoréme suivant:
Theoreme 4.2.1 . Si nt, t ? {1,... ,L}
est fini alors:
a) limh?0 < fh,t,fh,s >= 0, t
=6 s. (p.s)
b) limh?0 < fh,t,fh,s >= +8, t
= s.
<fh,t,fh,s> 0 t s.
(p.s)
c) limh?0
d) limh?+8 kfh,tkkfh,sk = 1.
<fh,t,fh,s>
Demonstration:
Désignant par L1, l'espace des
fonctions Lebesgue-intégrable sur R et
11.111 sa norme associée.
a)
De la formule (2.20), on déduit
nt
i=1
XZns RI j
K(y -h xt,i)
K(y -h xs,j) dy,
=1
1
< fh,t,fh,s >=
ntnsh2
pour montrer alors (a), il suffit de montrer pour tout i
et j, on a
h?0
lim h2 K(y - h xt,i)
K(y - h xs,j) dy = 0. (4.3) RI
Soit le changement de variable z =
y-h xt,i , alors:
h2 h
xt,i)K(h - dy = 1 h
I K(z) K(z + xt,i
h xs,j ) dz, (4.4)
fi
comme K(--z) = K(z), donc
1 1
(4.4) = h K(--z)
K(xt,i h
( z)) dz = K(z)
K(xt,i --xs,jh-- z) dz. RI
K étant dans L1, on peut alors
écrire (voir Buchwalter, page 115)
(4.4) = 1 K * K(xt,i
(4.5)h
(*: désigne le produit de convolution
entre deux éléments de L1).
Posons h = xt,i-xs,j
h , alors:
(4.4) = ( 1
xt,i -- xs,j
) h:K * K(h0),
(4.6)
pour presque siirement xt,i
=6 xs,j, montrer (4.3), revient a montrer
h0K * K(h')
--> 0 quand |h:| --> cc. (4.7)
Soit pour cela la fonction H définie par
bhp E R, H(h') =
h0 K(h'). (4.8)
H et K sont dans L1, on écrit
alors: ( voir Buchwalter, page 115)
H * K(h') = I H(h --
y)K(y)dy = I (h' --
y)K(h: -- y)K(y)dy,
a
=
hIK(h' --
y)K(y)dy -- I K(h' --
y)yK(y)dy,
a a
=
h'K*K(h')--K*H(h').
Mais (voir Buchwalter, page 116)
bhp E R, K *
H(h') = H *
K(h'),
on déduit
Donc pour montrer (4.7), il suffit de montrer:
lim I K(h' - y)yK
(y)dy = 0. (4.10)
|h'|?8
Posons
Gh (y) = yK(h' -
y)K(y), ?h' ? R,
on montre alors (4.10) en utilisant le théoréme de
la convergence dominée (C.D) de Lebesgue dans
L1 (voir Bouyssel, page 147), on vérifie pour
cela les deux conditions suivantes:
1. lim|h0|?8 Gh
(y) = 0, ?y ? R,
2. ?h' ? R, ?G ? L1, tels
que: |Gh'(y)| =
G(y).
1.
Si y = h', on a
Gh0(h0) =
h0K(0)K(h0) -? 0
quand |h:| -? 8,
K(h: - y) = 0,
(car: K(0) < 8 et
lim|h0|?8 h:K(h') =
0). Pour y =6 h' fixé, nous avons
lim
|h0|?8
|
Gh0(y) = lim
|h0|?8
|
(car si lim|h0|?8
h:K(h') = 0 on a aussi
lim|h,|?8 K(h:) = 0).
Par conséquent
?y ? R,
Gh0(y) -? 0, quand
|h:| -? 8. (4.11)
2. Comme K est uniformément borné,
donc ? h' ? R, ? y ? R, ?M > 0,
tels que
|K(h: - y)| = M,
donc pour tout h' ? R, et pour tout y
? R, on a
Posons G(y) =
M|H(y)|, H dans L1 donc G est aussi
dans L1, on déduit
?hp ? R, ?G ? L1, tels que
|Gh,(y)| = G(y).
(4.13)
De (4.11) et (4,13), on déduit en appliquant le
théoreme de la (C.D) de Lebesgue:
IIGh,(y)111 =
f|yK(h' - y)K(y)|dy
--> 0, quand --> 8. (4.14)
a
Mais
I
yK(h' -
y)K(y)dy| = I|yK(h-
y)K(y)|dy. a a Par
conséquent
h'K * K(h') -?
0, quand |h0| -? 8. (4.15)
C.Q.F.D b)
|
1
< ft,h,ft,h >= n2 t
|
1 h2 E LK(y - h
xt,i) K(y
xt,) dy. (4.16)
i,j
|
Posons A(i,j) =
{(i,j), tels que xt,i =
xt,j}, alors:
1
< ft,h,ft,h > = n2 t
h E fiK(y )
K(y ) dy,
2
(i
,j)6?A(i,j)
1
+ n2t
1 h2 La
(i,j)?A(i,j) IK2(y
h xt,i)dy.
Nous avons d'aprés (a)
(4.17)
h2 E I K( h xt,i)
K( y tj
, ) dy -?0, quand h
-?0.
,j)0A(i,j)
(i
Soit maintenant le changement de variable z
= y-xt,i h ,alors pour tout i nous avons:
1
h2
I K2(y
xt,i)dy = 1 h I
K2(z)dz, (4.18)
comme K est borné, dans L1, alors (voir
Buchwalter, page 31) K2 est aussi dans
L1, c'est-à-dire R
RIK2(z)dz < 8, on
déduit pour tout i:
K2(y -h
xt,i)dy -? +8, quand h -?
0. (4.19)
ZRI
1 h2
Par conséquent et comme le cardinal de
A(i,j) est fini, alors:
1 1
h I K2 (y
xt,i)dy -?+8, quand h
-?0. (4.20)
2
(i,j)?A(i,j)
De (4.18) et (4.21), on déduit
< ft,h,ft,h >-? +8, quand h -? 0
c) D'aprés (a), nous avons:
< fh,t,fh,s >-? 0, quand h -? 0, ?t
=6 s,
et nous avons d'aprés (b)
Ifh,tl = (< fh,t,fh,t
>)12 -? +8, quand h -? 0, ?t ?
{1, ... ,L}.
On déduit
d)
|
< fh,t,fh,s > Ifh,t11fh,s1
|
-? 0, quand h -? 0, ?t =6
s. (4.21)
|
Pnt Pnt RIR K(
y-xt,i
h ) K( y-xt,j
h ) dy
i=1 j=1
2 Pns Pns RIR K(
y-xs,i
h ) K( y-xs,j
h ) dy
i=1 j=1
< fh,t,fh,s
> Ilfh,t1111fh,s11
2
Pnt Pns RIR K(
y-xt,i
h ) K( y-xs,j
h ) dy
i=1 j=1
1 1 .
=
Par des changements de variable, on obtient
Pnt Pns RIR K(z)
K(z + xt,i-xs,j
h ) dy
i=1 j=1
1
Pns
Pns
2 RIR K(z) K(z +
xs,i-xs,j
h ) dy
i=1 j=1
K(z + xt,i h xt,j
) dy
Eint 1 2...7nj
t1fig K(z)
1 ,
2
< fh,t,fh,s
> Ilfh,t1111fh,s11
=
pour montrer alors (d), il suffit de montrer
ZRI
K(z) K(z + ) dz =
K * K() -?I K2(z)dz, quand h
-?+8.
(4.22)
a
â ? {xt,i - xs,j, xt,i - xt,j, xs,i - xs,j}.
Ce qui revient a montrer
K * K(h') --> I
K2(z)dz, quand h--> 0.
a (4.23)
(où: h0= â
h).
Posons ?h' ? R, ?y ? R,
Øh/(y) =
K(h' - y)K(y)
?y ? R, Ø(y) =
K2(y),
on montre alors (4.23) en utilisant le théoréme
C.D, on vérifie pour cela les deux conditions suivantes:
1. limh'?0
Øh/(y) = Ø(y),
?y ? R,
2. ?h' ? R, ?F ? L1, tels
que: |Øh'(y)| =
F(y).
1.
2.
|
lim
h'?0
|
Øh/(y) = lim
h0?0
|
K(h' - y)K(y)
= K2(y). (4.24)
|
Comme K est uniformément borné, donc ?
h' ? R, ? y ? IR, ?M > 0, tels
que:
|K(h: - y)| = M,
donc pour tout h' ? R, et pour tout y
? R, on a
|Øh'(y)| =
M|K(y)|. (4.25)
Posons F(y) =
M|K(y)|, K dans L1 donc F est aussi
dans L1. On déduit:
?hp ? R, ?F ? L1, tels que
|Øh/(y)| =
F(y). (4.26)
De (4.24) et (4,26), on déduit en appliquant le
théoreme de la (C.D) de Lebesgue:
h?+ h-4
lim 11Ø0111 = lim I
K(z) K(z + ) dz =
11K2111 =
K2(z)dz. (4.27)
00 h 8 RI
Remarque
Ce théorème montre, comment se comporte le
produit scalaire entre fh,t et fh,s,
pour les petites (resp grandes) valeurs de h, ainsi la
qualité de l'estimation de l'ACP théorique,
comme le montre l'exemple suivant.
Exemple
On souhaite alors visualiser a l'aide d'un exemple de
simulation, comment évolue la qualité de l'estimation
de l'ACP théorique des densités, lorsque
les ft sont estimées par les estimations données par la
formule (4.2), oi h parcourt un certain ensemble de valeurs. Pour cela
nous avons procédé a une ACP sur les estimations des
densités ft de la variable aléatoire Xt de loi
N(t,vt), lorsque mt = m = 30 et
h E
{10_3,10_2,10_1,2}.
Les projections des densités estimées sur le
premier plan principal sont données par les
graphiques de la figure 18.
h = 10-3 h =
10-2
3.33% 5%
![](Analyse-en-composantes-principales-de-densites-de-probabilite-estimees-par-la-methode-du-noyau106.png)
4
3.33% 6%
14% h = 10-1 27% h = 2
.1
![](Analyse-en-composantes-principales-de-densites-de-probabilite-estimees-par-la-methode-du-noyau107.png)
02
01
18
20%
6
Fig.18:Allure du nuage sur le premier plan
principal en fonction de la fenëtre de lissage h
. 2 . 2
05 12
lors d'une ACP normée sur les densités
estimées par le noyau gaussien.
415 14 15
.
0
6
(cas de la famille de densités de lois
N(t,.../t))
7
L'allure de la matrice des produits scalaires estimées
àW, en fonction des valeurs de h, est
donnée par la figure 19.
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
1
0.006 1
0.003 0 1
0 0 0.0007 1
![](Analyse-en-composantes-principales-de-densites-de-probabilite-estimees-par-la-methode-du-noyau109.png)
...
....
. ..
. ..
..
.
...
. ..
1
0
0 0 ....
. .. .. 0.007 1
.... 0 0 0 . . 0 0.005 1
0 0 0 0 0 0.03 0 1
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ? ? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ? ? ?
? ?
1
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
0.180 1
0.060 0.120 1
0.002 0.100 0.200 1
... .
. . . .
.. .. .. .. 1
0
0 0 ....
. .. .. 0.110 1
0 0 0 ...
. .. 0.036 0.110 1
0 0 0 0 0.056 0.086 0.037 1
h = 10-3 h =
10-2
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
1
0.64 1
0.36 0.52 1
0.13 0.35 0.62 1
...
0 ...
. .
. . .
.. .. .. 1
....
0 0 . ..
. . 0.43 1
.. .. 0.28 0.41
0 0 0 1
0 0 0 0 0.29 0.35 0.32 1
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ? ? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ? ? ?
? ?
? ?
? ?
1
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
0.91 1
0.76 0.94 1
0.65 0.86 0.97 1
...
3.10-8 ... ....
. .. .. 1
3.10-9 7.10-8 ...
...
. .. 0.97 1
1.10-6
2.10-5 2.10-5 ... ...
0.91 0.81 1
3.10-8
6.10-6 2.10-5
5.10-5 0.97 0.93 0.96
1
h = 10-1 h = 2
Fig.19: Allure de la matrice
Wà en fonction de la fenëtre de
lissage h, lors d'une ACP normée sur les
densités estimées par le noyau gaussien,
(cas de la famille de densités de lois N(t,V't)).
Pour une taille d'échantillon fixé, les produits
scalaires suivants::
< fht,
fh >= < fhs,fhs>
(4.28)
s 11fht1111fhs11
tendent vers 0 si t =6 s
lorsque h tend vers 0. La matrice des produits scalaires
normés tend vers la matrice identité, elle admet donc une seule
valeur propre égale a 1 d'ordre de multiplicité
L. Chaque axe principal explique une
quantité d'inertie égale a
1L, L étant le nombre de
densités dans le nuage (égale aussi a
l'ordre de W).
Lorsque h tend vers l'infini ces memes
produits scalaires tendent vers 1, ?t ? {1,..,L}. La
matrice W, admet donc une seule valeur propre non nulle
égale a L d'ordre de multiplicité 1 et une
autre valeur propre égale a 0 d'ordre de
multiplicité L-1. Le premier axe principal explique
toute l'information contenue dans le nuage initial.
Ces résultats, montrent ainsi que la fenete de
lissage h, a une grande influence sur les
résultats de l'estimation.
|
|