Chapitre 4
Noyau associé discret
Le nombre de travaux abordant les estimateurs a
noyau pour des données discrètes reste limité.
Dans ce chapitre, nous présentons deux types de
noyaux associés discrets. La première section porte
sur les noyaux associés discrets pour des données
catégorielles on les données sont
qualitatives ordonnées et définis sur un ensemble fini
inclu dans N que nous désignons Rx,h. Ensuite,
dans une deuxième partie, nous introduisons le noyau
associé discret pour des données de comptages. Une
première tentative dans ce cadre, uniquement de
manière expérimentale a été proposé par
Marsh & Mukho
padhyay(1999).Nousétudionslespropriétesponctuellesetglobalesdechacundesdeux
estimateurs a noyau associé discret Différentes
techniques de selection de la en:tre du lissage sont
proposées. Enfin,nous généralisonslestimateur a
noyau associé aucasmultivarié.
Definition 1: ??t x ?\u9312@( ???s R ?t h > 0?
\u9670·?s ??????s ??\u9313A?? ?ss??e ??s?r?t?
Kx,h? t?t? ???t?? ?? ??ss? ?? ?r??????té
??s?rt? ????? ??r????? ??l?t?i? Kx,h s?r ?? s???rt Rx,h?
t??s q???
Rx,h n R=6 Ø (4.1)
?xRx,h ? R (4.2)
E(Kx,h) ~ x quand h ? 0 (4.3)
V ar(Kx,h) < 8 (4.4)
V ar(Kx,h) ? 0 quand h ? 0. (4.5)
Commentaire: Nous vérifions dans ce qui
suit, que dans le cas du noyau associé discret
pour des données catégorielles, le support Rx,h
coincide avec R. Nous verrons que dans certaine situation, ce n'est
pas toujours vérifié comme dans le cas des
données de comptage; Rx,h dépend de x et ne
se colle pas avec le support R.
Definition 2:: ??t X1,. . . ,Xn ?? (????t???? ??
??r?????s ??e?t?r?s ?????? ?? ???t???? ??ss? ??
?r??????te f ??s?ret? ??????? s?r R? ???st???t??r a ?\u9313A??
?ss??e ??i?r?t
b
fn =fn,h,K ?? f ?st ?e??? ??r
avec x ? ? et h > 0.
Propriété 1: Soit x fixé dans ?. Nous
avons
E {:In(x)} = E {f(Kx,h)} . (4.7)
Démonstration: En effet, nous trouvons successivement
(
1 n
E {In(x) } = E n EKx,h(Xi)
i=1
= E {Kx,h(X1)}
X=
y??x,h
|
Kx,h(y)f(y)
|
X=
y??x,h
|
f(y) Pr(Kx,h = y)
|
= E{f(Kx,h)} . ·
|
|
Propriété 2: Soit f une fonction discrete de
support ?. Soit
|
b
fn l'estimateur de f à
|
noyau associé discret Kx,h sur ?x,h.
Nous supposons que ?x ? ?,?x,h ? ?. Alors, nous avons
E{in(x)} = E
|
f(t)Kx,h(t) ? f(x) quand n ? +8.
|
t??n?x,h
Démonstration:Nouspartonsdel'espérancede
bfn(x)quiestégaleaEt??n?x,h f(t)Kx,h(t). Nous calculons
sa différence avec f(x). Pour cela, ? ä > 0 tel
que
trn(x)} f(x) =
|
~~~~~~
|
X t??n?x,h
|
{f(t) - f(x)} Kx,h(t)
|
~~~~~~
|
X
=
|t-x|<ä
|
|f(t) - f (x)| Kx,h(t) + E
|t-x|>ä
|
|f(t) - f(x)| Kx,h(t).
|
Pourcalculerlepremierterme,nousavonsrecoursaladéfinitiondelacontinuitédansle
cas discret (cette notion de continuité est différente par
rapport a celle du cas continu) f estcontinueen x ? ? € > 0, ? ä
> 0telque? t ?]x-ä,x+ä[n?x,h |f(t)-f(x)|
< E. Ce qui implique
X |t-x|<ä
|
|f(t) - f(x)|Kx,h(t) = E.
|
La fonction f est discrete donc elle est bornée par 1 et
nous obtenons successivement
X |t-x|>ä
|
|f(t) - f(x)|Kx,h(t) = ä22 Pr (|Kx,h
- x| > ä)
|
2 2
ä2V ar (Kx,h) + ä2 {E (Kx,h ) -
x}2 .
Finalement,souslesdeuxconditions(43)et(4.5)toutecettequantitéconvergevers
0.
b
Propriété 3: Soit x fixé dans ?. Le biais
ponctuel de l'estimateur fn de f a noyau associé
discret est
Biais {1n(x) } = E {f(Kx,h)} - f(x)
= f {E(Kx,h)} - f(x) + 1 V ar (Kx,h) f
(2) (x) + o(h). (4.8)
Démonstration: Par définition,le biais est la
différence entrelespérance delestimateur
b
fn et la densité inconnue f. En effet, d'apres
le résultat (4.7) nous avons
E{fn(x) } = E {f(Kx,h)}
. Or,enutilisantundeveleppomentlimitéaupointmoyen
mx,h = E(Kx,h),nousobtenons
f(Kx,h) = f(mx,h) + (Kx,h - mx,h)f(1)(x)
+ 12(Kx,h -
mx,h)2f(2)(x) + o(h). Et en prenant
l'espérance mathématique, nous avons finalement
1
E{f (Kx,h)} = f {E(Kx,h)} + 2 V ar(Kx,h)
f (2) (x) + o(h).
Remarque: Nous mentionnons que les
fk(x) d'ordre k = 1 représentent les différences
finies qui viennent remplacer les dérivées dans le cas
continu et qui vérifient
f(k)(x) = { f(k-1)(x)}
et f0(x) =
{f(x + 1) - f(x - 1)} /2 si x ? N* f(1) - f(0)
si x = 0.
? ???
???
Propriété 4:: Soit x fixé dans ?. La
variance ponctuelle de l'estimateur bfn =fn,h,K de f a
noyau associé discret est
V ar {In(x) } =ÿ1
nf(x)Pr(Kx,h = x).
(4.9)
Démonstration: La variance est donnée de maniere
successive par
( n
V ar {:fii(x) } = V ar K x,h(Xi)}
n i=1
V ar {Kx,h(X1)}
1
E {Kx,h(X1)}2 - n [E {Kx,h(X1)}]2
1
=
n
1 n
=
}2
1 n
? ? ?
=
f (y) {Pr(Kx,h = y)}2 - 1 n?E f (y)
Pr(Kx,h = y)
yENx,h ?yENx,h
1 n
=
n1 {f (x) E(K,h) - f2(x) } +
O(n) f(x) Pr(Kx,h = x).
Nous précisons que le terme E(K2x,h) :=
Ey??x,h {Pr(Kx,h = y)}2 est majoré par 1.
Le résultat final se base sur la condition (4.3) a traversla
probabilité modale Pr(Kx,h = x).
Propriété 5: L'erreur
quadratique moyenne
intégrée que nous appelons MISE est
X
MISE =
x??
X=
x??
|
E{in(x) - f(x)}2 Biais2
{.-fii(x)} + E
x??
|
V ar {:fii(x)}
|
12
= E {E(Kx,h) - f (x) + 21 V
ar(Kx,h)f(2)(x) + o(h)
x??
+ E
x??
|
1 n
|
f(x)Pr(Kx,h = x). (4.10)
|
4. 1 Noyau associé discret pour des données
catégorielles
Dans cette partie, nous nous focalisons sur les données
discretes catégorielles (i.e. données
qualitatives). Nous travaillons essentiellement sur un ensemble discret
fini ? ? R. Nous signalons que durant les dernieres
annéesily avait une croissanceconsidée rable dans le
domaine des noyaux discrets pour des données
catégorielles, lesles premiers travaux sont dfis aux
innovateurs Aitchison & Aitken (1976) puis Simonoff & Tutz (2000) et
enfin, Racine & Li (2007). (voir bibliographie pour plus de
détails.)
Définition 3: Soit X la variable aleatoire de loi
d'Aitchison & Aitken que nous notons D(c; c0,A), on c ?
N \ {0,1} est le cardinal du support, c0 ? {0,1,. . . ,c - 1} est le point
de reference et A ?]0,1], de densite de probabilite sur le
support ? = {0,1, . . . ,c - 1} definie par
Pr(X = x) = (1 - A)1x=0 + c A - 1
|
1x6=c0.
|
Propriété 6: L'espérance de la variable
aléatoire X de loi d'Aitchison & Aitken est
A
E(X) = c0(1 - A Ac (4.11)
c - 1 2
4.1. NOYAU ASSOCIR DISCRET POUR DES DONNRES CATRGORIELLES 69
Demonstration:L'esperancedecettevariablealeatoireestdonnéedemanieresuccessive
par:
E(X) = E x Pr(X = x)
x?{0,1,...,c-1}
+
c xë11x,c0
E { x?{0,1,...,c-1}
= {c0(1 -- ë) + c ë 1(0+ 1 + ... + (c0 -- 1)
+ (c0 + 1) +...+c -- 1)1
( ) }
= c0(1 -- ë) +
c ë -- 1 i c00
c(c -- 1)
= c0(1 -- ë) + c -- ë 1 1 2 c0}
c0 (1 ë ë ) ëc
c 1 2
Propriete 7: La variance de la variable aleatoire X de loi
d'Aitchison & Aitken est
V ar X 2 c2ë (1 -- ë) -- ëc
( ) =
0(c -- 1)2
2
ëc (2c 3 -- 1 ë 2c)
. (4.12)
c0
c -- 1
c2ë(1 -- ë) -- ëc
+
Demonstration: La variance est obtenue de maniere successive
par
V ar(X) = E(X2) -- {E(X)}2
(c-1 ) -- co = c20(1 -- ë) + c ë
Ei2 c,0--{c0 (1 -- ë
c ë 1 )) ëc
2 f
i=0
= c20(1 -- ë) +
|
ëc(2c -- 1) ëc8
{c0 (1 -- ë -- ë ) ëc1
c -- 1 ) 2 j
6 c -- 1
|
2
|
2
ë
2c2
ë
= c0 2 (1 -- ë
c 1
ë ) 6 Ac(2c -- 1) 2
c0 (1 -- ë
c -- 1 ) 4
--c0ëc (1 -- ë -- ë )
c -- 1
(c -- 1)2
c0
c -- 1
2 c2ë(1 -- ë) -- ëc = c0
Commentaires::
c2ë(1 -- ë) -- ëc
+
ëc (2c -- 1 ëc)
. ·
2 3 2
a. Lorsque c = 2, nous nous retrouvons dans le cas
dune loi Bernoulli de parametre ë ou 1 -- ë. Le type de la
loi Bernoulli change selon que le point de reference se
trouve en 0 ou en 1. Nous verrons dans le cas de lestimateur a noyau
associe discret que le choix du point de reference sera la cible.
b. Lorsque c 7? +8, le support ? = N.
c. Si ë = 0, ceci revient a dire que notre loi
est la loi de dirac qui ne depend plus
FIG. 4.1 -- ???str?t?? ?? ?? ?? ????t???s? ?t ??t???
Densité de loi Aitchison et Aitken
OA 02 0.4 0.8 0.8 1.0
Pr
0 8
4
2
x
de c et que nous la notons äx. Si
maintenant, ë prend la deuxieme valeur limite qui est
egale a 1 alors Pr(X = x) = 1 1
c-1 x,c0.
Nous sommes en mesure de donner une definition precise dun
estimateur a noyau associe discret pour une densite de probabilite f
sur un ensemble discret ? et de presenter les proprietes fondamentales
relatives
Definition 4: ??t X1,X2,. . . ,Xn ?? e????t???? ??
??r?????s ??e?t?r?s ?????? ?? ???
t??????ss????r??????te??s?ret???té?r?????r???é???????
f s?r? = {0,1,...,c - 1}?
ùc ?st ???? ?t ?\u9312@e ???s N \ {0,1}?
U? ?st???t??r bfn(x) =
b
fn,h,K(x) ?? f(x) a ?\u9313A?? ?ss??e ??s?r?t
KD(c;x,h) q?? s??t ?? ?? ????t???s? & ??t??? ?st
?e??? ??r
fn(x) = 1
n
|
Xn i=1
|
KD(c;x,h)(Xi) (4.13)
|
1 n
|
E- h)1Xi=x + h 11Xi,=x} .
i=1
|
???? x ?st ???s ? ?t h ?]0,1] ?st ?? ??r??etr? ??
??ss??? ??s?r?t ?? ???r? ?? ???êtt??? Nous
examinons les differents points que doit verifier le
noyau associi KD(c;x,h):
i.?c;x,h = {0,1, . . . ,c - 1} = ?.
4.1. NOYAU ASSOCIE DISCRET POUR DES DONNEES CATEGORIELLES 71
FIG. 4.2 -- ???str?t?? ?? ?\u9313A?? ?ss??e ???t???s?
?tet ??i??? ??r h = 0.2 ?t x ??r?e
0.0 02 0.4 0.6 0.8 1.0
D(c;x,h)(y)
0 2 4 6 8
y
ii.?x?c;x,h = {0,1,...,c 1} = ?.
iii. E (KD(c;x,h)) = x (1 h ch 1) + hc~ x
quand h ? 0.
iv. V ar (KD(c;x,h)) = x2
hc2((1-h)2-hc xhc2
(1-h)-hc + hc (2c-1 h2c) < 8.
c-1 2 k 3
v. h ? 0 V ar (KD(c;x,h)) = 0.
Propriété 8: A travers la formule (4.8), la
fonction x 7? bfn(x) est une fonction de masse de
probabilité.
Démonstration: Comme les Xi sont i.i.d., nous avons
successivement
Ec- 1 x=0
|
fn(x) =
|
c- 1 {1 n
=0 n D(qx,h)(Xi)
x } i=1
|
c- 1
E {(1 h)1X1=x + h
c 11X1'=x
x=0
= (1 h) + ch 1(1 + 1 + ... + 1)
= (1 h) + ch 1(c 1) = 1.
FIG. 4.3 -- ???str?t?? ?? ?\u9313A?? ?ss??e ???t???s?
?tet ??i??? ??r x = y = 2 ?t h ??r?e
0.0 02 0.4 0.6 0.8 1.0
D(c;x,h)(y)
0 2 4 6 8
y
b
Propriété 9: D'après la relation (4.8), le
biais de l'estimateur
|
fn de f a noyau associé
|
|
|
{ I
2hc
(
2c 1
+ hc
)}
Biais{fn()} x) = hc f(1)(x) + - xhc + f
(2) ( 2)
x) + o(h.
2 2 lc - 1 2 3 2
(4.14) Remarque: \u9670·?s
r???rq??s ????res ?????? q?? ?? ????s
?stest rs ???rr??t? ? ?d????? a ?? ??s ??
c? h ?t ??s ?er??e?s ?r???er? ?t s??????
???q?? ??s q?? ? ??r??????? s???rt
c ??????t? ?? ????s s????r?t? \u9670·?s ????s ???s?
???s?r a r???i? ? ????i ?? ??????t ??s
??r??etr?s ???? ???s ??le ??s ??s ?\u9313A??\u9312@
?ss??ie ?a\u9313A?éet?i??e
????u ?re??se????t ??s
?\u9313A??\u9312@ ????? ?t ?et? ?? ????? ???ss??? ???er?
?e ???us??? ???er? re???rq?? ??
???????t? \u9670·?s ??tr?s q?? ?? ??st ??s ?????t ??
?de?e????e ?e??a???etr?s? ????????t? ???
??c? ?ss???? ??r ??le
é???r? ??s?is? a ?r???d? ??? ? ???ntr??? c0
???? ? ???t ?? ????? ??sse ??r ??s
?\u9313A??\u9312@ r????????r?e ???i
??????g???????r ???s ??
?et???s??
b
Propriété 10: D'après la relation (4.9), la
variance de l'estimateur associé discret KD(c;x,h) de loi
d'Aitchison & Aitken est
|
fn de f a noyau
|
h \2 {c-1
V ar {:fii(x)} = 1 [f(x)(1 - h)2 + (c -
1) f(i) - f (x) }1. (4.15)
i=0
4.2. NOYAU ASSOCI] DISCRET POUR DES DONNÉES DE COMPTAGE
73
|