WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Estimation non-paramétrique par noyaux associés et données de panel en marketing

( Télécharger le fichier original )
par Imen Ben Khalifa
Ecole Supérieure de la Statistique et de l'Analyse de l'Information - Ingénieur en statistique et analyse de l'information 2008
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

?e?????q?? ????s?????
????ster? ?? ????s????????t ???éri??r, ???l????e??e?S???n??fiq?e?et??e ?a?????????c
U????rs?té ?? ? \u9670·?????r? a ??rt????

Ecole Superieure de la Statistique et de l'Analyse de l'Information

Projet de Fin d'Etude

EsTIMATION NON-PARAMETRIQUE PAR NOYAUX AssOCIIs
ET DONNEEs DE PANEL EN MARKETING

Pres??te ??r?:
I??? BEN KHALIFA

??s ?? ??r??t?? ???

Celestin C. KOKONENDJI, HDR
U????rs?te ?? P?? ?t ??s P?\u9313‡As ?? ????r
???r?t?r? ?? ??t?e??t?q??s ?????q?e?s ?- U?? ???? ?\u9670·??
E-mail: celestin.kokonendji@univ-pau.fr

Dhafer MALOUCHE, MA
???? ??er???r? ?? ?? ?t?t?st?q?? ?t ?? ??????\u9313‡As? ?? ???r??t??
E-mail: dhafer.malouche@essai.rnu.tn

Résumé

Dans ce rapport, nous nous interessons a la notion destimation non-parametrique d'une densite (fonction de masse) inconnue sur ? ? R par la methode des noyaux associes. Pour ce faire,nous presentons dabord une definition(unifiee)dun noyau associeà une loi de probabilite quelconque (continue ou discrete) Nous etudions de maniere detaillee quelques exemples des noyaux continus symetriques(????? normal, Epanechnikov, etc.), continus asymetriques (????? beta, gamma, gaussien-inverse et gaussien-inversereciproque), discret categoriel (Aitchison & Aitken 1976) et discret de denombrement (????? triangulaires symetriques, standards asymetriques dordre 1 tels que Poisson, binomial et binomial negatif). Ensuite,nous donnonsla definition delestimateur noyau associe. Nous montrons la convergence ponctuelle de cet estimateur Nous verifions si cet estimateur est bien de masse totale egale lunite Dautres proprietes (globales) sont etudiees, telles que biais, variance et erreur quadratique moyenne integree. Nous proposons une extension dans le cas multivarie (? ? Rd) pour des fonctions de densite (fonction de masse) et de regression. Enfin nous illustrons une partie de la methode sur des donnees de panel en marketing, lesquelles donnees sont de comptage et parsemees.

?ts ??es? ?\u9313‡A?? ?ss??e????etr? ????ss????????i???a???????er??u ???d?a?i???\u9313‡A??????te?re?? ???é?s ??rs??e?s

Abstract

In this report, we are interested in the notion of nonparametric estimation of an unknown density (mass function) in ? ? R by using associated-kernel method First we present an unified definition of a kernelassociated to a probabilitylawthatmight be eithercontinuousordiscrete.Then,weprovideathoroughtreatmentofsomesymmetric andcontinuouskernels(?????Gaussian,Epanechnikov,etc.) asymmetricandcontinuous (????? beta, gamma, inverse gaussian, reciprocal inverse gaussian) ; discrete categorical (Aitchison & Aitken,1976) and discrete count data (????? symmetric triangular,or some knownasymmetricdistributionssuchasPoisson,binomialandnegativebinomial)Furthermore, we define the associated kernel estimators and investigate some of their finite andasymptoticproperties.Morepreciselyweverifyiftheproposedestimatorsarebona fidedensitiesormassfunctions(i.efunctionswhicharesimultaneouslynonnegativeand integrate/sum up to one). Their pointwise consistency bias, variance and mean integrated squared error are tackled as well Moreover we extend these estimators to the multivariate setting ? ? Rd for both density/mass and regression functionsFinallythe practical usefulness of this approach is illustrated by a case study based on some sparse count data obtained from a marketing panel research survey

?\u9313‡A ?r?s? ?ss???t?? ??r???? s?t???? ???????t?? ???a? ??a?????? ???? ?n??g?a?? sq??r?? ?rrr? s??rs? ??t??

Remerciements

J???r? ???t??? a ????re?????

?? s??s ?\u9312‡@trê?????t ???r??s? ????r ??????? ?? ????i ç?ça, ?? ???t ?? ?? ?a?i????r? ?????t???? ?? r????r??? ?? ????s?r ??????q???t????? ??s ? ?é??es?it ??e ????nt ???????s ??r q?? ?? ???ss? s???r ?? q?? ?? ???r???? ?? q?? ??es ??? ?u?? ?? ????i?i ??? ???st ?? r????r???? ?? ??et??s ??s ?????? ?? ?é??t ???t ?? ?v?? ?d? e??i ???u???i?e??e ????ts ?e????s??ts ???? ??s ???s??s??r ?tt???r?????s??i??? (?a??????

P?r ??s ????ts ???????????s?

?? t???s t?t ????r? d r???r???r Ce??st?? C? K??????? ?????r ?????re ?? tr????? ??????????? ?? ???et????? ????t??s??s?? ?tet ?? ??s???????it? ; M?r?? C???st?? ??r t???????? ??????r??\u9312‡@? ??r t?s ??s ?\u9313‡A??s q?? t? ?s ??s a ?? ??i?s?i??? ??u ?????i ???t ???????? ?????r t???rs s? r???t?r ?? r?????? ?? ????i?r????é ??e ??n???l ???ses? ????? ?? t? r???r??? ??r ?stes ???s ????r??????tt ?e ?e ?ot ????u?

?? s??s ??rt?????ar????t r??????ss??t? a D????r M?????? ??r t?t? ?????? q???? ??????rte ??tt? ???e?? M?r?? D????r ??r t?t? ?? ??????? ??s ??ss? ?? r???r???r ???????r??s????t t?t ??s ??s??????ts?

???\u9312‡@?r??? ??s r???r??????ts ??s ???s ???s C B??????? A???s ??r s? s\u9313‡A???t???? s? t????t ?? ?e?????? ?t s? t???? ?\u9312‡@???t????????; M?r?? B??????? ??r t? ??????? ?t t?s ????r??????ts ?? r???r??? ? ??r??rt ??stér??? ?r??es??u ?? ??a??e??? a ????????er???r? ?? ????r?? ?? P??? ?? ??s ???r ??r?? ?tet ?\u9312‡@???q?é ?? ?de???l ?e ???é?s?

??s r???r??????ts ??t e???????t a

Tr?st?? S???? K??sse? ??r s? ???e???t???? s?t???? M?r?? Tr?st?? ??r ??s ????ts ?? ?e?????r? ??s ?????s ??s??ss??s? ??sles ????r??????tt ?e ? ???????it?

M?r??? Z???? ??? ??rs??? q?? ???? ?? ?? ?????? ?? ??s??ér?r ???? ???? ??????????? M?r?? M?r??? ??r t?s ??s???s? t? s???????t? ???s??? ?tet ?e ??????e ??oo?

L??? Gr???rs??t?? L?\u9313‡A?? L?\u9314‡B???? A?? S?????? D????? G?s??r ?t a t?s ???\u9312‡@ q?? ??? ???? ????s?r ?? ?ot\u9313‡A?r ??r??t q??tr?s ??l

M?r?? P??? & M???? ??r ??????s ?? r??s?s? ??s ?? ????\u9314‡B ??r ??rs ??r ??? t??t ?????r ?t ?? ???????

M?r?? ?? ???r ?rar? A???? ??r t?t ??????r q?? t? ??r?s? ??r ??s r??????s? ?e ??t?t?s s?r?r?s?s ?t ??r t?s ?????s?

?? ?? s??s ??s ?????t ?\u9312‡@?r???r s????????t ??cc q?? ??je ??ff d ??e ???u ??,a?e ??n?e???t? H?s??? ??t? AT???t ?t a ?? ??r???? R????. M???? M?r?? ??r ????? ?t ??? r??s?s?

U? M?r?? tras ???r ??r ??s s???rs ???s Rima, Myriam & Omar.
U? ?r??? M?r?? ??ss? ??r t?s ???\u9312‡@ ?t ?????s q?? ??????t?

Table des matières

Présentation générale du stage 13

1 Introduction a l'estimation non-paramétrique 15

2 Noyau continu symétrique 17

2.1 Cas univarié .................. . . .. . . . . . . . . . . 17

2.1.1 Propriétés élémentaires. . . . . . . . . . . . . . . . . 18

2.1.2 Biais ponctuel . ... . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.3 Variance ponctuelle .... . ... . .. . . .. . . . . . . . . . . 21

2.1.4 Erreur quadratique moyenne (MSE) 22

2.1.5 Erreur quadratique moyenne intégrée (MISE) 22

2.1.6 Choix du noyau .......... . .. . . .. . . . . . . . . . . 23

2.1.7 Choix de fenêtres . . . . . . . . . . . . . . . . . . . . . . . . 24

2.1.8 Simulation des données . . . .. . . . . . . . . . . . . . . . 30

2.2 Cas multivarié........... . ... . .. . . . . . . . . . . . . . . 31

3 Noyau associé continu asymétrique 35

3.1 Cas univarié ................ . .. . . .. . . . . . . . . . . 35

3.1.1 Définition ........................... . .. 36

3.1.2 Propriétés élémentaires. . . . . . . . . . . . . . . . . 38

3.1.3 Biais ponctuel.................. . .. . . .. . . . 41

3.1.4 Variance ponctuelle .... . ... . .. . . .. . . . . . . . . . . 42

3.1.5 MISE .... . ... . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.1.6 Exemples ................ . . .. . . . . . . . . . . 43

3.2 Cas multivarié........... . ... . .. . . . . . . . . . . . . . . 63

4 Noyau associé discret 65

4.1 Noyau associé discret pour des données catégorielles 68

4.2 Noyau associé discret pour des données de comptage 73

4.2.1 Noyau associé poissonien . . 73

4.2.2 Noyau associé binomial. . . . . . . . . . . . . 75

4.2.3 Noyau associé binomial négatif . 77

4.2.4 Noyau associé triangulaire . . . . . . . . 78

4.2.5 Choix de fenêtres .... . . .. . . . . . . . . . . . . . . . 83

4.3 Noyau associé discret multiple. . . 85

? ?e?r?ss?? ???t???? a ?\u9313‡A??\u9312‡@ ?ss??is ??\u9312‡@t?e ??87

5.1 Estimateur de Nadaraya-Watson 87

? ???e?s ?? P???? a ??et??? ??

6.1 Notions elementaires
· . . . . . . . . . . . . . . . . .. . . 89

6.2 Traitements preliminaires . . . . . . . . . . . . . . .. . . 90

6.2.1 Repartition des panelistes selon les variables caracteristiques . . 92

6.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.3.1 Dans le cas d'un estimateur a noyau associe triangulaire . . . . 96

6.3.2 Dans le cas d'un estimateur a noyau associe binomial 97

? ?????s??s ?t ??rs???t???s ???

7.1 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 103

? ????\u9312‡@? ?? ???????s s?s ?? ??????? ? ???10

Table des figures

2.1 Illustration des noyaux continus symétriques 19

2.2 Estimation totale a noyau gaussien . 20

2.3 Illustration d'un phénomêne de sous-lissage lors de lestimation dune

densité.............. . ... . . . . . . . . . . . . . . . . . 24
2.4 Illustration d'un phénomêne de sur-lissagelors delestimation duneden-

sité..................................... . 24

2.5 Illustration d'une estimation idéale . . . . 25

2.6 Lissages par des estimateurs a noyaux continus de la distribution dun

échantillon de loi normale centrée réduite, n = 100 et hPj = 0.338 . . . 31

2.7 Lissages par des estimateurs a noyaux continus de la distribution dun échantillon de loi normale centrée réduite, n = 100 et hCV = 0.429 . . . 32

2.8 Comparaison des lissages par lestimateur a noyau continu d'Epanechni-

kov en faisant varier la fenêtre h 33

3.1 Densité de loi normale centrée .. . . .. . . . . . . . . . . . . . . . 36

h = 1.5

3.2 Illustration de la densité normale pour et x varié . . . . .

= . 37
y

x = 2.1 h

3.3 Illustration de la densité normale pour et varié 38

3.4 Allure générale d'une densité gamma. . . . . 44

h = 0.2

3.5 Allure du noyau x

associé gamma pour et varié 45

= 2

3.6 Allure du noyau associé gamma pour x = y et varié .

h . . . . . . 46

3.7 Allure générale de la densité bêta. . . . . . . . . . 51

3.8 Allure du noyau associé bêta pour h = 0.2 et x varié 52

3.9 Allure du noyau associé bêta pour x = y = 2 et h varié 53

3.10 Allure générale de la densité gaussienne inverse 57

3.11 Allure du noyau associé gaussien inverse pour h = 0.1 et x varié 58

3.12 Allure du noyau associé gaussien inverse pour x = 2 et h varié 59

3.13 Allure générale de la densité gaussienne inverse réciproque 61

3.14 Allure du noyau associé gaussien inverse réciproque pour x = 2 et h varié 62 4.1 Illustration de la loi d'Aitchison et Aitken 70

h = 0.2

4.2 Illustration du noyau associé dAitchison et Aitken pour et x varié 71

4.3 Illustration du noyau associé dAitchison et Aitken pour x = y = 2 et h
varié..................................... . 72

h

4.4 Illustration du noyau associé =

poissonnien 0.1

pour x

et .

variée . . . 73

h =

4.5 Illustration du noyau associé binomial pour .

0.1 et .

x varié. .

. . . 75

4.6 Illustration du noyau associé binomial pour x == y7 et h varié 76

4.7 Illustration du noyau associé binomial négative pour h = 0.1 et x varié 78

4.8 Illustration du noyau associé triangulaire pour différentes valeurs de h. . 80

4.9 Illustration du noyau associé triangulaire sans modification du bras 81

4.10 Illustration du noyau associé triangulaire avec modification du bras 82

6.1 Dispersion des clients selon le lieu d'habitation 93

6.2 Localisation des panélistes du magasin 1 93

6.3 Catégorie socio-professionnelle des panélistes et actes dachats 94

6.4 Revenu net des panélistes du magasin 1 94

6.5 Répartition des clients du magasin 1 selon la taille du foyer 95

6.6 Taille de famille des panélistes du magasin 1 95

6.7 Comportement des achats individuels pendant la premieretranche 96

6.8 Comportement des achats pendant la deuxiême tranche 97

6.9 Estimation des actes d'achats pour la premiere période 97

6.10 Estimation des actes d'achats pour la deuxiême période 98

6.11 Estimation de la premiere période agrandie . 98

6.12 Estimation de la premiere période plus agrandie 99

6.13 Estimation des actes d'achats pour la premiere période 99

6.14 Estimation des actes d'achats pour la deuxiême période 100

6.15 Estimation des actes d'achats de la premiere période agrandie (150 ob-

servations) ................ . ... . . . . . . . . . . . . . . 101
6.16 Estimation des actes d'achats de la premiere période plus agrandie (50

observations) .............. . . .. . . . . . . . . . . . . . 102

Liste des tableaux

2.1 Exemples de noyaux continus symétriques 18

2.2 Efficacité des noyaux continus symétriques 23

3.1 Tableau récapitulatif des lois de probablité continues asymétriques 39

4.1 Solutions associés standards

h0 pour les discrets

noyaux 86

6.1 Tableau comparatif du marketing transactionnel et relationnel 90

6.2 Statistique descriptives fondamentales 92

Présentation générale du stage

J'ai effectué mon stage de fin d'étude au sein du laboratoire de mathématiques appliquées, département Statistique et Traitement Informatique des Données STID) Ce département regroupe 7 enseignants et enseignantes tous sous la direction du chef de département. Le STID offre un enseignement théorique assurant une solide formation de base ainsi qu'une initiation à la recherche

Mon stage s'est déroulé du 1er février jusqu'à 29 mai, sous la direction de M Kokonendji. Dés mon arrivée, mon encadreur direct ma expliqué le sujet ma fait visité le département, m'a accordé un bureau et m'a éclairci le régime du travail.

Tout aulong de ce stage, j'ai assisté au séminaire hebdomadaire de léquipe probabilités et statistique on j'ai eu l'occasion de présenter montravail.

Durant ces quatres mois passés au sein du STID jai eu lopportunité de découvrir le métier du chercheur sous toute ses formes et de comprendreles difficultésquipeuvent être rencontrées.

Chapitre 1

Introduction a l estimation

non-paramétrique

L'objet principal de la statistique est de faire a partir dobservations dun phénomène aléatoire, une inférence au sujet de la loi générant ces observations en vue danalyser le phénomène ou de prévoir un événement futur Pour réduire la complexité du phénomène étudié, nous pouvons utilisé deux approches statistiques non-paramétrique et paramétrique.

Dans le premier cas, nous considérons que linférence statistique doit prendre en compte la complexité autant que possible et donc cherche a estimer la distribution du phénomène dans son intégralité,mettant en oeuvre lestimation des fonctionnelles(densités, régression, etc.). En opposition lapproche paramétrique cherche a représenter la distribution des observations par une fonction densité f(x|è) on le paramètre è est la seule inconnue. Dans plusieurs cas l'approche non paramétrique est préférable nous pouvons mettre en oeuvre des lois de probabilité sur des espaces fonctionnels.

Les estimateurs non-paramétriques classiques ont étéintroduitparRosemblattpour estimer des densités de probabilité, par Parzen pour estimer le mode dune densité de probabilité et par Nadaraya Watson pour estimer une fonction de régression. Le comportement asymptotique de ces estimateurs a été étudié par de nombreux auteurs tel que Tsybakov (2004). Ainsile but de ce travail est de définir les estimateurs a noyau associé et d'établir les propriétés relatives

Avant de présenter les résultats de façon détaillée nous en donnons tout dabordles grandes lignes.

Dans le deuxième chapitre, nous nous intéressons a lestimateur a noyau continu

b

symétrique fn d'une densité de probabilité f inconnue sur R. Plus précisémment, nous présentons cet estimateur et nous prouvons les propriétés fondamentales telle que biais, variance, erreur quadratique moyenne etc Nous donnons les méthodes de sélectiondu noyau ainsi de la fenêtre en s'appuyant sur des exemples de données simulées. ls'avère que le choix du paramètre de lissage est beaucoup plus important que celui du noyau dansl'estimationdesdensitésinconnuesasupportsymétrique.Nousétudionségalement

CHAPITRE 1. INTRODUCTION A L'ESTIMATION 16 NON-PARAMRTRIQUE

le cas multivarié en fin de chapitre.

Dans le troisième chapitre, nous donnons la définition dun noyau associé. Nous prée sentons, a partir de cette définition, les estimateurs de Chen (1999 2000) et de Scaillet (2004) et leurs propriétés en rendant les calculs moins sombre et plus compréhensible. Toujours dans le cas du noyau associé asymétrique, nous généralisons cesces résultatsats au cas multidimensionnel.

Dans le quatrième chapitre, nous représentons pareillement la définition du noyau associé discret en s'appuyant sur les travaux de Kokonendji & Senga Kiessé (2006).(2006). Nous définissons l'estimateur a noyau associé discret Nous étudions lesles propriétés fondamentales de cet estimateur d'une manière générale ensuite nous les appliquons dans deux sections; la première se base sur les données discrètes catégorielles on nous allons étudier l'estimateur a noyau associé dAitchison & Aitken et la seconde partie repose sur les données de comptage on nous allons traiter des exemples des noyaux associés symétriques et standards asymétriques. Nous donnons un critére de choix des fenêtres de lissages. Nous généralisons cet estimateur dans une version multidimensionnelle.

Dans le cinquième chapitre, nous étudions la régression multiple a noyaux associés mixtes. Nous nous focalisons sur le fameux estimateur de Nadaraya-Watson.

Dans le sixième chapitre, nous appliquons une partie de ces estimateurs a noyaux associés sur des données parsemées de panel en marketing

Nous terminons ce rapport par une conclusion générale et des idées de recherches futures.

Nous présentons maintenant de manière plus développéele contenu des six chapitres de ce rapport.

Chapitre 2

Noyau continu symétrique

Dans cette partie, nous présentons l'estimateur a noyau continu symétrique. Nous développons cet estimateur dans le cas univarié ensuite nous le traitons dans le cas multivarié.Nousétudionségalementlesdifférentespropriétésélémentairesrelatives acet estimateur telle que biais, variance erreur quadratique moyenne et erreur quadratique moyenne intégrée. Nous détaillons par la suite les méthodes de choix des fenêtres et des noyaux en se focalisant sur limportance du choix du paramètre de lissage. Nous expliquons explicitement 3 méthodes destimation de la fenêtre. Enfin, nous concluons par un exemple de données simulées.

2.1 Cas univarié

Considérons un échantillon de variables aléatoires X1,X2,. . . ,Xn, indépendant et identiquementdistribué(i.i.d.),dedensitédeprobabilitécontinueinconnue f sur? = R. L'estimateur a noyau continu symétrique de f est défini par:

bfn(x) = 1

n

Xn
i=1

~x - Xi ~

1 (2.1)

h K h

= bfn,h,K(x),

on K estlafonctionnoyautelleque K(t) = 0et JR K(t)dt = 1et h > 0estleparamètre de lissage ou la fenêtre. L'expression (21) découle des travaux des pionniers de estimation non-paramétrique Rosemblatt (1956) puis Parzen (1962) Dans lexpression de l'estimateur a noyau continu (2.1), la fonction noyau K est une densité de probabilité sur R ? R+ et est symétrique par rapport a zéro:

K(-x) = K(x), (2.2)

ce qui implique l'égalité suivante

ZR tK(t)dt = 0. (2.3)

De plus, elle est de carré intégrable

et nous avons aussi la variance de K finie

ZR t2K(t)dt < +8. (2.5)

Enfin, le noyau K peut être écrit sous plusieurs formes dont la plus connue est

(x - Xi ~

1

Kh(x - Xi) = hK h

.

Le tableau 2.1 donne un récapitulatif des fonctions noyaux continues classiques dont les graphiques sont présentés dans la figure 21 Nous rappelons quune loi de Cauchy n'admet aucun moment fini.

TAB. 2.1

Eaemples de noyaua continus symétriques

Noyau

Fonction noyau

Domaine de définition

Cauchy

[7r(1 + u2)]-1

R

Biweight

(15/16)(1 - u2)2

[-1,11

Triangulaire

1 - |u|

[-1,11

Epanechnikov

(3/4)(1 - u2)

[-1,11

Gaussien

(1/v27r) exp (-u2/2)

R

Pour plus de détails sur les types des noyaux, nous pouvons se référer a article d'Epanechnikov (1969) et le livre de Tsybakov (2004)

L'expression de K détermine la forme du noyau et h est un paramètre d'échelle qui détermine le niveau de lissage de l'estimation Dans lestimation a noyau continu symétrique, le choix de la fenêtre de lissage est prépondérant a celui du noyau K. De plus, la contribution de chaque point de l'échantillon est additionnée pour obtenir lestimation totale. Ceci est illustré dans la figure 2.2.

2.1.1 Propriétés élémentaires

Danscettepartie,nousprésentonslespropriétésfondamentalesdelestimateuretles critères d'erreurs usuels. Nous calculons dabord le biais et la variance de lestimateur

b

fn(x). Ensuite, nous exprimons le risque quadratique exact en un point x fixé, puis le risque intégré. Enfin, nous approximons ces résultats. Dans ce qui suit, nous supposons que les dérivées première et seconde de f existent et admettent une intégrale finie sur le support de la densité ?.

FIG. 2.1 - Illustration des noyauc continus symétriques

b

Propriété 1: La fonction x -?

de prohahilité

fn(x) est une densité

b

Démonstration: La somme continue de

fn(x) sur le support ? = R est

Z Z (x - Xi )

Xn 1

bfn(x)dx = nh K dx

h

R R i=1

Z (x - X1 ~

1

= hK dx,

h

R

en posant t = (x - X1)/h et donc dx = hdt, nous trouvons

Z Z

bfn(x)dx = K(t)dt = 1.

R R

Deplus,lenoyauK estdéfinipositif.Lasommesurtoutléchantillonresteaussipositive. Par conséquent, l'hypothèse de positivité est vérifiée.

2.1.2 Biais ponctuel

Le hiais ponctuel mesure la différence entre la valeur moyenne de lestimateur bfn et la valeur de la fonction inconnue f en un point x.

{ } { }

Biais bfn(x) = E bfn(x)- f(x). (2.6)

Propriété 2: Soit x fixé dans R.

Le hiais de l'estimateur a noyau présenté dans (21) est

{ } Z

Biais bfn(x) ÿ=1 2h2f00 (x) t2K (t) dt. (2.7)

R

FIG. 2.2 Estimation totale a noyau gaussien

Le signe » ÿ=» indique que la quantité à gauche est équivalente à la quantité à droite. Démonstration: Comme les variables aléatoires X1,X2,.. . ,Xn sont i.i.d., nous avons successivement

( )}

{ } Xn (x - Xi

1 1

E bfn(x) = E h K

n h

i=1

1
n

Xn
i=1

{ 1 (x - Xi )} E h K h

{ 1 (x - X1 )}

= E hK h

Z ~x - x1 )

1

= hK f (x1) dx1.

h

R

Nous effectuons le changement de variables suivant -t = (x - x1)/h, d'oñ x1 = ht + x.

b

De là, en utilisant l'hypothèse (2.2), le biais de fn(x) s'exprime ainsi par

{ } Z

Biais bfn(x) = K (-t) f (x + ht) dt - f(x)

Z R

= K (t) f (x + ht) dt - f(x).

R

Dans le but d'avoir une forme plus simple qui ne dépend que du paramètre h, nous approximons la formule du biais en utilisant la formule de TaylorrLagrange

f (x + ht) = f(x) + htf' (x) + h2t2

2 f'' (x) + o (h2t2).

Ainsi, nous obtenons

Biais { :fn(x) } = f (x) J K (t)dt + hf(x) JtK(t)dt

R R

+2h2 f" (x) I t2K(t)dt - f (x) + o(h2).

D'apres les hypotheses (2.3) , (2.4) et (2.5) nous avons finalement

Biais { in(x)} 12 h2 f00

(x) JRt2K (t) dt.

2.1.3 Variance ponctuelle

Propriete 3 : Soit x fixe dans R. La variance de l'estimateur bfn est

Var { :fn(x)} =ÿ nhf (x) I K (t)2 dt. (2.8)

Demonstration: Partant de l'hypothese d'independance entre les Xi, nous avons

-- Xi V ar { :fii(x) } = V ar n {1 ÷`i x K h

i=1

n

1 V ar{ h 11 K (x - hX1)1

2

E [11 K (x h X1)J )12 n Lt1 1 [Elh 1 K (x h X1)j)11

n

1

1 1

n h2 K2 x h x1) f (x1) dx1

n JR

1 h

1 i1K(x x1)

2

f (x1) dx1 l .

Nous effectuons le changement de variable -t = (x - x1)/h. Nous trouvons

nh2

1 1

V ar { :fii(x) } = K (-t)2 n f (ht + x)hdt - {IRK (-t) f (ht + x) hdt} 2

h 1 1

IRK (t)2 f (ht + x) dt - n[Biais { :fii(x)} + f (x)i2

n

h 1 IRK (t)2 f (ht + x)dt - 1 {O (h2) + f (x)}2

n

Finalement, sous la condition d'avoir f K(t)2dt < +8 et pour n grand, nous avons

Var { rn(x)} =ÿ nhf (x) I K (t)2 dt.

2.1.4 Erreur quadratique moyenne (MSE)

Propriete 4: L'erreur quadratique moyenne (en anglais "Mean squared Error") en un point x fixe s'exprime par

MSE (x) = V ar { :fii(x) } + Biais2 {:fii(x) } (2.9)

Demonstration: Nous obtenons par succession

MSE (x) = E [{ 1n(x) - f (x)}21

= E ([in(x) E { in(x)} E { in(x)} f(x)i2)

= E ([ 1n(x) - E { Mx) }i2) + 2E [ 1n(x) - E { 1n(x)}i

[E { in(x)} f(x)i [E { in(x)} f(x)i 2

= V ar { rn(x) } + Biais2 {rn(x)}

= MSE(x;n,h,K,f).

D'apres les resultats (2.7) et (2.8), l'approximation du critere MSE en un point x fixe est

2

AMSE (x) = n1hf (x) I K (t)2 dt + {1 2 h2 f" (x) I t2K (t)dt } . (2.10)

2.1.5 Erreur quadratique moyenne integree (MISE)

Propriete 5: L'erreur quadratique moyenne integree (en anglais "Mean Integrated Squared Error ") est la mesure theorique commune la plus utilisée pour evaluer lerreur entre la fonction f et bfn. Nous avons etudie dans la partie precedente le comportement de bfn(x) en un point fixe. Il est egalement convenable devaluer lerreur globale sur le support R de cet estimateur.

MISE(n,h,K,f) = I MSE(x)dx (2.11)

R

=

IV ar { :fn(x)} dx + I Biais2 {:fn(x)} dx.

R R

En utilisant l'expression approchee du critere MSE (210) nous avons successivement

AMISE(n,h,K,f) =

h1

JRK(t)2dt I f(x)dx

nh

2

+h4 t2K(t)dt } f f"(x)2dx

4 R

1 J K(t)2dt + 41h4 t2K(t)dt }2 I

h f" (x)2dx

nR

avec

V (K) = f t2K(t)dt = V ar(K).

2.1.6 Choix du noyau

Le premier choix porte sur la nature de la densité noyau que nous utilisons. Pour mesurer l'efcacité de chacun des noyaux continus symétriques présenté dans lele tableau 2.1, nous utilisons une mesure commune qui consiste a calculer le rapport du critere AMISE des deux noyaux mis en évidence

eff(K1,K2) = AMISE(K1)

AMISE(K2)

Nous supposons que K1 est le noyau d'Epanechnikov. Ce noyau est considéré comme une référence par rapport a tous les autres noyaux continus classiques. Il estest largee ment apprécié pour ses performances (au sens on sa forme répond bien a la plupart des questions soulevées par le probleme de lestimation non paramétrique de densité) et il est considéré comme optimal au sens des mesures derreur IlII o~re la valeur défcacité maximale. Nous nous sommes appuis sur les travaux de Tsybakov (2004).(2004). Ainsi, apres avoir fait les calculs nécessaires lefcacité dun noyau K para rapport au noyau d'Epanechnikov se mesure par

1

VfR t2K(t)dt fR K(t)2dt < 1.

5V5

eff (K) = 3

Le choix de K dépend seulement de la nature de f et nous admettons qu'en pratique le choix du noyau d'Epanechnikov est le plus staisfaisant Nous donnons lele tableau récapitulatif (Tab. 2.2) qui présente la valeur defcacité des différents noyaux continus symétriques.

TAB. 2.2 -- Efficacite des noyaux continus symetriques

Noyau Efficacité

Epanechnikov 1.000

Biweight 0.994

Triangular 0.986

Normal 0.951

Uniform 0.930

Commentaire: Danslecasdesnoyauxcontinussymétriques,nousremarquonsque les valeurs d'efcacité des noyaux tels que le noyau biweight triangulaire ou Epanechnikov sont tres proches. Par conséquent Le choix du noyau nest pas tres important.

2.1.7 Choix de fenetres

a. Importance du choix de h

Le parametre de lissage h est un réel positif dont le choix est prépondérant sur celui du noyau continu symétrique K. Le choix d'une valeur de h trop grande conduit a une courbe trop lisse. La courbe estimée ne traduit pas suffisament les variations de la vraie distribution (voir figure 2.3).

FIG. 2.3???str?t?? ???? ??e??e?? ?? s?s???ss??? ?rs ?? ??et???t?? ????? ???n?it

Ep/0/ch0-

RIM .

 

-2 -1 0 1 2 3

x

Par contre, en choisissant un parametre de lissage tres petit que celui adopté précédemment, l'allure de la distribution change. Il sagit dune distribution surestimé (figure 2.4).

FIG. 2.4 -- ???str?t?? ???? ??e??e?? ?? s?r???ss??? ?rs ?? ??st???t?? ????? ???n?it

Ep/0/ch0-

D..

-2 -1 0 1 2 3

x

ment la distribution de depart (figure 2.5). Les courbes obtenues illustrent a quel point
FIG. 2.5 -- Illustration d'une estimation ideale

Ep/0/00-

RI.

-2 -1 0 1 2 3

x

les formes estimees sont differentes en fonction de lordre de grandeur du paramètre de lissage. La principale difculte repose sur le choix optimal de la fenetre h. La valeur ideale hid du parametre h est celle qui minimise l'erreur quadratique moyenne integree (MISE). Pour une taille d'echantillon n donnée et un noyau K fixe, nous avons

?h

? AMISE(h) = 0.

Ce qui est equivalent a

h3V (K)2 I f" (x)2dx 1 2 jali K(t)2dt = 0.

nh

Ainsi, nous obtenons successivement

nh5V (K)2 ff" (x)2dx = K(t)2dt R

h5 = nV (K)2 fR f"(x)2dx

fR K(t)2dt

1 I fR K(t)2dt11/5

hid = v .

V(K)2 fR f" (x)2dx (2.13)

En particulier pour K = KEpanechn., nous avons

~ 15 \1/5

hid(KEpanechn.) =

n R .

R f"(x)2dx

En definitive, a partir de (2.13), nous obtenons

2/5 4/5 11/5

5 1

AMISE(hid) =

L,Rt2K(t)dt1 { K(t)2dt1 { f" (x)2dx

4 n4/5 R R

51/5

4n4/5 I(K) fR f"(x)2 dx }

avec

~Z ~2/5 ~Z ~4/5

I(K) = t2K(t)dt K(t)2dt .

R R

Conséquences: Quand n est grand, hid tend vers 0. Le parametre de lissage h idéal dépendenfaitdeladensitéatravers f".Ainsipourun hpetit,nousavonsunpetitbiais et une variance plus grande. Le noyau optimal est obtenu en minimisant R R K(t)2dt, ceci en admettant les hypotheses (2.4) et (25).

b. Méthodes de choix de fenêtres

Nous considéronss donce avec plus d'intérêtt la question de selection du parametree de lissage h. Comme fenêtree optimale, nous choisissons la valeur qui minimis lee MISE.

Nous étudions trois méthodes dans la déterminationn du parametre d lissagee optimalhopt:: le "Plug-in", la validation croisée par moindres carrés e laa validation croisée par maximum de vraisemblance.e

b.1. Mahodee Plng-inn

Dans la procéduree de Plug-in,l'idée& de base est destimerr dan lexpressionn (2.13) la quantité inconnue: : fR f"(x)2dx. En effet, ilt y a deux approches possibles pou leefaire:: soit nous supposons que la densité f appartient a une famille de distributions

paramétriques et la nous estimons les parametres et nous retrouvon facilement cette cette quantité, soit nous l'estimons par lapprochee non-paramétrique et donce faire appel a un estimateur a noyau (par exemple). Ceci va compliquer davantag less calculs parceque nous trouvons une fonction qui dépendd elle même de h. Donc,, en gros, la méthode Plug-in résidee a "injecter" une estimation de f en adoptant une méthode commode et pratique. Dans notre étude,, nous supposons que f(x) appartient a une famille de distribution normale centrée et de variance ó2..

Sous cette hypothese::

ZR R f"(x)2dx =88 0r33 ó-1/550.212ó-1/5..

Il reste alors a remplacer le parametre inconnu óa par la valeur estiméee bó.. Nous choisissons la valeur empirique comme valeur optimale définiee comme suit

1

=

n -- 1

Xn
i=1i

tu u v

(Xii -- X~2,,

tel que XX = n-11 (X1 + X2 + .
· .
· .
· + Xn).

=

(4ð)-1/10

~

1

8ð-1/2 bó

~ ~3 ~-1/5

n1/5 5

Le résultatt obtenu sera remplacée dans la formule de hid et nous avons

hopt

(4bó55~1/5

= 3n ~ bó)= =1.06 6n1/55)

Ce que nous avons accompli en travaillant sous la supposition de la normalité estest une formule explicite applicable pour la selection de la fenetre h. En réalité, cette méthode donne des résultats raisonnables pour toute les distributions symétriques, unimodales et ne possédant pas des queues trop lourdes Le probleme donc avec cette méthode est qu'elle est tres sensible aux valeurs aberrantes. Un estimateur plus robuste dans ce cas est obtenu a partir de l'intervalle interquartile : R =

X[0.75n] - X[0.25n] o1 Xp

désignelequantiled'ordrepd'une N (u,ó2).Ladifférenceentrecesdeuxquartilesdonne 50% de l'ensemble des observations. En supposant toujours que X suit une normale N(u,ó2), nous posons Z = (X - u)/ó qui suit une N(0,1). Ainsi, nous montrons que (X[0.75n] -X[0.250 = 1.34ó Par conséquent, un estimateur puissant de ó serait Q = R/(1.34). Dans ce cas, le parametre de lissage optimal est donné par

~ hopt = 1.06 1R.34 n-1/5 0.796n-1/5. Enfin, la fenetre optimale est

hopt = 1.06 min bó,

1.34
R

n-1/5

.

Cette méthode présente des inconvénients : si la vraie densité f devie substantiellement delaformed'unedistributionnormale(enétantmultimodalparexemple)nouspouvons etre trompés considérablement et nous aurons soit un sur-lissage soit un sous-lissage.

b.2. Methode de validation croisee par ioindres carrés

Pour un noyau fixé K, le principe de la validation croisée est la minimisation destimateur de risque intégré (MISE) par rapport a h. En effet, Le MISE dépend de la fonction inconnue f et ne peut donc pas etre calculé. Nous allons essayer de remplacer la MISE par une fonction de h, mesurable par rapport a l'échantillon et dont la valeur pour chaque h > 0, est un estimateur sans biais de MISE(h). Pour cela, notons que :

MISE(h) = E f {:fn(x) - f (x)}2 dx

= E f

R Tfii(x)2dx - 2E 1 fn(x) f (x)dx + IR f2 (x)dx

Le dernier terme ne dépend pas de h, pour minimiser MISE(h) il suffit de minimiser l'expression :

J(h) = E f fn(x)2dx - 2E 1 fn(x) f (x)dx.

Pour cela, nous déterminons un estimateur des deux termes de J(h). Le premier terme

JR

fn(x)2dx comme estimateur trivial (d'apres la propriété des esti-

b

admet l'estimateur

mateurs sans biais : E(bâ) = â).

Il reste a trouver un estimateur sans biais du second terme. Pour cela, nous admettons par construction l'estimateur sans biais G défini en tout points du support sauf en Xi :

Gb =1

n

Xn
i=1

bfn,-i(Xi),

avec

bfn,-i(x) = 1

n - 1

1 X h

i6=j

(x - Xi ~

K .

h

Montrons que E( bG) = E{fR bfn(x)f(x)dx}. Comme les Xi sont i.i.d., d'une part nous avons

~Z ~ Z ~

Xn ~x - Xi

1

E bfn(x)f(x)dx = E K f(x)dx

nh h

R R

i=1

Z ~x - X1 ~

1 hE K f(x)dx

h

R

Z Z ~x - x1 ~

1 f(x) K f(x1)dx1dx.

h h

R R

D'autre part, nous avons

E(

= E {n1

i=1

= E{In,-1(X1)}

= E

? ?

?

~Xj - X1 ~?

1 X ?

K

(n - 1)h h ?

j6=1

~ 1 ~X - X1 ~~ = E hK h

Z Z ~x - x1 ~

1 f(x) K f(x1)dx1dx

h h

R R

Z

= E bfn(x)f(x)dx.

R

Donc, Gb est un estimateur sans biais de fR biais de J(h) est donne par

b

fn(x)f(x)dx. Finalement, l'estimateur sans

CV (h) = fn(x)2 dx - 2 E bfn,-i(Xi).

n

Ri=1

Et la fenetre optimale est telle que

hCV = arg min

h>0

CV (h).

???? ?et??? ?? ??????t?? ?r?sé? ??r ??\u9312‡@???? ?? ?r??s????????

et l'estimateur a noyau

fn s'écrit:

D(f , jn) = fRf(x) log { j.f.:(xx)) dx

= IR f (x) log f (x)dx - IR f (x)log { rn(x)} dx

= E [log { f (X)}] - E [log {fn(X) }1 .

b

L'idée de la validation croisée par vraisemblance est de minimiser D(f,

fn). Toutefois,

cette distance n'est pas métrique et les critères définis en la minimisant ne sont pas ap-

b

propriés pour obtenir un lissage adéquat. Donc minimiser D(f, fn) revient a maximiser

E [log {fn(X)}1. Ainsi, la fenetre optimale est

LCV (h),

hLCV = arg max

h>0

oU

.

LCV (h) = E [log {fn(X)}]

Par construction, nous avons l'estimateur sans biais de LCV (h):

1

Jn = n

Xn
i=1

n o

log bfn,-i(Xi|h) ,

oU

1

bfn,-i(Xi|h) = (

~Xi - Xj ~

X

K

n - 1)h h

i6=j

n

Montrons que E(Jn) = E h oi.

log bfn(X)

Comme les variables aléatoires X1,X2, . . . ,Xn sont i.i.d., d'une part nous obtenons

" o#

Xn n

1

E(Jn) = E log bfn,-i(Xi|h)

n

i=1

h n oi

= E log bfn,-1(X1|h)

?

= E ?log

?

?

?

?

~X1 - Xj ~? ?

1 X K ?

(n - 1)h h ?

j6=1

= E [log { h 1 K X 1 h X2

D'autre part, nous trouvons

" ( ~)#

h n oi Xn ~X - Xi

1

E log bfn(X) = E log K

nh h

i=1

= E [log { h1 K (X - hX )11

= E(Jn).

Enfin, la fenêtre optimale obtenue par la méthode de validation croisée par vraisemblance se calcule a partir de :

" 1 n

hLCV = arg max log { fn,_i (Xi | h) }1.

h>0 n

i=1

Cependant, cet estimateur est très sensible aux valeurs aberrantes. Sa diiculté apparait lorsque la méthode est appliquée a des observations dont la distribution présente de grandes queues. Les points situés dans les queues de la distribution a estimer ont des valeurs faibles, ce qui implique de faibles valeurs des estimations correspondantes. La présence de l'opérateur log dans l'expression de l'estimateur pose un problème de convergence pour les valeurs de densités aux queues. Par conséquent, il estest diicile dans ce cas de choisir hLCV de facon optimale, puisque l'on risque soit le sur-lissage soit une trop grande erreur sur les queues.

2.1.8 Simulation des donnees

Danscettepartie,nousillustronscertainsestimateursanoyauxcontinussymétriques a savoir le noyau d'Epanechnikov, le noyau gaussien le noyau biweight et le noyau triangulaire. Nous simulons un échantillon de taille n = 100 de la loi normale centrée et réduite. Pour chaque noyau fixé, la fenêtre optimale est choisie par les méthodes de validation croisée par moindre carrés et de Plug-in

?? ???\u9312‡@ ?? ???etr? ??r P??????

Cette méthode suppose que la densité suit une loi normale dans lexpression de la fenêtre h optimale. La valeur du paramètre de lissage est la même pour un échantillon donné. Nous obtenons pratiquement des estimations similairespourchaquenoyau continu utilisé; ceci s'explique par le fait que les noyaux continus symétriquespossèdent tous des efcacités proches l'une de l'autre (Figure 26)

?? ???\u9312‡@ ?? ???etr? ??r ??????t?? ?r?sé? ??a ??\u9312‡@???? ?? ?v??i????????

Le choix de la fenêtre optimale hopt se fait en fixant au préalable le noyau continu Le noyau par défaut dans le logiciel R est le noyau gaussien. Le choix des noyaux continus symétriques n'est pas important car ils ont quasiment les mêmes propriétés, c'est pourquoi le choix de la fenêtre optimale se fait sous lhypothèse gaussienne (et(et aussi pour des raisons techniques imposées sous R) Pour chaque noyau continu symétrique fixé, la figure (2.7) présente la fenêtre optimale hCV = 0.1636. Pour cette valeur de h, les estimations des différentes densités sont pratiquement similaires.

?? ???ts ?? ???\u9312‡@ ?? ???êtr?s

Nous comparons différentes estimations en faisant varier la valeur de la fenêtre pour le même noyau continu. Nous choisissons le noyau optimal dEpanechniiov

Les simulations effectuées dans la figure (28) mettent en lumière que les performances pratiques des estimateurs a noyaux continus symétriques considérés dépendent fortement du choix de la fenêtre h. Par conséquent, ce choix est plus crucial que le choix

Dwelt,
0.0 0.1 0.2 0.9 0.4

Dwelt,
0.0 0.1 02 0.9 0.4

Dwelt,
0.0 0.1 0.2 0.9 0.4

Dwelt,
0.0 0.1 02 0.9 0.4

bfn(x) = 1

n

Xn
i=1

KH (Xi - x) . (2.14)

FIG. 2.6 -- ??ss???s ??r ??s ?st???t??rs d ?\u9313‡A??\u9312‡@ ??t???s ?? ? ??ist???t?? ???? ????? t???? ?? ?? ?r???? ???tré? r(???t?? n = 100 ?t hPI = 0.338

Epanechn.PI

Gaussien PI

- 2 -1 0

1 2

- 2 -1

12

 

x
Biweight PI

Triangulaire PI

 

- 2 -1 0

1 2

- 2 -1

1 2

 

x

du noyau. Les valeurs de h sont celles choisies par plug-in (hpi = 0.338), validation croiséeparvraissemblance (hCV = 0.429)etdeuxautresvaleursarbitrairestelque h = 0.05 et h = 1.

2.2 Cas multivarie

Les principales techniques d'estimation non-paramétriques de densité dans le cas géneral d'observation de dimension quelconque restent des variantes destimateurs à noyau. Nous pouvons choisir destimer toutes les composantes des observations simultanément ou selon chaque composante séparément (en faisant le produit des noyaux univariés).

Nous considérons ainsi les observations (Xij) i.i.d. avec i = 1, ...,n et j = 1,...,d. Cette échantillon est de densité de probabilité f continue et inconnue sur = Rd.

b

L'estimateuranoyaucontinusymétrique fn def admetuneversionmultidimensionnelle et se présente de maniere générale par

Dwelt,
0.0 0.1 0.2 0.9 0.4

Dwelt,
0.0 0.1 02 0.9 0.4

FIG. 2.7 -- ??ss???s ??r ??s ?st???t??rs d ?\u9313‡A??\u9312‡@ ??t???s ?? ? ??ist???t?? ???? ????? t???? ?? ?? ?r???? ???tre? re???t?? n = 100 ?t hCy = 0.429

Dwelt,
0.0 0.1 0.2 0.9 0.4

Dwelt,
0.0 0.1 02 0.9 0.4

Epanechn.CV

Gaussien CV

 

- 2 -1

1 2

- 2 -1 0

12

 

Biweight CV

x
Triangulaire CV

 

- 2 -1

1 2

- 2 -1 0

1 2

x

on x =t (x1, ... ,xd) ? Rd, Xi =t (Xi1, . . . ,Xid) et H = est la matrice de variance-covariance de la fenetre h, de dimension d × d, donnée par

H=

?

?? ? .

[H. ... h1d h21 . . . h2d ... h2j ... hd1 ... h2d

La fonction KH est la fonction noyau définie sur ?x,h = Rd et reliée avec le noyau univarié (que nous avons présenté précédemment) par la relation suivante

KH (x) = Idet (H)}

--1/2 K (H--1/2x) .(2.15)

En effet, comme nous pouvons le remarquer dans lexpression de H, il peut y avoir des termes de corrélation entre les différents parametres de lissage. Ces coeffcients de corrélation vont compliquer davantage les calculs Nous proposons ainsi une expression plus simple qui fait appel a un produit des noyaux univariés et qui néglige leffet des

FIG. 2.8 - ????r??s? ??s ??ss???s ??r ???st???t??r a ?\u9313‡A?? ??t??? ??????????????? ???s??t ??r??r ?? ???etr? h

Epanechn.CV h=0.429

Dwelt,
0.0 0.1 0.2 0.9 0.4

Epanechn.PI h=0.338

Dwelt,
0.0 0.1 0.2 0.9 0.4

-2 -1 0 12 -2 -1 0 12

x
Epanechn. h=0.05

x
Epanechn. h=1

-2 -1 0 1 -1 1 2

x

Dwelt,
0.0 0.1 02 0.9 0.4

Dwelt,
0.0 0.1 02 0.9 0.4

corrélations. Dans ce cas, l'estimateur est

in(x) = 1

nh1 . . . hd

Xn
i=1

? ?

?

d
j=1

(Xij x,) ; hj .1 (2.16) ? ,

avec x =t (x1,...,xd) E Rd,hj > 0, Ed j=1 hj --> 0 et n 1dj=1 hj --> co et Kj est la fonction noyau univarié présentée antérieurement En pratique les noyaux-produits sont recommandés. Les estimateurs a noyau généralisés sont importants pour lesles études numériques, mais ils restent cependant utiles pour des considérations théoriques etet dans certains cas particuliers.

Note: De manière plus simple, nous prenons le noyau Kj = K, c'est a dire que nous utilisons ce même noyau pour toutes les observations. Cependant nous pouvons faire un mélange de différents types de noyaux tels que le noyau d'panechniiov avec le e gaussien, le biweight, etc.

Chapitre 3

Noyau associé continu asymétrique

Dans ce chapitre nous commençons par donner la définition dun noyau associé continu. A partir de cette définition, nous présentons lestimateur a noyau associé continu asymétrique dans le cas univarié puis multivarié. Nous étudions les propriétés élémentairesdecetestimateur.Différentsexemplesseronttraitésenguisedeconclusion.

3.1 Cas univarié

Danscettepremièrepartie,nousprésentonslestimateuranoyauassociécontinuasymétrique dans le cas univarié. Cet estimateur est approprié pour estimer des densités a support compact ou bornées d'un côté. Nous allons traiter quatres noyaux di~érents gamma, bêta, gaussien inverse (IG) et gaussien inverse réciproque (RIG) Pour de réé centes références nous pouvons consulter Chen (1999 2000) et Scaillet (2004) Nous montrons les propriétés élémentaires telles que biais, variance et MISE. Ensuite nous déterminons les fenêtres optimales pour chaque noyau associé considéré et lerreur en fonction de ces valeurs.

Soit X1,X2,. . . ,Xn un échantillon de variables aléatoires iid de densité de probabilité continue inconnue f a support = [a,b], avec a E R et b E R ( est par exemple le support [0,1] ou [0, + 8[). De manière génèrale, l'estimateur a noyau continu est de la forme suivante:

bfn(x) = 1

n

Xn
i=1

(3.1)

Kx,h(Xi)

= bfn,h,K(x),

on x est fixé dans , Kx,h est la fonction noyau associéU et h est un réel strictement positif appelé paramètre de lissage.

Dans le cas on Kx,h est associé a un noyau continu symétrique il vérifie

~x - . ~

1

Kx,h(.) = hK .

h

Dans le cas purement asymétrique, Kx,h est un noyau variable en fonction de la cible x (point d'estimation). Il change de forme chaque fois que x varie dans .

3.1.1 Definition

Definition 1: Soit x ? ? et h > 0. Nous appelons "noyau associe continu "" Kx,h toute densit( de probabilit( dune variable aléatoire Kx,h sur le support ?x,h tels que:

?x,h n ? =6 Ø

(3.2)

?x?x,h ? ?

(3.3)

E(Kx,h) ~ x quand h ? 0

(3.4)

V ar(Kx,h) < co

(3.5)

V ar(Kx,h) ? 0 quand h ? 0.

(3.6)

Commentaires::

a. La relation (3.2) traduit le fait que l'intersection entre le support des observations et le support du noyau associé continu asymétrique doit contenir au moins un élement. Pour un h fixé, quand x parcourt ?, le support ?x,h change, l'expression (3.3) suppose que ? doit etre toujours contenu dans la réunion des ?x,h. La condition (3.4) permet d'assurer la convergence ponctuelle de l'estimateur ; elle met en évidence que le noyau Kx,h est un noyau variable ou adaptif a la cible x. Par analogie au cas continu symétrique, la relation (3.5) n'est que la formule annoncée dans (25) du chapitre précédent. Enfin, la relation (3.6) assure la convergence de la variance de la variable aléatoire du noyau associé et va nous servir dans les calculs suivants.

b. Avant que nous passons a l'étude des des noyaux continus asymétriques, nous reveFIG. 3.1 - Densit( de loi norinale centrée

Densité de la loi normale

0.0 0.1 0.2 03 0A

th30040)

-6 -4 -2 0 2 4 6

x

FIG. 3.2 -- Illustration de la densite normale pour h = 1.5 et x = y varie

0.00 0.05 0.10 0.15 0.20 0.25

K(Y)

1

Xn
i=1

~ ~

exp -1 (Xi x)2 . 2 h2

nhv2ð

-10 -5 0 5 10

y

male N(u,ó2) est une loi continue définie sur ? = R de densité de probabilité gN(u,ó2) telle que

~ ~

1 -1 (x - u)2

gN(u,ó2)(x) = v2ðó2 exp .

2 ó2

Si X est une variable aléatoire qui suit la loi normale alors lespérance et la variance sont respectivement

E(X) = u et V ar(X) = ó2.

La figure 3.1 donne l'allure génerale d'une densité normale centrée Soit KN(x,h2) le noyauassociéalavariablealéatoire KN(x,h2) deloinormale N(x,h2)définisur ?x,h = R. Nous vérifions ainsi chacune des hypothéses de la définition 1 En effet, la relation (3.2) se traduit par l'intersection de ? = R avec ?x,h = R qui n'est que R. En plus, d'apres (3.3), la réunion sur x de R reste inchangée puisque le support ne dépend pas de x. A partir de (3.4), l'espérance est exactement égale a x;

E(KN(x,h2)) = x.

Finalement, la variance est finie et égal exactement a 0 quand h ? 0;

V ar(KN(x,h2)) = h2 < 8.

A ce niveau, nous donnons l'estimateur a noyau associé normal défini sur ? = R. Soit X1, ... ,Xn un échantillon de variables aléatoires iid. de densité de probabilité f continue et inconnue sur R. L'estimateur a noyau associé gaussien est

bfn(x) = 1

n

Xn
i=1

KN(x,h2)(Xi)

FIG. 3.3 Illustration de la densit normale pour x = 2.1 et h varié

-1 0 1 2 3 4 5

N(x,h)(y)

0.0 0.5 1.0 1.5 2.0 2.5

h=0.15 h=0.3 h=0.7 h=1.1 h=1.4 h=1.8

Get estimateur est-il une densité de probabilité? Oui en effet

ZR

Z ( (t - x ~2)

1

bfn(x)dx = -1

hv exp dx

2 h

R

Z r (x - t )2}

(a) 1 -1

= hv exp dx

2 h

R

= 1.

(a): La loi gaussienne est symétrique le fait que nous intégrons par rapport a x (la cible qui est aussi la moyenne) ou a t (la variable aléatoire) ne change rien; nous nous permettons ainsi de permuter entre la cible x et t et nous trouvons que c'est une densité de probabilité (voir figure 3.2 et 3.3). Bien que la vérification dans le cas dun noyau associécontinusymétriqueparaltsimple,laquestionrestevalablepourchacundesnoyaux asymétriques.

Nous présentons maintenant les densités continus asymétriques classiques que nous allons utiliser dans la suite de cette section (Tab 31)

Soient a et b deux réels strictement positifs qui vérifient

Z +8

(a) = e_tta_1dt

0

et

Z 1

B(a,b) = ta_1(1 - t)b_1dt.

0

3.1.2 Propriétés élémentaires

Nous donnons dans cette partie les différentes propriétésfondamentales delestimateur a noyau associé.

TAB. 3.1 -- ??????? re????t???t?? ??s ??s ?? ?r?????te ??t????s ?s\u9313‡A?éet?i??e

Loi de probabilité Support Densité

Gamma(a,b) R+ (a1)ba ta-1 exp(-t/b)

Beta(a,b) [0, 111 B(a,b)ta-1(1 - t)b-1

IG(a,b) R+ vvb2ðt3 exp {- 2ba ( a t - 2 + 7)}

RIG(a,b) R+ l2ðtb exp {- 2ba (at - 2 + a1t)}

Loi de probabilité Espérance Variance

Gamma(a,b) ab ab2

Beta(a,b) a/(a + b) ab/ {(a + b)2(a + b + 1)}

IG(a,b) a a3/b

RIG(a,b) 1/a + 1/b 1/ab + 2/b2

Propriétés 1:: ??t X1,X2,. . . ,Xn ?? (????t???? ?? ??r?????s ??e?t?r?s ?????? ?? ????

b

s?t ?? ?r??????te ??t???? ??????? f d s???rt ?? ??t fn ?? ?st???t??r ?? f a ?\u9313‡A??

b

fn(x) ???st ??s ?e?

?ss??e ??t??? ?s\u9313‡A?etr?q?? ?é??? ?r ?? ??rs? ?? ???t?? x 7-? ??ss??r????t ??? ???s?tt ?? ?r??????té ?r ?? ?? ?s??t

1,2

c = I bfn(x)dx = c(h,K) = 0,

b

??s ??s??er?s ?esr???s ???st???t??r fn t?? q??

in(x) = nc

Xn
i=1

Kx,h(Xi). (3.7)

Dans la suite, nous supposons que

fn(x) est une densité de probabilité. Nous illustrons

cette hypothese dans la partie exemple

b

densite de probabilite continue inconnue f de support ?. Soit fn l'estimateur de f a noyau associe continu asymetrique Kx,h de variable aleatoire Kx,h sur le support ?x,h. Alors, ?x ? ? et h > 0, nous avons

E {fri(x)} = E{f(Kx,h)} . (3.8)

Démonstration: Soit x ? ?. Nous avons successivement

E {/n(x) } = E nEKx,h(Xi)}

{ 1 n

i=1

= E {Kx,h(X1)}

Z?n?x,h

Kx,h(t)f(t)dt

(a)

=

= E{f(Kx,h)} .

(a); les Xi sont dans ? et le noyau associé est défini sur ?x,h. D'on l'intégrale se fait sur l'intersection des deux supports

Dans le but d'assurer la convergence ponctuelle de lestimateur nous avons adapté le lemme présenté par Hille (1948) et dont une démonstration a été donnée par Feller (1966) dans le lemme1,page 219.Noussignalons que celemme étaiténoncé dansletravailrécentdeChaubey etal.(2007)1.Ainsi,nousleformulonsdanslapropriétésuivante

Propriété 3: Soient f une fonction continue et bornée sur ? et x est fixée sur ce

b

support. Soit fn l'estimateur a noyau associé continu Kx,h sur ?x,h. Nous supposons que ?x ? ?,?x,h ? ?. Alors nous avons

E {In(x)} =

ftn?x,h

f(t)Kx,h(t)dt ? f(x) quand n ? 8.

La convergence est uniforme en toute subdivision de ? dans laquelle V ar(Kx,h) ? 0 quand h ? 0 et la fonction f est uniformément continue.

Démonstration: Nous partons de l'expression de lestimateur dans (3.1) et nous calculons son espérance

E {fn(x)} = Kx,h(z)f (z)dz.

Itx,hn?

Comme?x,h ? ?, nous pouvons écrire f(x) = f(x) R

?x,h Kx,h(z)dz. Ainsi, il existe ä > 0

tel que

~

E{.7.n(x)}- f(x) =h{f(z) - f (x)} Kx,h(z)dZ
Nx,

f |f(z) - f (x)| Kx,h(z)dz + I |f(z) - f (x)| Kx,h(z)dz.

?? \u9670·?s et??s r???tes ???s ?? res??t?t ??r ? Pr??ss??r ???????? ????u a ??????er?it ??????????? ?t ?? ??s?t? ?? ???r?t?r? ?? ??t?e??t?i??e ?????i?u?e ?? ???

Pour calculer la première quantité, nous utilisons directement la définition de la continuité:

?e > 0, ? ä > 0, ?z : |z - x| < ä |f(z) - f(x)| < €. D'on nous obtenons,

|f(z) - f (x)|Kx,h(z)dz = E Kx h(z)dz

lz-x|<ä flz-x|<ä

= €.

Pour calculer la deuxième quantité, nous utilisons linégalité de Tchebychev-Markov Comme f est bornée ? M > 0 tel que f = M. Ainsi, nous avons

fl (z) - f (x)|Kx,h(z)dz = 2M I Kx,h(z)dz

z-xl>5|

1z-x|>ä

2M

ä2

ä2 Kx h(z)dz

flz-x|>ä

2M

L (z - x)2 Kx,h(z)dz

.,h

2M

ä2

E {(Kx,h x)2}

(a) = 2M 2M

ä2 V ar (Kx,h) + ä2 {E (Kx,h) - x}2

(a): nous appliquons directement la formule E(X2) = V ar(X) + {E(X)}2. Or, d'après les deux hypothèses (3.4) et (3.6) du noyau associé, la dernière inégalité tend vers 0. Nous concluons enfin que

E { in(x)} -f(x) ? 0 quand n ? +8.

Remarque: ?? ?r?r?ete q?? ??s ???s ?res??t( ?st ??????? ???s ??le ??s ??e ?\u9313‡A??\u9312‡@??t???s s\u9313‡A?etr?q??s ?t ?s\u9313‡A?etr?q??s?

Proprietes 4: \u9670·?s ?res??t?s ?? ?e?????????t ????t( ?? ??\u9313‡A?r????r???? a ?r?d?? ?t ?? ???t ?\u9313‡A?? ?? ?? ??r????? ??e?t?r? E(Kx,h) = mx,h t?? q??

f(Kx,h)ÿ=f(mx,h) + (Kx,h - mx,h)f0(x) + 12(Kx,h - mx,h)2f"(x). (3.9)

?? ????????t ???s?er???? ?? ??tt? q???t?té? ??s ?t???n

E {f(Kx,h)} ÿ=f {E(Kx,h)} + 2V ar(Kx,h)f00(x). (3.10)

1

3.1.3 Biais ponctuel

Propriétés 5:: Soit x fix( dans ?. Nous avons

Biais {1n(x) } = E {1n(x)} - f(x)

=ÿ [f {E(Kx,h)} - f(x)] + 21 V ar(Kx,h)f" (x). (3.11)

Demontration : En effet, d'apres le resultat de (38) et les deux expressions dapproximation de Taylor-Lagrange (3.9) et (3.10) le biais sobtient facilement en retranchant

f(x).

Remarque: Nous remarquons que le biais ne d(pend pas de n et tend vers 0 quand h est tres petit.

3.1.4 Variance ponctuelle

Pour un x fixe, nous generalisons l'expression de la variance de que ce resultat sera utilise dans la partie exemple

b

fn.

Nous precisons

Propriétés 6:: Soit x fix( dans ?. Nous avons

n o Z h n o i2

V ar bfn(x) =ÿ 1 K2 x,h(t)f(t)dt - 1 Biais bfn(x) . (3.12)

+ f (x)

n n

?x,hn?

Demonstration: Comme les Xi sont i.i.d., nous obtenons successivement

V ar {:fn(x) } = V ar { 1 E Kx,h (Xi)}

n

i=1

1

n
1

n

[V ar {Kx,h(X1)}]

[E {Kx,h(X1)}2] -1 n [E{Kx,h(X1)}]2

(Z ) (Z )2

1 K2 - 1

x,h(t)f(t)dt Kx,h(t)f(t)dt .

n n

?x,hn? ?x,hn?

Par analogie avec le noyau continu symetrique nous avons

{Z ?x,hn?

2

Kx,h(t)f(t)dt }=ÿ [Biais fn(x)} + f (x) 2

et sous la condition f?x,hK x2 h(t) f (t)dt est finie, la variance de fn est

J

1 2

V ar {in(x)} =ÿ1

h(t) f (t)dt } - n [Biais {fn(x)} + f (x)1 .

n Rxhn?x,

3.1.5 MISE L'erreur globale de

b

fn s'obtient en sommant le carré de l'expression (311) avec le

resultat obtenu dans (3.12).

Propriétés 7: En sommant sur l'intersection des deua supports, e MIISE est

Z

MISE =

?

{ }

E bfn(x) _ f(x) dx

x,hn?

Z { } Z }

Biais2 {

= V ar bfn(x) dx + bfn(x) dx.

?x,hn? ?x,hn?

3.1.6 Exemples

Nous supposons dans toute la suite que f admet une dérivée seconde continue sur

}2 }2

le support et que les termes suivants sont finis J { {

f'(x) dx, J xf''(x) dx et

? ?

f{ }2

x3f''(x) dx.

?

a. Cas d'un noyau associé gamma

Chen (2000) était le premier a introduire l'estimateur a noyau asymétrique. Il préb

sentait au début un premier estimateur

fn a noyau gamma de paramètres a = x/h + 1

et b = h, il calculait ensuite les propriétés ponctuelles et globalesliées a cet estimateur Puis, a cause des problèmes du biais au bord quavait cet estimateur Chen e~ectuait unelégèremodificationauniveaudesparamètresdunoyaugammapourréduirelerreur

et il représentait un deuxième estimateur que nous notons

bbfn(x).

Nous rappelons qu'une loi gamma est une loi continue asymétrique définie sur = R+ de densité de probablité gG(a,b) telle que:

ta-1e-t/b

gG(a,b)(t) = (a)ba ,

Z

(a) =

avec

e-tta-1dt.

R+

Si X une variable aléatoire qui suit la loi gamma, alors

E(X) = ab et V ar(X) = ab2.

D'après la figure 3.4, nous remarquons que selon les valeurs que prennent a et b, l'allure de la courbe change. Dans le cas particulier on a = 1 nous retrouvons la loi exponentionnelle.

Soit KG(x/h+1;h) le noyau associé a la variable aléatoire 1G(x/h+1;h) de loi gamma et de support x,h = R+. Il est donné par

FIG. 3.4 Allure générale d'une densit gamma

Densité de la loi gamma

0 1 2 3 4 5

y

Density Gamma

0.0 0.2 0.4 0.6 0.8 1.0

Gamma

a=1 b=1
a=2 b=1

a=3 b=1

a=4 b=2

a=5 b=2

Les deux figures 3.5 et 3.6 donnent l'allure du noyau associé gamma qui dépend des paramêtres x et h. Nous donnons en premier lieu la représentation du noyau gamma pour un h fixé, nous remarquons qu'en changeant x la courbe change légérement de forme et se déplace principalement sur l'axe des abscisses. Cependant, si nous varions h comme indiqué dans le graphique 3.6, l'allure de cette densité change complétement.

Nous révisons d'abord les différentes hypotheses du noyau associé KG(x/h+1;h).

R+ = Ø.

i.R+ n =6

R+

ii.uxR+ = R+.

+ 1)h = x ' x h --* 0.

iii.E(JCG(x/h+1,h)) quand

= (x/h + h

xh +

iv.V ar(JCG(x/h+1,h)) = (x/h + 1)h2 = h2 < 00.

v.h --* 0 V ar(JCG(x/h+1,h)) = 0.

Soit X1,X2,. . . ,Xn un échantillon de variables aléatoires iid. a support = R, de

b

densité de probabilité continue inconnue f. Nous considérons l'estimateur fn a noyau associé gamma tel que

Xn
i=1
Xn

i=1

bfn(x) = 1

n

1
n

KG(x/h+1;h)(Xi)

Xx/h
1 i e_Xi/h

(x/h + 1) hx/h+1 ,

FIG. 3.5 Allure du noyau assoei gamma pour h = 0.2 et x varié

h=0.2

0 1 2 3 4 5

y

Gamma(x,h)(y)

0.0 0.5 1.0 1.5 2.0

x=0 x=0.5

x=1

x=2 x=2.8 x=3.5

on h > 0 est le paramêtre de lissage et K est le noyau associé a une variable aléatoire de loi gamma de paramêtres x/h + 1 et h. D'aprês (3.11), nous avons

{ } = hf'(x) + 1

Biais bfn(x) 2hxf''(x) + o(h). (3.13)

Dans le calcul du biais, nous nous arrêtons a lordre 1 pour avoir une homogénéité des puissances avec la variance dans le calcul de lerreur quadratique moyenne intégrée MISE (Le biais sera élevé au carré) D'aprês cette expression, nous remarquons que e biais tend vers 0 quand h tend aussi vers 0. Le fait que f' et f'' figurent dans la même équation, n'est pas três favorable dans le calcul du biais puisque ça augmente lerreur La complicité de la dérivée premiere avec la dérivée seconde est dfe au fait que x n'est pas la cible mais elle est plutôt le mode.

Nous calculons la variance de cet estimateur Daprês (312) nous avons

{ o h

V ar bfn(x) = 1 E ~KG(x/h+1;h)(X1)~2i - 1 ~E ~KG(x/h+1;h)(X1)~]2 . n n

Nous calculons chacun des deux termes En effet nous avons

.

( )

X2x/h

1 e_2X1/h

E {KG(x/h+1;h)(X1)}2 = E h2(x/h+1)2x/h + 1

FIG. 3.6 - Allure du noyau associe gamma pour x = y = 2 et h varie

0.0 0.2 0.4 0.6 0.8

Gamma(x,h)(y)

x=2

h=0.1 h=0.3 h=0.7 h=1.1 h=1.4 h=1.8

0 2 4 6 8 10

y

Soit KG(2x/h+1;h) un noyau associe gamma de par/ahme-et2rXe1s /2h

01. 2x/h + 1 et h;

{KG(2+1;h)(X1)} =

2 1 2x h2x/h+1(2x/h + 1).

Ce qui implique

X1 2x/he-2X1/h = h2x/h+1(2x/h + 1)KG(2x/h+1;h)(X1). Ainsi, nous trouvons finalement

(

h2x/h+1 (2x/h + 1)

E ~KG(x/h+1;h)(X1)~2 = E

h2(x/h+1) 2(x/h + 1) KG(2x/h+1;h)(X1)

h-1

(2x/h + 1) il K

lG(2x/h+1;h)PC1)}

=

2 (x/h + 1) .

Nous examinons les differentes conditions du noyau associe KG(2x/h+1;h). i. R+ n R+ = R+ =6 Ø.

ii.?xR+ = R+.

iii. E(KG(20/+1;h)) = (2x/h + 1)h = 2x + h.

iv. V ar(KG(201,+1;h)) = (2x/h + 1)h2 = 2xh + h2 < co.

v.h ? 0 V ar(KG(2x/h+1;h)) = 0.

Ah(x) ~

-1/2 si x/h ? 8

1h si x/h ? k,

?

??? ?

????

1 x 2v

(2k+1) 21+2k2(k+1)

Nous avons ainsi

E~KG(2x/h+1;h)(X1)~ = f(x) + h 2 f0(x) + o(h). Soit l'expression de Ah(x) telle que

Ah(x) =h-1 (2x/h + 1)

2(x/h + 1).

Nous considerons la fonction R(z) monotone, croissante et converge vers 1 quand z tend vers l'infini (i.e: ?z > 0, R(z) < 1). Elle est donnée par

v

R(z) = e-z zz-H. (3.14)

(z + 1)

En prenant z = 2x/h et z = x/h, nous obtenons

v2ð

e-2x/h(20.)2x/h+1/2

R(2x / h) =

(2x/h + 1)

R2(x/h) =

2ð e-2x/h(2x/h)2(x/h+1/2).

2 (x / h + 1)

Ainsi, Ah(x) peut etre exprimee en fonction de R(x/h) et R(2x/h).

Ah(x) = 1 v2ð R2 (x / h)

e-2x/h 2x \ 2x/h+1/2 x -2(x/h+1/2)

2ð R(2x/h) e-2x/h h h

h1/2

R2(x/h) x R(2x / h)

-1/222x/h+1.

v2ð

Comme R(z) < 1 alors R2(z) reste encore inferieur a 1. Par consequent, le rapport

R(2x/h) < 1 et nous trouvons

R2(x/h)

h1/2 R2 (x/h)

-1/222x/h+1

Ah(x) =

v2ð R(2x/h) x

=

h1/2x-1/2

2vð

hv

= 2v.

ðx

Pour un h suffisamment petit,

on k est une constante positive.

Nous calculons a ce niveau le deuxieme terme de la variance

2

\ 112

[E {KG(x/h+1;h)(X1) I .1 = [E {Lfn,h,K(x)dx }i =(a) 1.

(a): D'apres la propriété (3.7).

En conclusion, la variance est donnée par

-1/2f(x) + O(n-1) si x/h ? 8

1 si x/h ? k.

hnf(x)

V ar {:fii(x)} ~ ??? ? ?

????

1 x 2nv

(2k+1)
21+2k2(k+1)

L'impact de la variance au bord est négligeable dans la calcul de son intégrale, nous ne tenons compte que du terme qui se trouve a lintérieur de notre support ceci se démontre par le calcul suivant:

Soit ä = h1-E, on 0 < E < 1.

f ar {:fii(x)} dx = 1ä V ar {:fii(x)} dx + f: V ar {:fii(x)} dx

T8 1

x-1/2 f (x)dx + O(n-1 h-€)

2nvher

1 r 2nvher 0 x-1/2 f (x)dx + o(n-1h-6).

La valeur de la variance dans la petite boule de centre 0 et de rayon h1- dispose d'une valeur dérisoire ce qui fait que la quantité qui pése le plus est celle qui se trouve au milieu de ]0, + 8[.

Nous mesurons ainsi l'erreur quadratique moyenne intégrée MISE

8 2 rMI SE(n,h,K,f) = 10 Biais {fn(x) } + V ar {:fn(x)}

Z 82

= h2 r f0(x) + 12xf"(x) dx

0

+ 2nN 1 her Jo8

x-1/2f(x)dx + o( 1 ).

nvh

En minimisant le MISE par rapport a h, nous avons

2h

fo

2

(x) + 12xf (x) } dx

1 1

2n 2h2Or /0

8

x

-1/2f(x)dx = 0.

Enessayantdedéterminerlafenetreoptimalenousregrouponslestermesen hdememe coté;

8

2h I {f' (x) + 1 2 x f" (x) }2 dx =

2n 2h2ver

1 x-1/2 f (x)dx.

C'est-à-dire

h5/2 = 1/20r f rx-1/2f()dx 4f 0 {1(x) + (x)}2 dx

n

-1.

Enfin, la fen:tre optimale est

hopt =

(1/2vð)2/5 r

if08 x-1/2f(x)dx}2/5 n [f r { f' (x) + 1xf"(x)}2 dx] 2/5

-2/5.

La fenetre optimale dans le cas asymétrique est dordre O(n-2/5) inférieur que dans le cas symétrique O(n-1/5). En remplacant cette valeur optimale dans l'expression du MISE, nous avons successivement

2

MISEopt (hopt)

ho2 pt 8 1

{f (x) + 2x f (x) } dx

+

1 1

8

L-1/2 I

x-1/2 f (x)dx

'opt

 

2vð n

=ÿ

n-4/5

44/5 2v7r 0

{ 1 /8 -1/2 2 1/5

x f(x)dx }4/5 f (x) + 2x (x) } dx .

[18 1 "

0

b

Dans le but de réduire le biais et par la suite l'erreur entre fn et f, nous présontons le deuxième estimateur qu'a introduit Chen (2000) ; la modification sest faite au niveau de la cible de sorte qu'elle devient la moyenne de la variable aléatoire du noyau associé. Pour cela, soit

fn(x) = 1

n

Xn
i=1

KG(ñh(x);h)(Xi), (3.15)

ofi

ñh(x) ~

?

?? ?

???

x si x = 2h

4h2

x2+1

si x ? [0,2h[.

De la meme manière, nous calculons toute les propriétés de cet estimateur Le biais est tel que:

Biais {in(x)} ~

?

?? ?

???

2 x f" (x)h + o(h) si x = 2h

îh(x)hf'(x) + o(h) si x ? [0,2h[.

La variable î dépend de h et change de valeur en fonction de x, elle est égale à:

îh(x) = (1 - x) {ñh(x) - x/h} / {1 + hñh(x) - x}.

Clairement, le biais est plus petit dans ce cas ; quand x tend vers l'infini, nous obtenons une expression qui ne dépend que de la dérivée seconde f00, ce qui est plus faible par rapport au biais de fn.

bb

b

La variance de f est équivalente a celle de fn pour x/h tend vers l'infini. Nous distinguons une légère différence dans le cas on x/h s'approche de la constante k. En effet, la variance est égale a:

~ ~

V ar bbfn(x) ~

x-1/2f(x) + O(n-1) si x/h ? 8

a(k) n1 h f (x) si x/h ? k,

?

???

???

1

n

v 1 2 hð

avec a(k) un coefficient qui dépend seulement de k.

La somme du biais au carré et de la variance nous amène a déterminer le MISE de cet estimateur;

1 1 1 1 2

MISE( r 2 f (x)dx

Tfii)= h2 {x f (x)} dx + v x

hð n 0

4 0

(1/2vð)2/5 U08 x-1/2f(x)dx}2/5 Lb 8 {x f" (x)} 2 dx] 2/5 n

-2/5.

Ainsi, la fenêtre optimale est

hopt =

En substituant cette valeur dans lexpression du MISE lerreur quadratique moyenne intégrée optimale est::

-1/2 f (x)dx ] 4/5

1 1

MIS Eot(hot) =44/5 [ 2vð fo8 x [fo8 fixf"(x)12 dx ] 1/5 n-4/5.

Nouspouvonsêtretenterquelesdeuxestimateurs f et

bb

f atteignentlavitessedeconver-

gence optimale. Nous montrons que pour toute densité f continue:

Z 8 ~f (x) + 2 x f,, (x) }2 dx= fo8 {x f,,(x) }2 dx.

Ceci implique systématiquement

MISEopt( bf) = MISEopt(bbf).

Enfin, du point de vue purement théorique, il est clair que le deuxième estimateur bbf donne de meilleure performance en utilisant une fenêtre plus faible par rapport au pre-

mier estimateur

f.

b. Cas d'un noyau associe beta

Tout comme les noyaux gamma, Chen (1999) applique le même principe pour les noyaux bêta. Il introduit pour cela un premier estimateur on ilit remarque que les paramètres choisis ne sont pas les plus adéquats donc, ilit essaye de les harmoniser etet les es

arranger pour aboutir a de meilleures estimations et par conséquent de meilleures perr formances. L'idée est strictement la meme nous commencons ainsi par rappeler la loi beta. La densité de probabilité d'une loi beta est définie continue sur [0,1] telle que:

gBe(a,b)(t) = on a > 0, b > 0 et vérifiant

B(a,b)ta-1(1 - t)b-11[0,1](t), 1

B(a,b) = I ta-1 (1 - t)b-1dt.

Si X est une variable aléatoire qui suit la loi beta alors

a ab

E(X) = et V ar(X) =

a + b (a + b)2(a + b + 1).

La figure 3.7 donne l'allure de la fonction beta d'une manière générale.

FIG. 3.7 -- Allure generale de la densit( bêta

0.0 0.2 0.4 0.6 0.8 1.0

y

Bet3(3,b)

4

3

2

Bêta

a=2 b=2

a=3 b=2

a=4 b=2

a=2 b=3

a=3 b=3

LenoyauKBe(x/h+1;(1-x)/h+1))estlenoyauassociéaunevariablealéatoire KBe(x/h+1;(1-x)/h+1)) de loi beta et de support ?x,h = [0,1] tel que:

.

1

KBe(x/h+1;(1-x)/h+1)(t) = B(x /h + 1,(1 - x)/h + 1)tx/h(1 - t)(1-x)/h

FIG. 3.8 -- Allure du noyau associe bêta pour h = 0.2 et x varie

h=0.2

Beta(x,h)(y)

0 1 2 3 4 5 6

x=0 x=0.1 x=0.2 x=0.3 x=0.4 x=0.5

0.0 0.2 0.4 0.6 0.8 1.0

y

Lesfigures3.8et3.9donnentlavariationdunoyaubetachaquefoisquenouschangeons les paramètres x et h.

Nous nous assurons que ce noyau est bel et bien un noyau associé i.[0,1] n [0,1] = [0,1] =6 Ø.

ii.?x[0,1] = [0,1].

(x+h)

iii. E(KBe(x/h+1;(1--x)/h+1)) = (1+2h) x quand h ?0.
x(1--x)h+h2+h3

iv.

V ar(KBe(x/h+1;(1--x)/h+1)) = (1+2h)2(1+3h)< 8.

v.h ? 0 V ar(KBe(x/h+1;(1--x)/h+1)) = 0.

Soit X1,X2,. . . ,Xn un échantillon de variables aléatoires i.i.d sur ? = [0,1], de densité

de probabilité continue asymétrique inconnue f. Nous considérons l'estimateur

fn de f

a noyau beta tel que

fn(x) = 1

n

Xn
i=1

KBe(x/h+1;(1--x)/h+1)(Xi)

1
n

Xn
i=1

B(x/h + 1,(1 - x)/h + 1)

,

1 Xi x/h(1 - Xi)(1--x)/h

avec x ? [0,1] et h > 0 est le paramètre de lissage.

FIG. 3.9 -- Allure du noyau associe bêta pour x = y = 2 et h varie

x=0.2

Beta(x,h)(y)

0.0 0.5 1.0 1.5 2.0 2.5 3.0

h=0.1 h=0.3 h=0.7 h=1.1 h=1.4 h=1.8

0.0 0.2 0.4 0.6 0.8 1.0

y

En se bénéficiant des calculs antérieurs nous avons

1

Biais {:fii(x) } = h(1 - 2x) f (x) + 2x(1 - x)hf"(x) + o(h),

et

V ar {:fii(x)} = n1 [E 1KBe(x/h+1;(1-x)/h+1)(X1)}21 + O(n-1),

on

1 i (1 - Xi)2(1-x)/h.

~KBe(x/h+1;(1-x)/h+1)(X1)~2 = B2(x/h + 1; (1 - x)/h + 1)X2x/h

Soit KBe(x/h+1;(1-x)/h+1) le noyau associé de loi beta défini par

KBe(2x/h+1;2(1-x)/h+1)(Xi) =

B(2x/h + 1; 2(1 - x)/h + 1)

1

i

X2x/h(1 - Xi)2(1-x)/h.

Ce qui fait que

Xi 2x/h(1 -Xi)2(1-x)/h = B(2x/h + 1; 2(1 - x)/h + 1)KBe(2x/h+1;2(1-x)/h+1)(Xi). Ainsi:

Tout compte fait, nous avons

E {KBe(x/h+1;(1-x)/h+1)(X1) }2

B(2x/h + 1; 2(1 - x)/h + 1)

=

B2(x/h + 1;(1 - x)/h + 1)

E {KBe(2x/h+1;2(1-x)/h+1)(Xi)}.

Nous appellons Ah(x) = B(2x/h+1;2(1-x)/h+1)

B2(x/h+1;(1-x)/h+1) et nous rappellons que B(a,b) = (a)(b)

(a+b) .

Nous vérifions les conditions du noyau associé KBe(2x/h+1;2(1-x)/h+1)(Xi).

i.[0,1] n [0,1] = [0,1] =6 z. ii.ux[0,1] = [0,1].

x+h/2

iii.E(KBe(2x/h+1;2(1-x)/h+1)) = 1+h ~ x quand h ? 0.

< 8.

iv.V ar(KBe(2x/h+1;2(1-x)/h+1)) = 4x(1-x)h+2h+h2 v.h ? 0 V ar(KBe(2x/h+1;2(1-x)/h+1))

(2+2h)2(2+3h)

= 0.

En exploitant la fonction (3.14), nous avons

/

27r

R(2x/h) = ô(2x/h + 1)e

(2x

-2x/h

~2x/h+1/2

h

/

27r

R(2(1 - x)/h) = ô (2 ( 1 - x)/h + 1)e

(2(1 - x) )2(1-x)/h+1/2

-2(1-x)/h

h

/

27r

R(2/h + 1) =ô (2/ h+ 2)e

/2 )2/h+1+1/2

-2/h+1 h + 1

De même, nous avons

27r

R2(x/h) = ô2(x/h + 1)e

-2x/h ~x ~2x/h+1/2

h

27r

R2((1 - x)/h) = ô2(2(1 - x)/h + 1)e

(1 - x

-2(1-x)/h

h

~2(1-x)/h+1/2

27r

R2(1/h + 1) = ô2(1/h + 2)e

/1 + h )2(1/h+1)

-2(1/h+1)

h

Ainsi, nous trouvons

1 7r {x(1 - x)}-1/2 h-1/2 R(2/h + 1)R2(x/h)R2((1 - x)/h) Ah(x) = 2/ R(2x/h)R(2(1 - x)/h)R2(1/h + 1).

Enmajorantcetteexpressionpar 1,Ah(x)prenddeuxvaleursdifférentesselonlaconvergence du rapport x/h et (1 - x)/h.

Ah(x) ~

?

????

????

2v 1 ð {x(1 - x)}-1/2 h-1/2 si x/h et (1 - x)/h ? 8

22k+12(k+1)h-1

(2k+1) si x/h ou (1 - x)/h ? k.

Enfin, la variance est égale a

{ }

V ar bfn(x) ~

?

????

????

1 nh1/2 f(x) + O(n-1) si x/h et (1 - x)/h ? 8

2v ð {x(x - 1)}-1/2 1

ô(2k+1)
22k+1ô2(k+1)

nhf(x) + O(n-1)

1 si x/h ou (1 - x)/h ? k.

Nous évaluons l'erreur quadratique moyenne intégrée de cet estimateur

1 2

MISE {:fii(x) }=ÿh2 {10 (1 - 2x) f' (x) + 2 x(1 - x)f" (x) } dx 1r+ 27Whð {x(x - 1)}-1/2 f (x)dx.

Nous minimisons le MISE par rapport h et nous déterminons la fenêtre optimale hopt.

2/5

[

1 [2,/ðf o1 {x(x - 1)}-1/2 f (x)dx]

-2/5.

hopt = 42/5

f

o1(1-2x)f

'

(x)+

1

2

-

x(1-x)f

''

(x)

} dx]

De maniere similaire au noyau associé gamma et en considérantlles mêmesrraisonspour les quelles nous avons introduit le second estimateur a noyau associé gamma quiccorrge le biais au bord, nous présentons a ce, niveau le second estimateur a noyau assocéébtta défini sur [0,1] :

fn(x) = 1

n

Xn
i=1

KBe(x;h)(Xi), (3.16)

avec

KBe(x;h)(Xi)

?

?????? ?

???????

KBe(x/h;(1-x)/h)(Xi) si x ? [2h,1 - 2h]

KBe(ñh(x);(1-x)/h)(Xi) si x ? [0,2h[

KBe(x/h;ñh(1-x))(Xi) si x ?]1 - 2h,1]

on ñh(x) = 2h2 + 2.5 - /4h4 + 6h2 - x2 - x/h. ?h fixé, ñh(x) est croissante sur [0,2h]. Nous faisons tendre h vers 0 et vers 1, les quantités au bord deviennent faibles Ainsi nousrécupéronsjustel'expressionquisetrouvealintérieurdelintervalle.Nousrévisons les hypotheses mis sur le noyau associé

i.[0,1] n [0,1] = [0,1] =6 Ø.

ii.?x[0,1] = [0,1].

iii.E(KBe(x/h;(1-x)/h)) = x.

iv. V ar(KBe(x/h;1-x/h)) = x(1-x)h 1+h < 8.

v. h ? 0 V ar(KBe(x/h;1-x/h)) = 0. Le biais est égal à

Biais {fn(x)}

?

?????? ?

???????

2 hx(1 - x) f" (x) + o(h) si x ? [2h,1 - 2h] æh(x)hf0(x) + o(h) si x ? [0,2h]

-æh(x)hf0(x) + o(h) si x ? [1 - 2h,1]

2 2/5 n

avec æh(x) = (1 - x) {ñh(x) - x/h} {1 + hñh(x) - x}.

La variance de ce deuxieme estimateur est similaire au premier quand x/h et (1 - x)/h

tendent vers l'infini.

V ar {1n(x)} =

1

{x(x - 1)}-1/2 f(x) + O(n-1).

2nvhð

Enfin, la fenetre optimale est

Comme

hopt =

[2 \1 f {x(x - 1)}-1/2 f (x)dx] 2/5 ol

~nR 1 o2 ~2/5 n

o x(1 - x)f00(x) dx

--2/5.

~Zo

~2 Z 1

1 n o2

(1 - 2x)f0(x) + 1 2x(1 - x)f00(x) dx = x(1 - x)f00(x) dx,

o

alors la fenetre optimale du premier estimateur est plus grande que celle du second. En
remplacant la valeur optimale de h dans l'expression du MISE nous constatons que

l'erreur quadratique moyenne intégrée trouvée dans le cas de bfn.

fn est inférieure a celle de

MISE(

bfn) = MISE(fn).

c. Cas d'un noyau associe gaussien inverse II Soit g(t) la densité de loi gaussienne inverse telle que

,

v ~-b ~ t ~~

b

gIG(a,b)(t) = v2ðt3 exp a - 2 + a

2a

t

on t > 0 et (a,b) est un couple de deux réels strictement positifs La figure 310 donne l'allure générale de la densité gaussienne inverse Si X est une variable aléatoire qui suit la loi gaussienne inverse alors

E(X) = a et V ar(X) = a3/b.

Soit KIG(x;1/h) le noyau gaussien inverse associé a la variable aléatoire KIG(x;1/h) défini sur ?x,h = [0, + 8[, de parametres x et 1/h. Ce noyau associé KIG(x;1/h) se définit comme suit:

~ -1~ t ~~

1

KIG(x;1/h)(t) = v2ðht3 x - 2 + x .

exp 2hx t

Nous vérifions chacune des hypotheses du noyau associé i.R+ n R+ =6 Ø.

ii.?xR+ = R+.

iii.E(KIG(x;1/h)) = x.

iv. V ar(KIG(x;1/h)) = x3h < 8.

v.h ? 0 V ar(KIG(x;1/h)) = 0.

FIG. 3.10 - Allure générale de la densit gaussienne inyerse

0 1 2 3 4 5 6

t

Inverse Geussisn(e,b)

OA 0.5 1.0 1.5 2.0

Inverse Gaussian

a=1 b=10

a=2 b=25

a=3 b=7

a=4 b=30

a=5 b=15

Ainsi le noyau KIG(x;1/h) est un noyau associé. Les graphiques 311 et 312 présentent l'allure d'une densité gaussienne inverse quand nous varions x et h.

Pour un échantillon de variables aléatoires iid X1,X2, . . . ,Xn, nous considérons la

densité de probabilité f inconnue définie continue sur R+. Soit l'estimateur

bfn de f a

noyau inverse gaussien défini sur [0, + 00[ tel que:

bfn(x) = 1

n

Xn
i=1

KIG(x;1/h)(Xi)

=

1
n

Xn
i=1

( -1 (Xi

1

x

q2ðhX3 exp 2hx

i

2 +

~~

x ,

Xi

on le paramêtre h est strictement positif et x est dans R+.

En tenant compte de ce qui était cité précédemmentle biais est

{ } = 1

Biais bfn(x) 2x3f00(x)h + o(h),

donc

Z } Z {

Biais2 { }2

bfn(x) dx = 1 4h2 x3f00(x) dx + o(h2).

R+ R+

{ }2

Comme f x3f00(x) dx est finie alors, pour tout x qui tend vers +00, x3f00(x)

converge vers 0. D'oñ le biais diminue quand x augmente.

R+

~-1 ~X1 ~~ q

x - 2 + x = ðhX3 1KIG(x;2/h)(X1),

FIG. 3.11 -- Allure du noyau associe gaussien inverse pour h = 0.1 et x varie

0 1 2 3 4 5 6

!GM m)

3A

2A 2.5

1.5

0.5 1.0

OA

Inverse Gaussian

x=1

x=2

x=3

x=4

x=5

Nous calculons la variance sur la base des calculs effectues au prealable.

V ar {:fii(x)} = 1 E IIKIG(x;1/h)(X1)}21+O(n-1).

L

~KIG(x;1/h)(X1)~2 = 1

2ðhX-3

1 exp

xh x

-1 (1

2 + x )1

X

X1

Soit KIG(x;2/h)(X1) le noyau gaussien inverse de parametre x et 2/h associe a KIG(x;2/h) et definie sur [0, + 8[. Nous verifions simplement les differentes hypoteses liees a cette variable aleatoire :

R+ n R+ Ø

ii.?xR+ = R+.

iii.E(KIG(x;2/h)) = x.

= x3 h

iv.V ar(KIG(x;2/h)) 2 < 8 .

v. h ? 0 V ar(KIG(x;2/h)) = 0.

En conclusion, il s'agit d'un noyau associe Tout bien considers

xh x{ -1 (X1

- 2 +

v

2

KIG(x;2/h)(X1) = p2ðhX3 exp

1

Ce qui implique

OA 0.5 1.0 1.5 2.0 2.5

IGNim)

FIG. 3.12 Allure du noyau assoei gaussien inverse pour x = 2 et h varié

Inverse Gaussian

h=0.1
h=0.2
h=0.4
h=0.7
h=0.9

0 1 2 3 4 5 6

x

et par la suite, nous avons

{ }

X-3/2

E [{KIG(x;1/h)(X1)}2i = v 1 ðhE 1 KIG(x;2/h)(X1) .

2

A partir de l'approximation de Taylor-Lagrange nous obtenons

{ } { }

X-3/2 K-3/2

E 1 KIG(x;2/h)(X1) = E IG(x;1/h)f(KIG(x;1/h))

= x-3/2f(x) + O(h).

En conclusion, quand x > 0 se situe a l'intérieur du support, la variance est

.

{ } x-3/2

V ar bfn(x) = v 1 n f(x) + o(n-1h-1)

2 hð

La variance au bord, quand x/h ? k, présente quelques différences. Elle est égale a

,

{ } k-3/2

V ar bfn(x) = v 1 n f(x) + o(n-1h-2)

2 hð

k étant une constante positive. L'erreur globale de cet estimateur est

Z { }2 Z

1 1

MISE ÿ=4h2 x3f00(x) dx + v 1 x-3/2f(x)dx.

R+ 2 hð n R+

Nous cherchons a determiner le h optimal. Pour cela, nous minimisons le MISE par rapport a h, nous trouvons

1

2

Z h R{x3 f" (x)}2 dx 1 1

2h2Or 2n L+x-3/2f(x)dx = 0,

c'est a dire

h5/2 L+ {x3 f" (x)}2 dx = 1 1

20r n J+ x-3/2 f (x)dx.

Enfin, la fenetre optimale est

2/5

{

-2/5.

1 R o

2v R+ x-3/2f(x)dx ð

hopt = 2 /5 n

[fR+ {x3 f" (x)}2 dx1--

En l'exploitant dans la formule du MISE nous trouvons

14/5 r i 12/5

5 I

MISE(hopt) = 4 121 v ð L+ x-3/2 f (x)dx x3 f" (x)dx n-4/5.

1 JR+

d. Cas d'un noyau associe gaussien nverse rcciroque RIIG Nous considerons g(t) la densite de loi gaussienne inverse reciproque

v ~-bgRIG(a,b)(t) =

v2ð exp t 2a (at - 2 + at )1

on t > 0, a > 0 et b > 0. La figure 3.13 donne l'allure generale d'une densite gaussienne inverse reciproque. Si X est une variable aleatoire qui suit la loi gaussienne inverse reciproque alors

E(X) = 1

a

+

1

b et V ar(X) = 1b + 22.

SoitKRIG(1/(x-h);1/h) lenoyaugaussieninversereciproqueassociealavariablealeatoire KRIG(1/(x-h);1/h) defini sur ?x,h = [0, + co[, de parametres 1/(x - h) et 1/h. Ce noyau se presente comme suit :

KRIG(1/(x-h);1/h)(t) =

exp

ðht

2 + x ;h)}

2h

h t

x - h

-

1

v2

Nous commencons par verifier chacune des hypotheses du noyau associe i.{? = [0, + co[} n {?x,h = [0, + co[} = [0, + co[6= Ø.

ii.?x[0, + co[= [0, + co[.

iii. E(KRIG(1/(x-h);1/h)) = x-h + h = x.

iv. V ar(KRIGo./(x-h)0./h)) = (x - h)h + 2h2 = xh + h2 < co. v.h ? 0 V ar(KRIG(1/(x-h);1/h)) = 0.

FIG. 3.13 -- Allure generale de la densite gaussienne inverse réeiirrque

Reciprocal Inverse Gaussian

a=1 b=10

a=2 b=25

a=3 b=7

a=4 b=8 a=0.5 b=5

5

4

3

2

Reciprocal Inverse Gaussian

0 1 2 3 4 5 6

t

Ainsi toutes les conditions du noyau associé sont satisfaites.

Soit X1,X2, ...,Xn l'échantillon de variables aléatoires i.id. de densité de probabilité f

b

inconnue définie continue sur ? = R+. Nous considérons l'estimateur fn de f noyau gaussien inverse réciproque défini sur [0, + 8[ tel que

bfn(x) = 1

n

i=1

KRIG(1/(x-h);1/h)(Xi)

1
n

=

Xn
i=1

1 x - h (Xi2 x -

v2ðhXi exp 1 2h x - h + Xi) ,

avec h > 0 et x ? R+.

En tenant compte des résultats obtenus précédemment

Biais {:fii(x) } = 21 x f" (x)h + o(h),

et donc

FIG. 3.14 -- ????r? ?? ?\u9313‡A?? ?ss??e ???ss??? ????rs? ré???rq?? ??r x = 2 ?t h ??r?e

MOO /10

3A

2A 2.5

1.5

0.5 1.0

OA

Reciprocal Inverse Gaussian

h=0.1 h=0.2 h=0.4 h=0.7 h=0.9

0 1 2 3 4 5 6

x

En refaisant les calculs de la variance de la même facon nous trouvons

si x/h ? 8 si xfi.1 k.

V ar {fn(x)} ~

 

?

????

????

1 x -1/2f

(x) + O(n-1)

+ 7 k3/2) + O(n-1)

' 16

2nvhð

1 (k-1/2

2nhvð

La fenêtre optimale est egale à

hopt =

( 1 )2/5 {L#177; x-1/2f (x)dx}2/5

200

[fR#177; {xf"(x)}2 dx12/5

n-2/5.

En conclusion, nous evaluons le MISE en fonction de cette valeur hopt:

M I S E(hopt) = #177; (20r)

1 2/5 {fly

[fR#177; {xf"(x)}2 dx]

x-1/2f (x)dx 12/5

2/5 n-2/5.

e. Remarques:

i. ????? ?? s???rt ?? ?\u9313‡A?? ?ss??e ?x,h ?? ?e???? ??s ?? ?? x ?? ?? h ??rs ?e?

?\u9312‡@?????s q?? ??s ???s tr??té?

ii. ???s ???\u9312‡@?r?ss?? ?? ?? ???êtr? ?t?????? ?? ???s?it ?????? f ?t s? ?ér??é? s????????r??t ???s ?? ???er?t??r ?t ?? ?e???er?t??r ??tr??r????t ?? ??a \u9313‡A?éet?i?? o f s? tr??? s???????t ?? ?e???er?t??r ?? ??s ????s ???i? ???nne ??????? ?nt? ? ?a s\u9313‡A?etr?q?? ?t ?s\u9313‡A?etr?q??? ??rs ??r ????ttr? ? ?ée??? ?"??????? ???? ?ée??????st???t?? ?? ??r??etr? h? f ??t s\u9313‡Aste??t?q?????t s???r? ??? ?? ??t???? ?a\u9313‡A?é? tr?q?? ?? s???rt R? P?r ?\u9312‡@?????? ???s ?? ??s ??s ?\u9313‡A??\u9312‡@ ?ss??és ?????? ???ss???????rs? ?t ???ss??? ????rs? re???rq??? ??s ???s?s ?? f s??t ??? ?? ?s\u9313‡A?etr?q???e??? s?r R+? ???s ?? ??s ??s ?\u9313‡A??\u9312‡@ ?ss??es ?êt?? ?? ???s?it ??i ???nne ? ?? ???or [0,1]?

3.2 Cas multivarie

defini sur de dimension d. L'estimateur

Dans cette section, nous généralisons lestimateur a noyau associé continu asymétriqueaucasmultidimensionnel.Pourcela,nousconsidéronsunéchantillondevariables aléatoires X1,. . . ,Xn i.i.d., de densité de probabilité f continue asymétrique inconnue fn de f a noyau associé continu asymétrique est

fn (x) = 1

n

Xn
i=1

Kx,H (Xi) , (3.17)

on la cible x =t (x1, ... ,xd), H est la matrice pleine de variance-covariance des fenêtres h de dimension d x d, et Xi =t (Xi1, . . . ,Xid). La fonction Kx,H est le noyau associé asymétrique sur Rx,h.

Pareillement,nousdonnonsunestimateurquisebasesurleproduitdesnoyauxunivariés asymétriques. Get estimateur a une forme plus vulgarisée que celle de (3.17). En effet, nous avons

fn (x) = 1

n

Xn
i=1

? ?

?

d
j=1

Kjxj,hj (Xij)

???

,

(3.18)

on xj est la jeme composante du vecteur x, hj est la jeme fenêtre et Xij est la ieme observation de la jeme composante.

bfn(x) = 1

n

Xn
i=1

Kx,h (Xi), (4.6)

Chapitre 4

Noyau associé discret

Le nombre de travaux abordant les estimateurs a noyau pour des données discrètes reste limité. Dans ce chapitre, nous présentons deux types de noyaux associés discrets. La première section porte sur les noyaux associés discrets pour des données catégorielles on les données sont qualitatives ordonnées et définis sur un ensemble fini inclu dans N que nous désignons Rx,h. Ensuite, dans une deuxième partie, nous introduisons le noyau associé discret pour des données de comptages. Une première tentative dans ce cadre, uniquement de manière expérimentale a été proposé par Marsh & Mukho padhyay(1999).Nousétudionslespropriétesponctuellesetglobalesdechacundesdeux estimateurs a noyau associé discret Différentes techniques de selection de la en:tre du lissage sont proposées. Enfin,nous généralisonslestimateur a noyau associé aucasmultivarié.

Definition 1: ??t x ?\u9312‡@( ???s R ?t h > 0? \u9670·?s ??????s ??\u9313‡A?? ?ss??e ??s?r?t? Kx,h? t?t? ???t?? ?? ??ss? ?? ?r??????té ??s?rt? ????? ??r????? ??l?t?i? Kx,h s?r ?? s???rt Rx,h? t??s q???

Rx,h n R=6 Ø (4.1)

?xRx,h ? R (4.2)

E(Kx,h) ~ x quand h ? 0 (4.3)

V ar(Kx,h) < 8 (4.4)

V ar(Kx,h) ? 0 quand h ? 0. (4.5)

Commentaire: Nous vérifions dans ce qui suit, que dans le cas du noyau associé discret pour des données catégorielles, le support Rx,h coincide avec R. Nous verrons que dans certaine situation, ce n'est pas toujours vérifié comme dans le cas des données de comptage; Rx,h dépend de x et ne se colle pas avec le support R.

Definition 2:: ??t X1,. . . ,Xn ?? (????t???? ?? ??r?????s ??e?t?r?s ?????? ?? ???t???? ??ss? ?? ?r??????te f ??s?ret? ??????? s?r R? ???st???t??r a ?\u9313‡A?? ?ss??e ??i?r?t

b

fn =fn,h,K ?? f ?st ?e??? ??r

avec x ? ? et h > 0.

Propriété 1: Soit x fixé dans ?. Nous avons

E {:In(x)} = E {f(Kx,h)} . (4.7)

Démonstration: En effet, nous trouvons successivement

(

1 n

E {In(x) } = E n EKx,h(Xi)

i=1

= E {Kx,h(X1)}

X=

y??x,h

Kx,h(y)f(y)

X=

y??x,h

f(y) Pr(Kx,h = y)

= E{f(Kx,h)} .
·

 

Propriété 2: Soit f une fonction discrete de support ?. Soit

b

fn l'estimateur de f à

noyau associé discret Kx,h sur ?x,h. Nous supposons que ?x ? ?,?x,h ? ?. Alors, nous avons

E{in(x)} = E

f(t)Kx,h(t) ? f(x) quand n ? +8.

t??n?x,h

Démonstration:Nouspartonsdel'espérancede bfn(x)quiestégaleaEt??n?x,h f(t)Kx,h(t). Nous calculons sa différence avec f(x). Pour cela, ? ä > 0 tel que

trn(x)} f(x) =

~~~~~~

X
t??n?x,h

{f(t) - f(x)} Kx,h(t)

~~~~~~

X

=

|t-x|<ä

|f(t) - f (x)| Kx,h(t) + E

|t-x|>ä

|f(t) - f(x)| Kx,h(t).

Pourcalculerlepremierterme,nousavonsrecoursaladéfinitiondelacontinuitédansle cas discret (cette notion de continuité est différente par rapport a celle du cas continu) f estcontinueen x ? ? € > 0, ? ä > 0telque? t ?]x-ä,x+ä[n?x,h |f(t)-f(x)| < E. Ce qui implique

X
|t-x|<ä

|f(t) - f(x)|Kx,h(t) = E.

La fonction f est discrete donc elle est bornée par 1 et nous obtenons successivement

X
|t-x|>ä

|f(t) - f(x)|Kx,h(t) = ä22 Pr (|Kx,h - x| > ä)

2 2

ä2V ar (Kx,h) + ä2 {E (Kx,h ) - x}2 .

Finalement,souslesdeuxconditions(43)et(4.5)toutecettequantitéconvergevers 0.

b

Propriété 3: Soit x fixé dans ?. Le biais ponctuel de l'estimateur fn de f a noyau associé discret est

Biais {1n(x) } = E {f(Kx,h)} - f(x)

= f {E(Kx,h)} - f(x) + 1 V ar (Kx,h) f (2) (x) + o(h). (4.8)

Démonstration: Par définition,le biais est la différence entrelespérance delestimateur

b

fn et la densité inconnue f. En effet, d'apres le résultat (4.7) nous avons

E{fn(x) } = E {f(Kx,h)} .
Or,enutilisantundeveleppomentlimitéaupointmoyen mx,h = E(Kx,h),nousobtenons

f(Kx,h) = f(mx,h) + (Kx,h - mx,h)f(1)(x) + 12(Kx,h - mx,h)2f(2)(x) + o(h). Et en prenant l'espérance mathématique, nous avons finalement

1

E{f (Kx,h)} = f {E(Kx,h)} + 2 V ar(Kx,h) f (2) (x) + o(h).

Remarque: Nous mentionnons que les fk(x) d'ordre k = 1 représentent les différences finies qui viennent remplacer les dérivées dans le cas continu et qui vérifient

f(k)(x) = { f(k-1)(x)}

et f0(x) =

{f(x + 1) - f(x - 1)} /2 si x ? N* f(1) - f(0) si x = 0.

? ???

???

Propriété 4:: Soit x fixé dans ?. La variance ponctuelle de l'estimateur bfn =fn,h,K de f a noyau associé discret est

V ar {In(x) } =ÿ1 nf(x)Pr(Kx,h = x).

(4.9)

Démonstration: La variance est donnée de maniere successive par

( n

V ar {:fii(x) } = V ar K x,h(Xi)}

n i=1

V ar {Kx,h(X1)}

1

E {Kx,h(X1)}2 - n [E {Kx,h(X1)}]2

1

=

n

1
n

=

}2

1
n

? ? ?

=

f (y) {Pr(Kx,h = y)}2 - 1 n?E f (y) Pr(Kx,h = y)

yENx,h ?yENx,h

1
n

=

n1 {f (x) E(K,h) - f2(x) } + O(n) f(x) Pr(Kx,h = x).

Nous précisons que le terme E(K2x,h) := Ey??x,h {Pr(Kx,h = y)}2 est majoré par 1. Le
résultat final se base sur la condition (4.3) a traversla probabilité modale Pr(Kx,h = x).

Propriété 5: L'erreur quadratique moyenne intégrée que nous appelons MISE est

X

MISE =

x??

X=

x??

E{in(x) - f(x)}2 Biais2 {.-fii(x)} + E

x??

V ar {:fii(x)}

12

= E {E(Kx,h) - f (x) + 21 V ar(Kx,h)f(2)(x) + o(h)

x??

+ E

x??

1
n

f(x)Pr(Kx,h = x). (4.10)

4. 1 Noyau associé discret pour des données catégorielles

Dans cette partie, nous nous focalisons sur les données discretes catégorielles (i.e. données qualitatives). Nous travaillons essentiellement sur un ensemble discret fini ? ? R. Nous signalons que durant les dernieres annéesily avait une croissanceconsidée rable dans le domaine des noyaux discrets pour des données catégorielles, lesles premiers travaux sont dfis aux innovateurs Aitchison & Aitken (1976) puis Simonoff & Tutz (2000) et enfin, Racine & Li (2007). (voir bibliographie pour plus de détails.)

Définition 3: Soit X la variable aleatoire de loi d'Aitchison & Aitken que nous notons D(c; c0,A), on c ? N \ {0,1} est le cardinal du support, c0 ? {0,1,. . . ,c - 1} est le point de reference et A ?]0,1], de densite de probabilite sur le support ? = {0,1, . . . ,c - 1} definie par

Pr(X = x) = (1 - A)1x=0 + c A - 1

1x6=c0.

Propriété 6: L'espérance de la variable aléatoire X de loi d'Aitchison & Aitken est

A

E(X) = c0(1 - A Ac (4.11)

c - 1 2

4.1. NOYAU ASSOCIR DISCRET POUR DES DONNRES CATRGORIELLES 69

Demonstration:L'esperancedecettevariablealeatoireestdonnéedemanieresuccessive par:

E(X) = E x Pr(X = x)

x?{0,1,...,c-1}

+

c xë11x,c0

E { x?{0,1,...,c-1}

= {c0(1 -- ë) + c ë 1(0+ 1 + ... + (c0 -- 1) + (c0 + 1) +...+c -- 1)1

( ) }

= c0(1 -- ë) +

c ë -- 1 i c00

c(c -- 1)

= c0(1 -- ë) + c -- ë 1 1 2 c0}

c0 (1 ë ë ) ëc

c 1 2

Propriete 7: La variance de la variable aleatoire X de loi d'Aitchison & Aitken est

V ar X 2 c2ë (1 -- ë) -- ëc

( ) =

0(c -- 1)2

2

ëc (2c 3 -- 1 ë 2c)

. (4.12)

c0

c -- 1

c2ë(1 -- ë) -- ëc

+

Demonstration: La variance est obtenue de maniere successive par

V ar(X) = E(X2) -- {E(X)}2

(c-1 ) -- co = c20(1 -- ë) + c ë

Ei2 c,0--{c0 (1 -- ë

c ë 1 )) ëc

2 f

i=0

= c20(1 -- ë) +

ëc(2c -- 1) ëc8

{c0 (1 -- ë -- ë ) ëc1

c -- 1 ) 2 j

6 c -- 1

2

2

ë

2c2

ë

= c0 2 (1 -- ë

c 1

ë ) 6 Ac(2c -- 1) 2

c0 (1 -- ë

c -- 1 ) 4

--c0ëc (1 -- ë -- ë )

c -- 1

(c -- 1)2

c0

c -- 1

2 c2ë(1 -- ë) -- ëc = c0

Commentaires::

c2ë(1 -- ë) -- ëc

+

ëc (2c -- 1 ëc)

.
·

2 3 2

a. Lorsque c = 2, nous nous retrouvons dans le cas dune loi Bernoulli de parametre ë ou 1 -- ë. Le type de la loi Bernoulli change selon que le point de reference se trouve en 0 ou en 1. Nous verrons dans le cas de lestimateur a noyau associe discret que le choix du point de reference sera la cible.

b. Lorsque c 7? +8, le support ? = N.

c. Si ë = 0, ceci revient a dire que notre loi est la loi de dirac qui ne depend plus

FIG. 4.1 -- ???str?t?? ?? ?? ?? ????t???s? ?t ??t???

Densité de loi Aitchison et Aitken

OA 02 0.4 0.8 0.8 1.0

Pr

0 8

4

2

x

de c et que nous la notons äx. Si maintenant, ë prend la deuxieme valeur limite qui est egale a 1 alors Pr(X = x) = 1 1

c-1 x,c0.

Nous sommes en mesure de donner une definition precise dun estimateur a noyau associe discret pour une densite de probabilite f sur un ensemble discret ? et de presenter les proprietes fondamentales relatives

Definition 4: ??t X1,X2,. . . ,Xn ?? e????t???? ?? ??r?????s ??e?t?r?s ?????? ?? ???

t??????ss????r??????te??s?ret???té?r?????r???é??????? f s?r? = {0,1,...,c - 1}?

ùc ?st ???? ?t ?\u9312‡@e ???s N \ {0,1}? U? ?st???t??r bfn(x) =

b

fn,h,K(x) ?? f(x) a ?\u9313‡A?? ?ss??e ??s?r?t KD(c;x,h) q?? s??t ?? ?? ????t???s? & ??t??? ?st ?e??? ??r

fn(x) = 1

n

Xn
i=1

KD(c;x,h)(Xi) (4.13)

1
n

E- h)1Xi=x + h 11Xi,=x} .

i=1

???? x ?st ???s ? ?t h ?]0,1] ?st ?? ??r??etr? ?? ??ss??? ??s?r?t ?? ???r? ?? ???êtt??? Nous examinons les differents points que doit verifier le noyau associi KD(c;x,h):

i.?c;x,h = {0,1, . . . ,c - 1} = ?.

4.1. NOYAU ASSOCIE DISCRET POUR DES DONNEES CATEGORIELLES 71

FIG. 4.2 -- ???str?t?? ?? ?\u9313‡A?? ?ss??e ???t???s? ?tet ??i??? ??r h = 0.2 ?t x ??r?e

0.0 02 0.4 0.6 0.8 1.0

D(c;x,h)(y)

0 2 4 6 8

y

ii.?x?c;x,h = {0,1,...,c 1} = ?.

iii. E (KD(c;x,h)) = x (1 h ch 1) + hc~ x quand h ? 0.

iv. V ar (KD(c;x,h)) = x2 hc2((1-h)2-hc xhc2 (1-h)-hc + hc (2c-1 h2c) < 8.

c-1 2 k 3

v. h ? 0 V ar (KD(c;x,h)) = 0.

Propriété 8: A travers la formule (4.8), la fonction x 7? bfn(x) est une fonction de masse de probabilité.

Démonstration: Comme les Xi sont i.i.d., nous avons successivement

Ec- 1
x=0

fn(x) =

c- 1 {1 n

=0 n D(qx,h)(Xi)

x } i=1

c- 1

E {(1 h)1X1=x + h

c 11X1'=x

x=0

= (1 h) + ch 1(1 + 1 + ... + 1)

= (1 h) + ch 1(c 1) = 1.

FIG. 4.3 -- ???str?t?? ?? ?\u9313‡A?? ?ss??e ???t???s? ?tet ??i??? ??r x = y = 2 ?t h ??r?e

0.0 02 0.4 0.6 0.8 1.0

D(c;x,h)(y)

0 2 4 6 8

y

b

Propriété 9: D'après la relation (4.8), le biais de l'estimateur

fn de f a noyau associé

 
 

{ I

2hc

(

2c 1

+
hc

)}

Biais{fn()} x) = hc f(1)(x) + - xhc + f (2) ( 2)

x) + o(h.

2 2 lc - 1 2 3 2

(4.14) Remarque: \u9670·?s r???rq??s ????res ?????? q?? ?? ????s ?stest rs ???rr??t? ? ?d????? a ?? ??s ?? c? h ?t ??s ?er??e?s ?r???er? ?t s?????? ???q?? ??s q?? ? ??r??????? s???rt c ??????t? ?? ????s s????r?t? \u9670·?s ????s ???s? ???s?r a r???i? ? ????i ?? ??????t ??s ??r??etr?s ???? ???s ??le ??s ??s ?\u9313‡A??\u9312‡@ ?ss??ie ?a\u9313‡A?éet?i??e ????u ?re??se????t ??s ?\u9313‡A??\u9312‡@ ????? ?t ?et? ?? ????? ???ss??? ???er? ?e ???us??? ???er? re???rq?? ?? ???????t? \u9670·?s ??tr?s q?? ?? ??st ??s ?????t ?? ?de?e????e ?e??a???etr?s? ????????t? ??? ??c? ?ss???? ??r ??le é???r? ??s?is? a ?r???d? ??? ? ???ntr??? c0 ???? ? ???t ?? ????? ??sse ??r ??s ?\u9313‡A??\u9312‡@ r????????r?e ???i ??????g???????r ???s ?? ?et???s??

b

Propriété 10: D'après la relation (4.9), la variance de l'estimateur associé discret KD(c;x,h) de loi d'Aitchison & Aitken est

fn de f a noyau

h \2 {c-1

V ar {:fii(x)} = 1 [f(x)(1 - h)2 + (c - 1) f(i) - f (x) }1. (4.15)

i=0

4.2. NOYAU ASSOCI] DISCRET POUR DES DONNÉES DE COMPTAGE 73

4.2 Noyau associé discret pour des données de comptage

Pareillement a la section précédente, nous donnons dans cette partie lestimateur a noyau associé discret pour des données de dénombrement Noustravaillons essentiellement sur un ensemble fini (ou encore n'importe quel ensemble dénombrable notamment Z, N + qN, etc). Nous calculons les propriétés fondamentales pour cet estimateur en utilisant les différences finies ala place des dérivées. Nous présentons dans a suite 4 exemples de noyaux associés discrets symétriques et standards asymétriques.

4.2.1 Noyau associé poissonien

Nous rappelons qu'une loi de Poisson Po(A) de paramètre A est une loi discrète définie sur N de fonction de masse de probabilité Pr(X = x) telle que pour tout x dans N, nous avons

Pr(X = x) = e-ë Ax x!.

Si X est une variable aléatoire qui suit la loi Poisson alors lespérance et la variance sont respectivement égales a

E(X) = A et V ar(X) = A.

0 5 10 15

x=5

0 5 10 15

x=7

0 5 10 15

y

0 5 10 15

y

FIG. 4.4 Illustration du noyau associ poissonnien pour h = 0.1 et x variée

x=0

5 10 15

x=2

x=1

?

?

?

?

?

? ? ? ? ? ? ? ? ? ? ? ? ?

0 5 10 15

x=4

0.00 0.15 0.30

0.0 02 0.4

Probab(y)

Probab(y)

0.00 0.10 0.20

?

?

?

?

?

?

? ? ? ? ? ? ? ? ? ? ?

0.00 0.10

?

?

?

?

?

?

?

?

? ? ? ? ? ? ? ?

Probab(y)

0.00 0.10

?

?

?

?

?

?

?

?

?

?

? ? ? ? ? ? ?

0.00 0.06 0.12

?

?

?

?

?

?

?

? ? ? ?

?

?

?

? ?

?

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

?

La figure 4.4 illustre la variation de la fonction de masse poissonienne pour h = 0.1. Soit KPo(x+h) le noyau poissonien associé a la variable aléatoire KP o(x+h) sur x,h = N

tel que:

avec x ? N, y ? N et h > 0 est le parametre de lissage discret. Ce noyau poissonien KPo(x+h)(y) = e-(x+h)(x +

!

vérifie-t-il la définition d'un noyau associé? En effet nous avons

i.? n ?x,h = N n N = N=6 Ø. ii.?xN = N.

iii.E (KP o(x+h)) = x + h ~xquand h ? 0.

iv. V ar (KPo(x+h)) = x + h < 8. v.h ? 0 V ar (KP o(x+h)) = x.

Soit ,Xn un échantillon de variables aléatoires i.i.d . de fonction de masse de

probabilité discrete inconnue f définie sur un ensemble discret ? = N. L'estimateur fn de f a noyau associé poissonien est défini par

bfn(x) = 1

n

Xn
i=1

KPo(x+h)(Xi)

1
n

=

Xn
i=1

e-(x+h) (x + h)Xi

Xi! ,

avec x ? N et h > 0.

Cet estimateur est-il une fonction de masse de probabilité? Non, en effet

X8
x=0

bfn(x) =

t° {1 KPo(x+h)(Xi)}

x=0 n i=1

=

X8
x=0

{KPo(x+h)(X1)}

=

~

X8 ~

e-(x+h)(x + h)X1 .

X1!

x=0

Nous avons calculé cette quantité numériquement sous R, pour plusieurs valeurs de h et de X1, nous avons abouti a des valeurs tres faibles par rapport a 1 Enfin, lestimateur

b

fn(x) n'est pas une fonction de masse de probabilité

Nous évaluons ainsi le biais et la variance de lestimateur a noyau associé poissonien.

b

En se basant sur la relation (4.8), le biais ponctuel de fn(x) en un point x fixé est

Biais {jn(x) } = h f (1) (x) + 21 (x + h)f(2)(x) + o(h).

b

De même, d'apres la relation (4.9), la variance de

fn(x) en un point x fixé est

V ar {fl(x)} = n x f(x)(x + ! e-(x+h).

Enfin, la valeur du MISE est

MISE(n,h,f) = 1 E

n x?N

(x + h)x f(x) x!e

2

-(x+h)+ E {hf(1)(x) + 21 (x+h) f(2) (x) + o(h) } .

x?N

4.2. NOYAU ASSOCI] DISCRET POUR DES DONNÉES DE COMPTAGE 75

4.2.2 Noyau associé binomial

Nous rappelons qu'une loi binomiale de paramètres N et p, B(N,p) est une loi discréte définie sur l'ensemble {0, . . . ,N}, avec N est un entier fixé dans N, de fonction de masse de probabilité gB(N,p) telle que

N_x

.

N!

x!(N - x)!

Pr(X = x) = px(1 - p)

Si X est une variable aléatoire qui suit la loi binomiale alors lespérance et la variance sont respectivement

E(X) = Np et V ar(x) = Np(1 - p).

La figure 4.5 présente l'allure de la densité d'une loi binomiale quand nous fixons la fenêtre h et nous faisons varier x. Par ailleurs, la figure 4.6 donne la variation de cette densité quand nous varions h et nous gardons x fixé en 7.

FIG. 4.5 Illustration du noyau associ binomial pour h = 0.1 et x varié.

x=0 x=1

2 4 6 8 10 0 2 4 6 8 10

x=2 x=4

0 2 4 6 8 10

x=5

0 2 4 6 8 10

x=7

0 2 4 6 8 10

0 2 4 6 8 10

y

Probab(y)

0.0 0.4 0.8

?

?

? ? ? ? ? ? ? ? ?

0.0 0.2 0.4

?

?

?

? ? ? ?

? ? ? ?

Probab(y)

0.0 0.2 0.4

?

?

?

? ? ? ? ? ? ?

0.0 02 0.4

? ?

?

?

?

?

? ? ? ? ?

Probab(y)

0.0 0.2 0.4

? ? ?

?

?

? ? ? ?

0.0 0.2 0.4

?

? ? ? ?

?

?

? ?

Le noyau KB(x+1,(x+h)/(x+1)) est le noyau discret associé a la variable aléatoire KB(x+1,(x+h)/(x+1)) de loi binomiale défini sur le support ?x,h = {0,1,.. . ,x + 1} tel que

,

fx + h ~y f1 - h ~x+1_y

KB(x+1,(x+h)/(x+1))(y) = (x + 1)!

y!(x + 1 - y)! x + 1 x + 1

FIG. 4.6 -- Illustration du noyau associe binomial pour x == y7 et h varie.

0.0 0.2 0.4

h=0.1

?

?

?

?

? ? ? ?

? ?

0 2 4 6 8 10

h=0.4

Probab(y)

0.0 0.2 0.4

h=0.2

?

?

?

?

? ? ? ? ?

? ?

0 2 4 6 8 10

h=0.6

0.0 0.2 0.4 0.6

0.0 0.2 0.4

Probab(y)

?

?

?

?

?

? ? ? ? ?

? ? ? ? ? ?

? ?

? ?

0 2 4 6 8 10

h=0.7

?

0 2 4 6 8 10

h=0.9

0.0 0.4 0.8

Probab(y)

0.0 0.4

?

?

?

? ?

? ?

? ? ? ? ? ?

? ? ? ? ? ? ?

0 2 4 6 8 10

y

0 2 4 6 8 10

y

on x est dans N et h est dans [0,1]. Nous verifions a ce niveau que KB(x+1,(x+h)/(x+1)) est un noyau associe. En effet nous avons

i. ?x,h n ? = {0,1,...,x + 1} n N = {0,1, ,x + 1} =6 Ø.

ii.?x?N {0,1, . . . ,x + 1} = N.

E(KB(x+1,(x+h)/(x+1))) = (x + 1)(x + h)/(x +1) =x+ h ~ x quand h ? 0. iv. V ar(KB(x+1,(x+h)/(x+1))) = (x + h) (x--+11) < co.

v.h ? 0 V ar(KB(x+1,(x+h)/(x+1))) = x

x+1 < 1.

Pour le meme echantillon de variables aleatoires considers nous donnons lestimateur

b

fn de f a noyau associe binomial defini sur ?x,h = {0,1, . . . ,x + 1} comme etant

bfn(x) = 1

n

i=1

KB(x+1,(x+h)/(x+1))(Xi)

1
n

Xn
i=1

((x + 1)! x + h Xi 1 - h x+1--Xi

,

Xi!(x + 1 - Xi)! x + 1 x + 1

avec x ? N et h ?]0,1]. D'apres (4.8), le biais est

B iais { in(x)} = h f (1) (x) + 2 (x + h) (x 1 f (2) (x) + o(h).

fn(x) = 1

n

i=1

KBN(x+1,(x+1)/(2x+1+h))(Xi)

 

1
n

i=1

+ Xi)! Xi!x!

~x + h yX% x + 1 2x + 1 + h) 2x + 1 + h)

4.2. NOYAU ASSOCIR DISCRET POUR DES DONNRES DE COMPTAGE 77

Pareillement, d'après (4.9), la variance est

V ar {1n(x)} =

1 - h ~x + h ~
n x + 1

x

f(x).

Enfin, le MISE est obtenue en sommant les deux quantités calculées précédemment. Nous trouvons

~x + h ~x

X

1 - h

MISE(n,h,f) = f(x)

n x + 1

xEN

2

.

+ {hf(1)(x) + 2 1(x +

(x + 1) f (2) (x) + o(h)}

1 - h

x?N

4.2.3 Noyau associe binomial negatif

Nous rappelons qu'une loi binomiale négative de paramètres s et p, BN(s,p) est une loi discréte définie sur le support N de fonction de masse de probabilité gBN(s,p) telle que

gBN(s,p)(x) = (x + s)! ps (1 p)x.

x!s!

Si X est une variable aléatoire qui suit la loi binomiale négative, alors lespérance et la variance sont respectivement

E(X) = s(1 - p)/p et V ar(x) = s(1 - p)/p2.

Soit KBN(x+1,(x+1)/(2x+1+h)) le noyau associé a la variable aléatoire KBN(x+1,(x+1)/(2x+1+h)) de loi binomiale négative défini sur le support ?x,h = N tel que

,

KBN(x+1,(x+1)/(2x+1+h))(y) =

(x + y)! x + h y x + 1 )x+1

y!x! 2x + 1 + h 2x + 1 + h

on x et y appartiennent a N et h est strictement positif. Nous vérifions quil sagit dun noyau associé

i.N n N = N=6 Ø.

?x?x,h = ?xN = N.

E(KBN(x+1,(x+h)/(2x+1+h))) = x+h ~xquand h ? 0.

iv.V ~2x+1+h ~

ar(KB(x+1,(x+h)/(x+1))) = (x + h) < 8.

x+1

~

v.h ? 0 V ar(KB(x+1,(x+h)/(x+1))) = x ~2x+1 .

x+1

Pour notre même échantillon de variables aléatoires nous donnons lestimateur fn de f a noyau associé binomial négatif défini sur?x,h = N comme étant

FIG. 4.7 -- Illustration du noyau associe binomial négative pour h = 0.1 et x varie

y

y

x=0

?

?

?

?

?

?

?

?

?

?

?

?

?

? ? ? ? ? ? ?

0 5 10 15 20

x=2

?

?

?

?

?

?

?

?

?

?

?

? ? ? ? ? ? ? ? ? ? ?

0 5 10 15 20

x=5

x=1

5 10 15 20

x=4

?

?

?

?

?

?

?

?

?

?

?

?

? ? ? ? ? ? ? ?

0 5 10 15 20

x=7

0.02 0.06

Probab(y)

0.00 0.05 0.10 0.15

Probab(y)

0.00 0.10

0.00 0.06 0.12

?

?

?

?

?

? ?
? ?

?

?

?

?

?

?

?

?

?

?

? ? ? ?

0 5 10 15 20

? ?
? ?

?

?

?

?

?

?

?

?

?

?

?

? ? ? ? ? ? ?

0 5 10 15 20

0.00 0.04 0.08

0.00 0.04 0.08

Probab(y)

?

?

?

?

?

?

? ?

? ? ? ? ? ? ? ? ? ?

?

?

?

avec x E N et h E R*+ .

Le ibiais de cet estimateur est

Biais {:fii(x)} = h f (1) (x) + 21 (x + h) (2x x + 1 + 1 + h f (2) (x)+o(h).

D'apres (4.9), la variance est

1 2x + hx x + 1 )x+1

nx!( 2x + 1 + h

V ar {:fii(x)} =

2x + 1 + h f(x).

En final, le MISE est la somme des deux derniers resultats. IlII est egal à

MIS E(n,h, f) = 1 E n

xEN

2 ( x + hx x + 1 V+1 \

x! 2x + 1 + h) ( 2x + 1 + h) f(x)

2

+ E {h f (1) (x) + 2(x + h) (2x x + 1 1+ h f(2) (x) + o(h) } .

xEN

4.2.4 Noyau associe triangulaire

EnsereferantauxtravauxdeKokonendjietSengaKiesse(2007)surlesdistriibutions triangulaires discretes, nous rappelons quune loi triangulaire Ta,h,c de parametres a

4.2. NOYAU ASSOCIR DISCRET POUR DES DONNRES DE COMPTAGE 79

et c dans N et h dans R+ est une loi discrete centrée en c et de bras a défini sur ?a,c = {c,c #177; 1, . . . ,c #177; a} de fonction de masse de probabilité:

Pr (Ta,h,c = y) =

(a + 1)h - |y - c|h
P(a,h)

,

on P(a,h) est la constante de normalisation telle que

a

P(a,h) = (2a + 1)(a + 1)h - 2 i=0 ih.

Nous remarquons que le cas h = 1 correspond a la variable aléatoire triangulaire symétrique. Le cas h = 0 n'est pas défini en c et en particulier, si h = 0 nous nous retrouvons la loi de Dirac d'espérance c. Si h tend vers l'infini, nous trouvons la loi uniforme Pour des entiers non nuls h ? R*, la constante de normalisation peut s'écrire:

P(a,h) = (2a + 1)(a + 1)h - 2

a
i=0

(-1)h--i+1)h!Bh--i+1 i!(h - i + 1)! ai,

on Bh--i+1 est le nombre de Bernoulli. La figure 4.8 présente l'allure de la densité triangulaire par rapport aux autres noyaux discrete que nous avons étudié.

Si X est une variable aléatoire qui suit la loi triangulaire alors lespérance et la variance sont respectivement :

ih+2) .

a

E(X) = c et V ar(X) = 2E P(a,h) 3

i=0

1 a(a + 1)h+1(2a + 1)

La loi Ta,h,c est symétrique autour de sa moyenne De plus la variance ne dépend pas de c.

Soit KT(a,h,x) le noyau triangulaire associé a la variable aléatoire KT(a,h,x), défini sur {x,x #177; 1, . . . ,x #177; a} et donné par

(a + 1)h - |y - x|h

KT(a,h,x)(y) = (2a + 1)(a + 1)h - 2 Eaj=0 jh,

avec x ? N, h > 0 et a ? N.

Nous nous assurons des diférents points de la définition 1

i.{x,x #177; 1,...,x #177; a} n N = {x,x #177; 1, . . . ,x #177; a} =6 Ø. ii.?xEN {x,x #177; 1, . . . ,x #177; a} = N.

iii.E (KT (a,h,x)) = x.

iv.V ar (KT(

Nh#177;if2a

(a(a+1) k ) 2 E 3a. 0 jh+2)

< 8.

a,h,x)) = P(a1 ,h) 3

v.Lorsque h ? 0, la variance de KT(a,h,x) tend aussi vers 0. En effet, ce résultat a été obtenu dans la proposition (2.4) des travaux de Kokonendji, Senga Kiessé et Zocchi (2007). Dans cette proposition, nous montrons que la variance de la variable aléatoire converge vers une loi de Dirac ce qui implique une variance nulle (voir aussi la remarque 2.3(ii))

FIG. 4.8 -- ???str?t?? ?? ?\u9313‡A?? ?ss??e tr????????r? ??r ???ér??t?e ?????rr ?? h?

Soit X1, ... ,Xn l'échantillon de variables aléatoires i.i.d . de densité f inconnue définie

b

sur N. Nous donnons l'estimateur fn de f a noyau associé triangulaire défini sur ?x,h =

{x,x #177; 1, . . . ,x #177; a} comme étant:

bfn(x) = 1

n

Xn
i=1

KT(a,h,x)(Xi)

1
n

=

Xn
i=1

(a + 1)h - |Xi - x|h

(2a + 1)(a + 1)h - 2 Eaj=0 jh,

avec x ? N, h > 0 et a ? N. Le noyau KT(a,h,x) est le noyau associé défini sur ?a,x,h = {x,x #177; 1, . . . ,x #177; a} . Nous remarquons que le support du noyau associé ne dépend pas de h. Si a = 0, alors ?0,x = {x} et ?x?0,x = N. Par contre, si a =6 0 nous avons

?x?N?a,x = {-a, . . . , - 1} ? N. (4.16)

Le fait que le support du noyau discret triangulaire (4.16) a a =6 0 fixé contienne strictement N induit un biais de bordure a gauche du support de f. Nous y remédions en modifiant le bras a par a0 de sorte que, ?a0 nous avons

?x?N?a0,x = N.

4.2. NOYAU ASSOCIR DISCRET POUR DES DONNRES DE COMPTAGE 81

de 0, 1 ou 2), nous considerons le bras modifie a0 de a tel que ?k ? N \ {0} donne et x ? N, nous avons

a0 = k ? a =

{

j si x = j ? {0,1, . . . ,k - 1}

k si x ? {k,k + 1, ...} .

Nous illustrons ce probleme du biais de bordure dans les figures 4.9 et 4.10 Nous avons fixe h = 1, a = 4 et a0 = 4.

FIG. 4.9 -- ???str?t?? ?? ?\u9313‡A?? ?ss??( r????????r? ??s ??????t?? ?? ?b?a

i=0

x=0 x=1

?

?

?

?

?

?

?

? ? ? ? ? ? ? ?

?

?

- 5 0 5 10

- 5 0 5 10

?

?

?

?

?

?

?

?

? ?

? ? ? ? ? ? ?

0.00 0.10 0.20

Probab(y)

0.00 0.10 0.20

x=2 x=4

?

?

?

?

?

?

? ? ?

? ? ? ? ? ?

- 5 0 5 10

?

?

?

?

?

? ? ? ?

?

? ? ? ? ?

- 5 0 5 10

Probab(y)

0.00 0.10 020

0.00 0.10 020

x=5 x=7

Probab(y)

0.00 0.10 0.20

?

? ? ? ? ? ?

?

?

?

?

?

?

?

? ? ?

0.00 0.10 0.20

?

? ? ? ? ? ? ? ?

?

?

?

?

?

?

?

- 5 0 5 10 -5 0 5 10

y y

Le biais de cet estimateur est

Biais { in(x)} = 2 P(a,h)

1 1 ( a(a + 1)h+1(2a + 1) 2 ctih+2) f(2)(x) + o(h).

3

D'apres (4.9), la variance est

x=0

x=1

? ? ? ? ?

?? ? ? ? ? ? ? ? ? ? ?

FIG. 4.10 -- ???str?t?? ?? ?\u9313‡A?? ?ss??e tr????????r? ???? ??????t?? ?? ?b?a

x=2

?

?

?

?

?

? ? ? ? ?

? ? ? ?? ? ? ?

- 5 0 5 10

x=4

?

?

?

?

?

?

?

? ? ? ?

?

? ? ? ? ?

- 5 0 5 10

0.00 0.10 0.20

x=5

?

?? ? ? ? ?

?

?

?

?

?

?

?

? ? ?

- 5 0 5 10

y

x=7

?

?

?

?

?

?

?

? ? ? ? ? ? ? ?

- 5 0 5 10

y

0.00 0.10 0.20

Probab(y)

0.00 0.15 0.30

0.00 0.10 0.20

Probab(y)

- 5 0 5 10

- 5 0 5 10

?

? ? ? ? ? ? ? ? ? ?

?

?? ? ? ?

0.0 0.2 0.4

Probab(y)

0.0 0.4 0.8

on P(a,h) = (2a + 1)(a + 1)h - 2 E;=0 jh.

En final, le MISE est la somme des deux derniers resultats.III est egal

(a + 1)h E

MISE(n,h,f) =

nP(a,h) x?N

f(x)

a

+ v, { 1 1 ( a(a + 1)h+1(2a + 1) 2 E ih+2) f(2)(x) + o(h)

x?N

i=0 }2

2 P(a,h) 3

f. Remarques:

a. \u9670·?s r???rq??s q???? ?\u9312‡@?st? ??s ??s ??s?rèt?s q?? ?? ??????t ??a et? ?as??i?e à ????? ?\u9313‡A?? ??s?r?t ?t?????t ?? ?? ????r?? ??s?rrt?? ?? ???e? ? ??u ??n??de?n ?? ?? ????r?? ??s?ret? ???tre? ?? x ?t ?? ??r???r 2a ? ?? ?\u9313‡A?? ?ss??e Ux,a ?e??? s?r ?x,a = {x,x #177; 1,... ,x #177; a} s?é?r?t ???? s??t?

1

Ux,a(y) =

2a + 11x,x#177;1,...,x#177;a(y),

ù y ?st ???s N? \u9670·?s ???r????s q?? ??s ??r??etr?s ?r?r?s ?? ??tt? ?? s? tt????t ?i ????s????? ??s ?????rs ??t?er?s N? r ?? ??r??etr? ?? ??ss??? h ?st ???s R*+ ?? q?? ???t q?? ??s ?? ????s ??s ?re?r ??? s??st?t?t?? ?? ?????? ?? ??e ??a??èet?e?

4.2. NOYAU ASSOCIR DISCRET POUR DES DONNRES DE COMPTAGE 83

b. ?? ro?? ?? ??r??atr? ?? ??ss??? ??s?r?t h > 0 r?st? s???????? ?? ??s ??t???? ??r ?? ??r??t ?? t???r ???t? ??s ?s?r??t??s Xi q?? s?t ?r???s ?? ?? ????? x E N ?rsq?? h = h(n) --> 0? ????????t ?? ??s??rs?? ????? ?? ?t ???t ???st???t?? x s? tr????t ??r ?????rt???? ?? ?\u9313‡A?? ?ss??( ??s?r?t Kx,h ???s?? ???s?? ?? ???\u9312‡@ ???? t\u9313‡A?? ?? ?\u9313‡A????s?r?t s?r???t? ??rs ??s ??str???t??s ?? Kx,h q?? s???t ???s ??s??rsé?s ??t?r ?? x E N ?t h > 0 ?\u9312‡@é?s?

c. P?r ??? ?? tr????????r? Ta,h,x? s? a = 0 ??rs ?? ?? ??s?ret? T0,h,x ?rr?s??? à ??? ?? ?? ??r?? D(x) ?? x? \u9670·?s ????s ?? ?\u9313‡A?? ?ss??é ??s?r?t ?? ?? ?? ??r????\u9313‡A?? ???i??? Dx,0? P?r t?t x E N ?t h > 0?

Dx,0(y) = äx(y), y E N.

d. \u9670·?s r???rq??s q?? ?? ???q??a?? ????t?? ?? ?? ?é???i?? ???? ?\u9313‡A?? ?as??i???es ??s ?(r??é? ???s ?? ??s ???? ?\u9313‡A?? ??s?r?t t????r? ??tel q??que ? ?\u9313‡A?? ??is?????? ??????? ?t ??????? ?e??t?? ???t ??il, ??? ???r ??? ???\u9312‡@?i?? ?d???i?? ??u ??e \u9313‡A??e ???\u9313‡A???

4.2.5 Choix de fenetres

Nous présentons a ce niveau trois méthodes de choix de fenêtres pour approcher a valeur idéale de la fenêtre h définie par

hid = arg min

h>0

MISE(n,h,K,f) = hid(n,K,f). (4.17)

a. Minimisation des erreurs quadratiques

Du point de vue purement pratique on X = (X1, . . . ,Xn) est un échantillon de variables aléatoires de fonction de masse de probabilité f, associé aussi a la distribution empirique f0 de f, nous proposons maintenant quelques types de fenêtres liées aux erreurs d'estimations. La premiere est déduite de ???rr??r q???r?t?q?? ??te?r(? (en anglais " Integrated Squared Error") définie par

ISE := E

x?N

{ :In(x) -- f(x) }2 = ISE(X; h,K,f), (4.18)

laquelle mesure sur un seul échantillon X l'écart (au sens quadratique) entre fb et f. Par
conséquent, la minimisation en h de l'ISE (4.18) conduit a choisir une fenêtre adéquate

h** = arg min

h>0

ISE(X;h,K,f) = h**(n,K,f). (4.19)

En remplacant f par f0 dans (4.19), nous utilisons h**0 = h**(n,K,f0) pour le lissage discret d'un f0 de f. Autrement dit, nous avons

h** 0= arg min h>0

ISE(X;h,K,f) = h**(n,K,f0). (4.20)

Basé sur la convergence de f0 vers f quand n --> +00, nous avons immédiatement

lim

n?+8

h** 0(n,K,f0) = lim n?+8

h**(n,K,f), (4.21)

pour un type de noyau associé K donné. L'importance de la fenetre adéquate h** (4.19) de h est due, en partie, aux relations suivantes

MISE = E (ISE) = E

x??

MSE (x). (4.22)

b. Validation croisée Toutcommelecascontinu,laméthodeclassiquedevalidationcroisée(enanglais"Cross Validation") ne fait pas usage des approximations des dérivées de f est toujours applicable dans le contexte des estimateurs a noyau discret pour mieux estimer la valeur idéale hid (4.17) de h.

Le principe de cette méthode est de minimiser par rapport a h un estimateur de MISE pour trouver le paramètre optimal. Pour cela la forme du MISE peut etre développé comme suit:

MISE = E {E R(x)} - 2E {Efn(x) f (x)}+ E f (x)2.

x?N x?N x?N

Le terme Ex?N f(x)2 n'est pas aléatoire, et ne dépend pas de h. Nous notons alors,

MISEcv = E E f--2n (x ) - 2E { E (x) f (x)} = MISEcv(h),

x?N x?N

1.12n(x) qui est un estimateur sans

le terme MISE qui dépend de h. Dans la suite, nous déterminons un estimateur CV (h)

de MISEcv. D'abord, nous avons évidemment x?N

biais de E {Ex?N f-12n(x)} .

Ensuite, soit

1

fn,-i(x) = n - 1E

jai

Kx,h (Xj)

Par construction,

1

i=1

1

i=1

KX%,h (Xj)

n(n - 1)

ij

est un estimateur de E {r x?N

bfn(x)f(x)} et on vérifie de plus qu'il est sans biais En

effet, d'une part, comme les Xi sont i.i.d., nous avons

?

?

?

i=1

j1

= E

1

n(n - 1)

KX,,h (Xj)

?

?

?

= E

1E

n - 1 j1

K (Xj)

= E {KX,,h (X2)}

Finalement, nous venons de montrer que

CV (h) = E

xEN

b12n(x) - n2

Xn
i=1

b1n,-i (Xi)

( n 2

= E n E Kx,h (Xi) } 2- n(n - 1) E E KXi,h (Xj).(4.23)

xEN i=1 i=1 j6=1

est un estimateur sans biais de MISEcv. Par conséquent, la fen:etre optimale par la méthode de la validation croisée s'obtient par

hcv = arg min

h>0

CV (h) (4.24)

on CV(h) est donné en (4.23). Pour quelques détails, nous pouvons nous référer a de nombreux auteurs tels Bowman (1984), Marron (1984) Rudemo (1982) Stone (1984) et leurs références.

c. Exces de zeros

Pour cette section, le choix de la fen:etre repose sur une particularité des données de comptage avec ? = N qui n'est autre que l'exces des zéros dans léchantillon X = (X1, . . . ,Xn). Pour ce phénomene bien connu (voir, par exemple Kokonendji et al., 2007, et leurs références) et étant donné un noyau discret associé Kx,h, nous pouvons choisir une fen:etre adaptée h0 = h0(X; K) de h satisfaisant

Xn
i=1

Pr (KXi,h0 = 0) = n0, (4.25)

on n0 désigne le nombre des zéros dans X; voir Marsh & Mukhopadhyay (1999) pour leur noyau du type poissonnien. Cette fen:etre h0 ajuste le nombre de zéros théorique au nombre de zéros observé.

L'équation (4.25) s'obtient a partir de lexpression

E {in(x)} = E

yEN

Pr (Kx,h) 1(y),

dans laquelle nous prenons y = 0 et 1(0) = 1 afin d'identifier le nombre de zéros théoriques au nombres de zéros empiriques n0.

Dans le cas du noyau associé poissonien la fen:etre adaptée h0 est connue explicitement. Tandis que dans le cas des noyaux associés binomial et binomial négatif, la fen:etre h0 est obtenue par la résolution numérique dune équation non-linéaire (voir Table 4.1)

4.3 Noyau associe discret multiple

TAB. 4.1 -- Solutions h0 pour les noyaux associes discrets standards

Type de noyau h0

Poisson h0 = log (n1:0 Ein 1 eXi

Binomial (1--h0

= n0

Li=1 Xi+1

Binomial négatif Ein=1 (2XXi+i+1+1h0 = n0

fonction de masse de probabilité f et inconnue defini sur = N de dimension d. L'esti-

b

mateur fn de f noyau asocié discret est

fn (x) = 1

n

Xn
i=1

Kx,H (Xi) , (4.26)

on la cible x =t (x1, . . . ,xd), H est la matrice pleine inversible de variance-covariance desfenêtres hdedimension d×d(présentéedanslasection2.2),et Xi =t (Xi1, . . . ,Xid). La fonction Kx,H est le noyau associé asymétrique sur ?x,h.

Dans le but d'avoir une forme plus sympathique et qui ne dépend pas des coefcients de corrélation,nousprésentonsl'estimateur (4.26)quiutiliseleproduitdesnoyauxassociés univariés. En efet, nous avons

fn (x) = 1

n

Xn
i=1

? ?

?

d
j=1

Kj xj,hj (Xij)

?

?

?

,

(4.27)

on xj est la jème composante du vecteur x, hj est la jème fenêtre et Xij est la ième observation de la jème composante. Le noyau associé Kj est la fonction noyau associé univarié décrite tout au long de cette partie.

Chapitre 5

Regression multiple a noyaux

associes mixtes

Nous rappelons que si nous avons un couple de variables aléatoires réelles telles que Y soit intégrable (E(Y ) < oo) alors la fonction

r(x) = E(Y |X = x)

est appelée fonction de régression de Y sur X on nous n'avons aucune spécification sur r(x), avec x E R. Supposons que nous disposons de n-échantillon (X1,Y1) , . . . , (Xn,Yn) de variables aléatoires de même loi que (X,Y ), de densité (fonction de masse) de probabilité inconne. Nous nous proposons ainsi de construire un estimateur brn de la fonction densité (de masse) inconnue. En effet dans létude de la régression non-paramétrique, nousdistinguonsdeuxmodelesprincipauxlarégressionnon-paramétrique effetsaléatoires et la régression non-paramétrique a effets fixes. Dans le premier cas, les observations Xi sont aléatoires, alors que dans le cas deffets fixes les Xi sont i.i.d., fixé dans R (Xi = i/n) et déterministes.

Soit ainsi le modele général

Yi = r(Xi) + ei pour i = 1, . . . ,n, (5.1)

on les ei sont i.i.d., non corrélés avec Xi, de moyenne nulle et de variance ó2.

5.1 Estimateur de Nadaraya-Watson

Ilexisteplusieurstypesd'estimateursanoyaupourlarégressiondontleplusfameux est celui de Nadaraya-Watson. Dans le cas univarié lestimateur de Nadaray-Watson de la fonction régression r est défini par

Eni=1 YiKx,h (Xi)

(5.2)

brn(x) = Eni=1 Kx,h (Xi) ,

CHAPITRE 5. REGRESSION MULTIPLE A NOYAUX ASSOCIRS 88 MIXTES

contrario,l'estimateur br(x)estnul.NouspouvonsrepresenterlestimateurdeNadarayaWatson comme une somme ponderee des Yi:

brn(x) =

Xn
i=1

wx,h(Xi)Yi pour x E fit, (5.3)

oU

Kx,h (Xi) (5.4)

wx,h (Xi) = En i=1

Kx,h (Xi)

est la fonction poid telle que Eni=1 wx,h (Xi) = 1, par convention 0/0=0. La fonction Kx,h estlafonctionnoyauassociepresenteedansleschapitresprecedents,definisur Rx,h. Nous pouvons melanger plusieurs types de noyau associe savoir lesles noyaux associes continus symetriques ou asymetriques avec les noyaux discrets standards. La fenêtre h = h(n,K) determine le niveau de lissage de l'estimation

En se referant au quatrième chapitre de la thèse (en preparation) de Senga Kiesse (2008), il est convenable de donner l'estimateur de Nadaraya-Watson sous une forme plus souple. Pour cela, soit

Nn(x; h)

rnx Dn(x; h) (5.5)

avec

1

Nn(x; h) = n

Xn
i=1

YiKx,h (Xi) ,

et

1

Dn(x; h) = n

Xn
i=1

Kx,h (Xi) = bfn(x).

Nous generalisons la definition (5.2) de cet estimateur au cas multidimensionnel En effet, en utilisant (3.18) et (4.27), l'estimateur de Ndaraya-Watson devient

brn(x) =

En Y {11p Kj

Y j=1 xi ,hi (Xij) }

(5.6)

En (Trp Kj i=1 11j=1 xi,hi on x =t (x1i,. . . ,xpi) E ,Kjxi,hi

estlejèmenoyauassocieet Xij estlaièmeobservation

de la jème composante.

??

Chapitre 6

Données de Panel à l etude

6.1 Notions élémentaires:

???é?s ?? P?????

Unpanelestunéchantillonstabledeconsommateursoudedistributeursinterrogérégulièrement ou périodiquement et dont la composition ne se renouvelle quelentement.Son étude permet une analyse dynamique de la population considérée et la prise en compte du contexte concurrentiel. Le panel de distributeurs permet la collecte dinformations commerciales.

Il est ainsi possible de mesurer plus précisément la nature du référencement dune marque ou d'un produit en fonction du type de point de vente ou encore de la zone géographique. Le panel de consommateurs procure quant a lui des informations marketing et revêt un intérêt particulier pour l'analyse de lévolution du comportement d'achat des consommateurs.

Un panéliste est donc l'individu ou le ménage membre dun panel dont nous observons le comportement et/ou les attitudes Selon la nature du panel, latransmission des données par le panéliste peut se faire automatiquement et passivement vers le système d'information de la société d'étude ayant crée le panel

?? ??r??t??? ?r??s??t????? ?? ??r??t???????t?????

Le marketing est traditionnellement orienté vers lacquisition de clients et la réalisation de transactions. Dans les années 90, de nombreux facteurs vont inciter les entreprises a utiliser les nouvelles technologies avec notamment les bases de données et les nouveaux canaux de communication personnalisables et interactifs, pour développer des programmes de fidélisation. Le marketing nest plus simplementtransactionnel, il devient aussi relationnel.

Par conséquent le Marketing relationnel, dont la vision a plus longterme devrait permettrelafidélisationduconsommateur,souhaiteobteniretrenforcerla fidélitéduclient, grâce a son consentement volontaire, a une communication personnalisée et des o~res sur-mesure. La fidélisation du client et les revenus futurs quil peut ainsi générer sont mis en perspective dans une optique financière et comptable Se développe dès lors la notion de valeur a vie (lifetime value) qui permet de définir la valeur a terme dun client tout le temps qu'est maintenue sa relation avec lentreprise.

TAB. 6.1 -- ??????? ????r?t?? ?? ??r??t??? tr??s??t????? ?tet ???t?????

Le marketing transactionnel favorise Le marketing relationnel favorise

le produit la relation avec le client

l'acte d'achat la durée de la relation

le moment de la transaction l'individualisation

le montant de la transaction la fidélisation

V????r a ??? ?????t??? V????

Cette notion de valeur du client ou d'une clientele a été développée initialement par les spécialistes de la vente a distance Cest en effet dans ce secteur que sont apparues les premieres bases de données clientele permettant de tels calculs.

En marketing direct, la valeur a vie ou " Life time Value " se définit comme étant la somme des profits actualisés attendus sur la durée de vie dun client Elaborée a partir de la durée de vie moyenne d'un client et de lévolution théorique de sa consommation, la life time value doit permettre de déterminer la limite haute du coit dacquisition client. Elle peut etre surestimée par des hypotheses trop optimistes en termes de fidée lité. Par ailleurs, les différentes techniques et canaux de recrutement utilisés infiuencent la valeur vie client. La question qui se pose

P?r q??? ?\u9313‡A?? ??s ????s ?rr???r a ?????t?r ?? ?????r ??? ?????t?

L'objectifdanslapartiequisuitestdedonnerenpremierlieu,unrésuméstatistiquesur les variables d'étude; ; nous étudions la contribution et la corrélation des variables principales. En second lieu, nous faisons appel aux estimateurs a noyaux associés discrets pour représenter et prédire les actes d'achats effectué par chaque panéliste. En guise d'avoir un résultat lisible et explicatif nous nous sommes arretés aux 100 premiires observations.

6.2 Traitements preliminaires

P?r r?s???t a ???rt???? ?? ?? ??? ?? ?? ?é?t???? s?a?is?i?? A ?? s?? t?st????? ?é?s?t??r? ?? ???é?s ???. ??i ?e???c?e ?e ?????a??n?? ??c?et ??rt?????èr?s a ?? s?r?? q??? ?\u9312‡@???i??? \u9670·?s ??a??n?is?n ???n? ???????? t????té ??s ???é?s q?? ??s ?ssé??s ?tet ??u ?as?u?n ????\u9313‡A??a ?? ?o ????s??rs?

L'enquete sujet d'étude s'est déroulée dune manière régulière dans sept supermarchés différents que nous désignons de manière anonyme : magasin 1 magasin 2, magasin ,3, magasin 4, magasin 5, magasin 6 et magasin 7 Notre étude sest limité au magasin 1 parce qu'il présente le plus grand nombre de foyers clients. Afin davoir une idée claire des comportements et des attitudes de consommations, nous avons traité des variables quantitatives scalées qui permettent par leur nature les calculs scientiiques lesles plus souvent utilisées dans l'analyse multivariée Il sagit donc dune étude quantitative qui vise a comparer ou mettre en relief un certains nombre de comportements. Les bases dont nous disposons sont les données brutes stockées par le système de lentreprise responsable de la collecte de ces données. Nous avons dfi effectuer des aggations etet des fusions pour aboutir enfin une base exhaustive En effet cette partie est une étape essentielle toute étude exploratoire : ces données sont le résultat de laggation effectuée sur la base "Achats" et "Foyers" qui sont stockées dans une base de données sous SPSS. Cette base contient 46 variables quantitatives et 4922 actes dachats. Les variables présentées sont très pertinentes et définissent les caractéristiques personnelles de chacun des panélistes pour cet échantillon supposé etre représentatif dune commune francaise de taille moyenne. Enfin, nous nous restreignons sur un échantillon de 100 actes d'achats choisi aléatoirement. Les variables principale sont

?\u9313‡A?r? L'identificateur du panéliste.

??????ts? Le nombre des actes d'achats (passage en caisse) répétés pendant la période des 26 premières semaines.

\u9670·???t???s????ts? Le nombre des actes d'achat effectués pendant la deuxième période, donnée par 26 semaines.

??rt?? Prend 1 si l'acte d'achat est fait pendant les premières 26 semaines (période d'estimation) et prend 2 pour les 26 semaines restantes (période de validation)

??s?\u9314‡B?? La taille du ménage.

??P????? La catégorie socio-professionnelle du chef de ménage

\u9670·r?????? Le revenu net du chef de ménage.

???rt??r???? Le quartier habité par le panéliste.

??r???s?r??t??? La durée d'observation.

Nous effectuons en premier lieu, une étude descriptive unidimensionnelle qui nous précise les caractéristiques principales de la distribution sujet détude, elle nous ffurnit des renseignements sur la forme de nos observations, et ce, numériquement au biais de la comparaison des paramètres de la distribution Nous commencons par présenter lele tableau (6.2) suivant qui résume quelques aspects des achats effectuésparlespanélistes.

Remarques: ? ??rt?r ?? ???? ???? ??s ??st?t?s q?? ?? ?\u9313‡A???? ?? ? ??r????? ???????ts ? ???s? ?? ? \u9670·???t???s????ts ? ????? r?s?? ????? ?stest fre ????é? ?? ??\u9312‡@????? ???\u9312‡@???? r?s?? ???? ?t r???t??????t ??st??t? ?? ? ?é????? ????? ?e?? ???? ??????s ?e?? a ?????r? q?? ?tr? ??str???t?? ?stest ?ss?\u9314‡B ??i??ers?e ??u?u ?? ? ?\u9313‡A??????? ??r????? ?st r?s???t??????t e??? a ?????? ?tet ????????? ?? ??? ?es ??fe???u ??e????? q?? ?st ???? ?ê?? ???er???r? a ?? ?\u9313‡A????? ???s?? ? ??ist???u?? es l?ge????n et??e? ??ry ?? ?r?t??

Nousvérifionsquecesdeuxvariablessontfortementcorrélées(avecuncoefcient0.971

TAB. 6.2 -- ?t?t?st?q?? ??s?r??t???s ???????t???,

 

ReAchats

N26etplusAchats

N

100

100

Minimun

0

0

Maximum

317

336

Moyenne

49.19

51.02

Médiane

18.5

10

Mode

0

0

Asymétrie

1.83

1.77

Variance

3727.29

4522.95

ceci parait tout a fait logique. Un consommateur fréquent pendant la premiere période reste évidemment fidéle pendant la seconde période A un moment le comportement de consommation passé explique le comportement de consommation a venir

6.2.1 Repartition des panelistes selon les variables caracteristiques

a. Clients et lieu d'habitation

Nous essayons, a partir de la figure (61) de voir la proportion des clients pour chacun des 13 quartiers. Nous donnons un deuxieme graphique (62) qui traduit les achats efectués par les consommateurs selon lemplacement de leurs lieux dhabitations par rapport a la position du magasin 1.

Commentaires : \u9670·?s ????s ?????r?? a ??rt?r ?? ??s ???\u9312‡@ ???r?s? q?? ??tt? ??res??t?t?? r??et? ?? ??e??s?t?? ??s ?????tt ?? ????a?? 1 ; ???\u9312‡@ ?? ? ?fre???n????n ??????t ??s ?? ?r???er?s s??????s ??t?????t ?? ????ir? ????i????? a???i? ??ur ????at ???res ?? ?? s???r ??r??( ??r??t ?? ???\u9312‡@?e?? ?er??? ?? ?? ??????s ???u ?\u9313‡A?n ???\u9313‡A ? ??? ??t?t? ???ss? ?? ?????r ?\u9313‡A??? ??s ?????tt ?t ???o?i??i????n ?e ????i??nt ?? q??rt??r ?? ? ?t ??? ???? ?st t?t a ???t ??ér??t ???sq??? re????t ???n ?e ??ar??er q?? ????r????t ?? ????s?? ? P?r ??tr?? ???\u9312‡@ q?? re????t ??\u9312‡@aux ??ar??er ??1, ??5, ??11 e ????ss??t ???rs ??t?s ????ts ??????t ?? ???\u9312‡@?è?? ?ér????

FIG. 6.1 -- ??s??rs?? ??s ?????ts s??? ?? ???? ?????t?t??

FIG. 6.2 -- ?????s?t?? ??s ???é??st?s ?? ????s?? ?

menclature suivante pour coder la variable "CSPchef"

1 = un agriculteur; 2 = un cadre; ; 3 = un technicien;; 4 = un employe ; 5 = un ouvrier 7 = un chômeur.

Commentaires: \u9670·?s ?r(s??t?s ???s ?? tr?s?e?? ?r????q?? ?? é??rt?i?? ????t?e ??????ts s??? ?? ??t(?r?? s????r??ss??????? ???i ????? ?????c?? ? ???u ?g??? es ???r?( a ?? ???ss? ??s ?? tr????????rs ?t ??s ???r?s? ???? ??ce q??qui ?es ?v?????n ?nt(?e? s??t a ???r???r? ?st q?? ?? ???r? ?? ??ss????????ss?????u ???é?es r???is??a???\u9312‡@ q?? ?? tr????????t ??s? ??? ?? ???s ?r??? ???r? ??s ??è??s ?t ??e ???-t????????ur????? ??s ??e?? a ?s?r ???(r??t?s q??st??s : ?????t ??\u9312‡@???i?? ?? ??h??è?????t???s ??s ??A???rs q?? ?r?t??t ??s ????s ?????ssociales ?tet ?d???n??n ??er ?????u ???n ??s ?r???ts ??????t??r?s? ?? ?r?rt?? ??????t? ??????t ? ????? ?é(???? ???? ???st??? ??r q??? \u9670·?s ????s ???s?r d ??? ?\u9312‡@?????t?? ??s?????? : ? ????i ????? q??st?? ?? ??s???????t( ????t??r ???s? ??s ??tt?e ?????ur ?n?p?a?i?????n?p???e?

??s ?????ts ??s ???s ?req???ts ?t les ?s ??r??rr?

FIG. 6.3 -- ??te?r?? s????r??ss??????? ??s ???é??st?s ?tet ??t?e ??????tt

c. Clients et revenu net

Nous avons utilisé la nomenclature suivante pour coder la variable AGEchefr

1 = moins de 6500 FR; 2 = 6500 FR -- 8500 FR 3 = 8500 FR -- 12000 FR ; 4 = 12000 FR - 15000 FR; ; 5 = 15000 FR - 18000 FR ; 6 = 18000 FR -- 22000 FR ; 7 = 22000 FR - 25000 FR; 8 = 25000 FR - 30000 FR; 9 = plus que 30000 FR ; 10 = pas de réponse. L'étude de l'évolution du nombre d'articles achetés en fonction du revenu des consommateursestunélémentdéterminantetfondamentalcanousreflételaqualitédesclients qui font leurs achats dans le magasin 1 ensuite les dépenses qui mettent par rapport a ce revenu. Dans la figure 6.4, nous voyons la répartition de notre échantillon

FIG. 6.4 -- ?????? ??t ??s ???é??st?s ?? ????s?? ?

d. Clients et taille du foyer

Nous avons utilise la nomenclature suivante pour coder la variable HHsize'

1 = une personne (femme); ; 2 = 2 personnes;; 3 = 3 personnes ; 4 = 4 personnes ; 5 = 5 personnes; 6 = 6 personnes; ; 7 = 7 personnes ; 8 = 8 personnes ; 9 = 9 personnes

La taille de la famille contribue a son tour dans laccroissement du nombre dachats. Le graphique 6.6 met en evidence cette nomenclature

FIG. 6.5 -- ?e??rt?t?? ??s ?????ts ?? ????s?? ? ??? ?? ????? ?? ?\u9313‡A?r

FIG. 6.6 -- ?????? ?? ??????? ??s ???é??st?s ?? ????s?? ?

Commentaires: \u9670·?s ??st?t?s q?? ??????t?? ??s ????ts ????t?ée ?es ??n??de????????t ???s ???t ??r ??s ???????s a q??tr? ?tet s?\u9312‡@ ??r???s ?tet ???re?????u ?e ?é????e ?? ???\u9312‡@? tr?s ?t ???q ??rs???s ???r ???

En conclusion, le comportement de consommation dépend de deux grands élements

? En premier lieu, l'historique des actes dachats effectués (s'il s'agit dun grand ou un petit nombre) et son influence sur la consommation a venir

? En second lieu, la fréquence de consommation dépend dun certain nombre de caratéristiques personnelles.

6.3 Application

Dans cette partie, nous approprions l'estimateur a noyau associé pour lestimation desactesd'achatseffectuésparl'ensembledespanélistes.Eneffet,commenousavonsdes donnéesdedénombrement,lecasdunoyauassociécontinuestautomatiquementéliminé. Nous optons plutot pour le cas discret Or nous avons des variables surdispersés la variance est beaucoup plus supérieure que la moyenne) Nous utilisons alors approche non-paramétrique pour estimer les actes dachats en faisant appel aux estimateurs à noyaux associés triangulaire et binomial

6.3.1 Dans le cas d'un estimateur a noyau associe triangulaire

Nous donnons d'abord les graphiques 67 et 68 qui illustrent le comportement de consommation des foyers pour la cohorte 1 et 2 En abscisses nous avons lesles panélistes, et en ordonnées nous observons l'effectif de leurs actes dachats. Nous remarquons que cet effectif est différent d'un panéliste a un autre Il ny a pas un comportement de consommation homogene. Nous donnons ainsi une estimation des actes dachats pour la premiere et la deuxieme période (chaque période est donnée par 26 semaines) Les figures 6.9 et 6.10 mettent en évidence ce comportement

FIG. 6.7 -- ???rt????t ??s ????ts ??????????s ??????t ?? ?r???ir? t?????

Commentaire: ????res ??? ?t ????? ??s r???rq??s q?? ??s ???s ???s???rr ?s?r??t??s ?? \u9314‡Ber? ???st ?? q?? ??s ??????s ??\u9312‡@?as ?? \u9314‡Bze? ????us????n??a ??\u9313‡A?? ?ss??e tr????????r? ???rq?e ?? r??? ???s ???q?? ?r????q??? r???i ????\u9312‡@ ????

FIG. 6.8 -- ???rt????t ??s ????ts ??????t ?? ???\u9312‡@?è?? r?????

FIG. 6.9 -- ?st???t?? ??s ??t?s ??????ts ??r ?? ?r???èr? ?ér???

Noyau Triangulaire h=0.1 et a=1

0 50 100 150 200 250 300

0.00 02 010 015

ESTIMATION

Actes d'achats

??tt? ??str???t?? \u9670·?s ??st?t?s q?? ??ce ?\u9313‡A?? ?ss??i ???n ???p? ?? ??a?? ?b?e???t?? ?t ?et??t? ??s ???t???\u9312‡@ ?t ?? ??s??rs?? ??s ???é?s? ? ?es??? ?or??c????n ???str???t?? ????r?q??? ?? ???s? ???? ??sles ?s?r??t??n ?t ?as?\u9314‡B ??i?pers?e a ?d?i????s ????s ?????r? q?? ??s ???e?s ?? ????? ?t ??s ???é?s ??rr??é?e ??? ??????i ????rs? ??t??? ?t ??r ??s ?st???r r???r??s????t? ?? ?stest ?rr?fr???? ?? ?p???d? ?e ???è??s ?????r??etr?q??s ???s ??s ???r?s ??? ?tet ???? ??s ???n ??g???? ?é?????? ??w ????\u9312‡@ ??r ?????st????t

6.3.2 Dans le cas d'un estimateur a noyau associe binomial

Nous estimons a ce niveau les memes actes dachats parsemes en utilisant un estii mateur a noyau associe binomial. Pour cela nous donnons dabord les graphiques 6.13 et 6.13.

FIG. 6.10 -- ?st???t?? ??s ??t?s ??????ts ??r ?? ???\u9312‡@?è?? ?ér???

Noyau Triangulaire h=0.1 et a=1

0 50 100 150 200 250 300

OR 02 010 015

ESTIMATION

Actes d'achats

FIG. 6.11 -- ?st???t?? ?? ?? ?r???er? ?er??? ??r?????

ESTIMATION

OM 02 at 0,15

Noyau Triangulaire h=0.1 et a=1

0 50 100 150

Actes d'achats

Commentaire: ????r???t ?? t\u9313‡A?? ?? ?\u9313‡A?? ?ss??e? ??s r???r??s q??? \u9313‡Ay ?a ??e ??ss?s q?? ????r??ss??t a ?????? ?t a ?r?t? ??s ?s?r??t??s (??l?s? ?? ?\u9313‡A?? ?as??i ??????? s??tt?r?? d ?r???r? ?? ???t? ?rt????t les ?s ???ée??t?e ?b?e??a??n? ?ê?? s? ?? ?\u9313‡A?? ?ss??e ??????? ?st r????? ??r ? ??\u9312‡@?????it? ? ?? r?us?i ??a a es???e ?rr??t????t ??s ???e?s ??rs??e?s?

FIG. 6.12 Estimation de la premiere période plus agrandie

Noyau Triangulaire h=0.1 et a=1

0.00 005 010 015

ESTIMATION

0 10 20 30 40 50

Actes d'achats

FIG. 6.13 Estimation des actes d'achats pour la première pérrode

Noyau Binomial h=0.1

0 50 100 150 200 250 300

0.00 02 at 0,15

ESTIMATION

Actes d'achats

FIG. 6.14 Estimation des actes d'achats pour a deuaième période

Noyau Binomial h=0.1

0 50 100 150 200 250 300

OR 02 010 015

ESTIMATION

Actes d'achats

FIG. 6.15 Estimation des actes d'achats de a première pérrode agrandie ((50 obserr vations)

Noyau Binomial h=0.1

0 50 100 150

0.00 005 010 015

ESTIMATION

Actes d'achats

FIG. 6.16 ?st???t?? ??s ??t?s ??????ts ?? ?? ?r???èr? ?ér??? ???s ??r????? ???

?s?r??t??s?

Noyau Binomial h=0.1

0 10 20 30 40 50

0.00 005 010 015

ESTIMATION

Actes d'achats

Chapitre 7

Conclusions et perspectives

7.1 Conclusions

Ce rapport a permis de couvrir une étendue assez large du domaine de lestimation non-paramétrique d'une densité (fonction de masse) de probabilité inconnue f basée sur la technique des noyaux associés Nous avons vulgariséles travauxdes pionniers de ce domaine, et aussi unifié la définition d'un noyau associé dans chacun des cas continu et discret. Nous avons pu ainsi donner lestimateur et calculer ses propriétés.Les illustrations faites simplifient la compréhension de cette méthode Lapplication de cette approche sur les données parsemées met en évidence que le noyau associé triangulaire est performant. Enfin, la méthode d'estimation non-paramétrique par noyaux associés permet d'avoir de bons résultats si nous choisissons adéquatement les paramètres mis en jeu.

7.2 Perspectives

Les travaux présentés dans ce document offrent de nombreuses perspectives.

Sur un plan théorique, nous aurions aimé nous attarder sur lestimateur a noyau associé multiple et nous intéresser a ses propriétés fondamentales. Nous aurions aussi aimé appliquer ces noyaux associés sur des données de panel dans un cadre de régression. C'est a dire que sur ces données parsemées nous attribuons un mélange de noyaux discrets et continus afin d'améliorer la qualité destimation.

Il sera également intéressant de penser a une combinaison entre les noyaux associés continus et les noyaux associés discrets Quelques travaux dans cette direction vont d'ailleurs être entrepris.

104 CHAPITRE 7. CONCLUSIONS ET PERSPECTIVES

Chapitre 8

Annexe 1 : commandes sous le

logiciel R

Progamme des simulations de l'estimateur a noyau continu symétrique

Nous avons utilisé le code suivant pour la méthode de Plug-in

density.default(x=x,bw= nrd0Ukernel= epanechnikov"n=100) on la commande ' bw= 'nrd0' permet de choisir la fenêtre delissage. Nous avons utilisé le code suivant pour la méthode de Validation croisée

density.default(x=x,bw= ucvU,kernel= epanechnikov"n=100) on la commande ' bw= 'ucv' permet de choisir la fenêtre delissage.

Nous avons crée nos propres codes pour présenter les graphiques des di~érents types de noyaux .

En particulier, nous avons eu recours aux fonctions dgamma" et dbeta" qui existent déjà sousR. Pour La loiinverse gaussienne(IIG)et réciproqueinversegaussienneRIIG), nous les avons programmmé puisque le code nexiste pas.

dinvgauss <- function(x, mu = stop(Uno shape argU) lambda = 1

{if(any(mu<=0)) stop('mu must be positiveU)

if(any(lambda<=0)) stop( lambda must be positive")

d <- ifelse(x>0,sqrt(lambda/(2*pi*x3))*exp(-lambda*(x -- mu)2/(2*mu2*x)),0) if(!is.null(Names <- names(x)))

names(d) <- rep(Names, length = length(d))

}dpinvgauss <- function(q, mu = stop(!no shape arg!) lambda = 1)

{if(any(mu<=0)) stop(!?mu must be positive!)

if(any(lambda<=0)) stop( lambda must be positive")

n <- length(q)

if(length(mu)>1 && length(mu)!=n) mu <- rep(mulength=n)

if(length(lambda)>1 && length(lambda)!=n) lambda <- rep(lambda,length=n) lq <- sqrt(lambda/q)

qm <- q/mu

p <- ifelse(q>O,pnorm(lq*(qm-1))+exp(2*lambda/mu)*pnorm(-lq*(qm+1))O) if(!is.null(Names <- names(q)))

names(p) <- rep(Names, length = length(p))

}prinvgauss <- function(n, mu = stop("no shape arg") lambda = 1)

{if(any(mu<=O)) stop(Umu must be positiveU)

if(any(lambda<=O)) stop( lambda must be positive")

if(length(n)>1) n <- length(n)

if(length(mu)>1 && length(mu)!=n) mu <- rep(mulength=n)

if(length(lambda)>1 && length(lambda)!=n) lambda <- rep(lambda,length=n) y2 <- rchisq(n,1)

u <- runif(n)

r1 <- mu/(2*lambda) * (2*lambda + mu*y2 - sqrt(4*lambda*mu*y2 + mu2*y22))

r2 <- mu2/r1

ifelse(u < mu/(mu+r1), r1, r2)

}

Nous avons crée nos propres codes pour appliquerles estimateurs auxdonnéesdepanel. Progamme de l'estimateur a noyau associé discret triangulaire

Description: Lissage d'une distribution de probabilité discrète par un estimateur a noyau associé discret triangulaire

Arguments:

x: vecteur des points

h: paramètre de lissage

a: bras (paramètre)

V: vecteur des observations de l'échantillon

N: effectifs des observations

n=sum(N): nombre total d'observations = taille de léchantillon

Usage:

trng=function(x,h,V,N,n,a)

trng=edit(trng,editor= nedit ?)

Y=trng(x,h,V,N,n,a)

Détails: La loi de probabilité discrète triangulaire dordre h, de bras a et de centre x se définit par

Pr(z)= ((a+1)bh - (abs(z-x))bh)/A,

avec z = x#177;1,x#177;2,...,x#177;a, et on A=(2*a+1)*(a+1)bh-2*sum(kbh), k=1,2,..., a est la constante de normalisation.

Code de l'estimateur a noyau associé discret triangulaire

function(x,a,V,N,n,h) {y=0

s=rep(0,length(x))

n=sum(N) # Taille de l'échantillon

f0=c(N/n,rep(0,length(x)-length(N))) # Estimateur fréquence

u=0;

m=0;

for (k in 1:a)

{ m=kbh

u=u+m

}

A=(2*a+1)*(a+1)bh-2*u # Constante de normalisation P(a,h)

for (i in 1:length(x))

{for (j in 1:length(N))

{if (V[jI=(x[iI-a) V[jI=(x[iI+a)) # Support {x #177; 1,... ,x #177; a}

{K=((a+1)bh - (ahs(V[jI-x[iI))bh)/A # Noyau associé

y=(N[j]/n)*K # Estimation a noyau associé discret triangulaire

} else{

y=0

} s[iI=s[iI+y

} } fn=s/sum(s) # Estimations bIn

E=sum(s) # Constante de normalisation C

E[21=sum((f0-fn) b2) # ISE0

Progamme de l'estimateur a noyau associé discret binomial

Description: Lissage d'une distribution de probabilité discrète par un estimateur a noyau associé discret binomial.

Arguments:

x: vecteur des points

h: paramètre de lissage

V: vecteur des observations de l'échantillon

N: effectifs des observations

n=sum(N): nombre total d'observations = taille de léchantillon

Usage:

binom=function(x,h,V,N,n)

binom=edit(binom,editor= neditU)

Yb=binom(x,h,V,N,n)

Détails: La loi de probabilité binomiale de paramètres p et n se définit par

Pr(z)= choose(n,z)*(p)bz*(1-p)b(n-z),

z = 0,1,..., n. Le noyau associé discret se construit avec p=(x+h)/(x+1) et n=x+1. Code de l'estimateur a noyau associé discret binomial

function(x,V,N,n,h)

{ y=0 s=rep(0,length(x))

n=sum(N) # Taille de l'échantillon

f0=c(N/n,rep(0,length(x)-length(N))) # Estimateur fréquence

for (i in 1:length(x))

{for (j in 1:length(N))

{if(V[j]<=x[i]+1) # Support {0,1,. . . ,x + 1}

{ K= choose(x[i1+1,V[j1)*((x[i1+h)/(x[i1+1))b(V[j1) *((1-h)/(x[i1+1))b(x[i1+1-V[j1)) # noyau associé

y=(N[j]/n)*K # Estimation a noyau associé discret binomial

}

s[iI=s[iI+y

} }

fn=s/sum(s) # Estimations bIn

E=sum(s) # Constante de normalisation C

E[2I=sum((f0-fn)b2) # ISE0

Bibliographie

[1]AITCHIsON, J. & AITKEN, C.G.G. (1976). Multivariate binary discrimination by the kernel method. Biometrika 63, 413-420.

[2]CHAUBEY, Y.P., SEN A. & SEN P.K. (2007). A New Smooth Density Estimator For Non-Negative Random Variables Technical Report No 01/07. Concordia University. Montréal.

[3]CHEN, S.X. (1999). Beta Kernels estimators for density functions. Computational Statistics and Data Analysis 31, 131-145.

[4]CHEN, S.X. (2000). Gamma Kernels estimators for density functions. Annals of the Institute of Statistical Mathematics 52, 471-480.

[5]DUONG, T. (2004). Bandwidth selectors for multivariate kernel density estimation, thesisforthedegreeofDoctorofphilosophyattheUniversityofWesternAustralia. School of Mathematics and Statistics.

[6]FELLER,W.(1966).AnIntroductiontoProbabilityandItsApplications.JohnWiley and Sons, New York.

[7]HALL,P.(1981).Onnonparametricmultivariatebinarydiscrimination Biometrika 68, 287-294.

[8]HALL, P., RACINE, J.S. & LI, Q. (2004). Cross validation and the estimation of conditional probability densities. Journal of the American Statistical Association 99, 1015-1026.

[9]HILLE, E. (1948). Functional Analysis and Semigroups. American Mathematical Society Colloquium, New York.

[10]SENGA KIEssE, T. (2008). Approche non-parametrique des donnees de denombrement, these en préparation pour obtenir le grade dun Docteur dUniversité de Pau et des Pays de l'Adour.

[11]KOKONENDJI, C.C., SENGA KIEssE, T. & ZOCCHI, S.S. (2007). Discrete triangular distributions and non-parametric estimation for probability massfunction. Journal of Nonparametric Statistics 19, 241-254.

[12]LI, Q. & RACINE, J.S. (2007). Nonparametric Econometrics: Theory and Practice. Princeton University Press, New York

[13]MICHELs, P. (1992). Assymetric Kernels Functions in Non-Parametric Regression Ananlysis and Prediction. The Statistician 41, 439-454.

[14]SCAILLET,O.(2004).DensityestimationusinginverseandreciprocalinverseGaussian kernels. Journal of Nonparametric Statistics 16, 217-226.

[15]SEsHADRI, V. (1993). The Inverse Gaussian Distribution: A Case Study n Exponential Families. Oxford University Press New York.

[16]SIMONOFF, J.S. (1996). Smoothing Methods in Statistics. Springer, New York. [17]TSYBAKOV, A.B. (2004). Introduction a l'Estimation Non Parametrique. Springer, Paris.

[18]WAND, M.P. & JONES, M.C. (1995). Kernel Smoothing. Chapman and Hall, London.






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Je voudrais vivre pour étudier, non pas étudier pour vivre"   Francis Bacon