WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse en composantes principales de densités de probabilité estimées par la méthode du noyau

( Télécharger le fichier original )
par Smail Yousfi
Université Mouloud Mammeri de Tizi-Ouzou, Algérie - Magister 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Notations

Notations matricielles

W' transposée de la matrice / vecteur W

Wt,s élément de la t-ème ligne et la s-ème colonne de la matice W

W -1 inverse de la matrice W

|W | déterminant de la matrice W

MuM la norme euclidienne de u

kuMM la M-norme de u

Notations statistiques

E(X) espérance mathématique de la variable X

V (X) variance de variable X

Cov(X,Y ) covariance des variables X et Y

N(u,Ó) loi normale de vecteur moyen u et de matrice de variance covariance Ó

MISE Mean Integrated Square Error

AMISE Asymptotic Mean Integrated Square Error

Notations fonctionnelles

L2(IRp) espace des fonctions réelles de carré intégrable sur IRp

L2IR( × T) espace des fonctions réelles de carré intégrable par rapport a la mesure

produit sur × T

U* adjoint de l'opérateur U

< u,v >H produit scalaire dans l'espace de Hilbert H entre les deux vecteurs

u et v

UoV composée des opérateurs U et V

kV M norme de l'oprérateur V

II[a,b] indicatrice de l'intervalle [a,b]

Notations diverses

Pn i fi sommation sur l'ensemble des valeurs de l'indice i des quantités fi

ps convergence presque sure

Introduction

La statistique, en tant que discipline des mathématiques appliquées, admet une grande diversité de dominantes, elle peut être descriptive ou inférentielle, paramétrique ou non, asymptotique ou non, uni ou multidimensionnelle; elle englobe un spectre très large de problèmes, allant du plus concret (traitement de données) au plus abstrait (formalisation mathématique nécessitant des concepts variés, qui peuvent être des versions stochastiques de la théorie fondamentale (théorie des opérateurs)). Pour cela, elle utilise des outils divers issus de l'algèbre linéaire, de l'analyse fonctionnelle, de la géométrie (projection orthogonale) et du calcul des probabilités.

L'analyse des données comme méthode de la statistique descriptive, a vu ses champs d'applications s'élargir d'une façon considérable, avec l'introduction et le développement des moyens de calcul (les ordinateurs), dépassant ainsi son cadre classique [1, 91 en empruntant les chemins du cadre fonctionnel, permettant ainsi d'étudier des phénomènes rendus plus complexes par le gros volume de données qu'ils induisent. Par exemple, lorsqu'on étudie un phénomène économique comme la consommation mensuelle d'électricité, il est d'usage de la représenter par la chronique des consommations mensuelles totales. " Ce choix présente deux inconvénients " [61

~ On perd une partie de l'information concernant la structure du système;

Les délais nécessaires a la connaissance des derniers résultats de cette série sont souvent assez longs.

" Le premier point nous amène a caractériser le phénomène étudié par la série chronologique multiple des consommations mensuelles des différentes branches de l'industrie et du commerce. Sa visualisation nous fournira celle du phénomène de facon globale" [61.

" Le deuxième point pose le problème du choix d'une ou plus généralement d'un petit groupe de séries, extraits de la série multiple et la représentant au mieux. Ce choix est fondamental dans l'étude de la conjoncture et dans la prévision " [61 . Braun (1973) propose de résoudre ce problème en faisant une analyse en composantes principales sur ces séries, dont la première composante principale va expliquer au mieux la variabilité du phénomène. Cette dernière n'expliquant qu'une partie de la variabilité totale, on peut alors considérer la deuxième composante principale parmi les combinaisons linéaires des autres séries orthogonales a la première composante principale, et ainsi de suite.

Depuis les travaux pionniers de Deville (1974), beaucoup d'attentions ont étés accordé a l'analyse des données fonctionnelles par la communauté statistique [11 dont beaucoup d'études sont consacrées a la description statistique d'un échantillon de courbes (courbe de croissance, courbe de température, ... ) au moyen de l'analyse en composantes principales fonctionnelle (voir Ramsay and Silverman 1991, Boumaza, 1999, Kneip and Utikal, 2001...). L'utilisation de la décomposition spectrale de l'opérateur de covariance qui est analogue a la matrice de covariance dans l'espace des fonctions, permet d'obtenir dans un espace de faible dimension les principaux modes de variations des données. Prenons par exemple la fonction aléatoire X(t,w), w E Ù et t varie dans un intervalle compact T de IR, de moyenne u(t) et de fonction de covariance ã(t,s) = Cov(X(s),X(t)).

L'opérateur de covariance F s'écrit sous la forme d'un opérateur intégral comme suit [111:

Z

Vf E L2(T ), Vt E T, Ff(t) = ã(t,s)f(s)ds (1)

T

La meilleure approximation de X dans un sous-espace de dimension q, est obtenue par la projection de X sur le sous-espace de L2IRx T) engendré par les q fonctions propres g1, . . . ,gq de F de la façon suivante:

X(t) u(t) + X q fj gj(t) (2)

j=1

Les fj sont des variables aléatoires centrées de variances ëj (ëj est la j-ième valeur propre de F). Une approximation obtenue au moyen de l'analyse en composantes principales fonctionnelle (FPCA) de la fonction aléatoire X [4, 141.

Si nous intéressons maintenant a la description et a l'estimation des réalisations des trajectoires Xi d'une variable aléatoire X prenant ses valeurs dans un espace fonctionnel,"deux points de vue cohabitent dans la littérature et conduisent aux memes procédures d'estimation "[11 . Le premier considère que les observations sont bruitées et que le vrai signal est contenu dans un espace fonctionnel de dimension finie [271, Il s'agit alors de reconstuire au mieux les trajectoires observées. Le second cherche a obtenir une représentation optimal d'un ensemble de courbes dans un espace de dimension petite [11].

Lorsqu'on observe un échantillon i.i.d de variables aléatoires fonctionnelles Xi, i = 1,m tiré selon la distibution de X, on peut définir l'opérateur de covariance empirique n[14l. Deville (1974), Dauxois et Pousse (1976), montrent, en des sens et sous des hypothéses différentes (convergence presque sure, convergence en loi, données dépendantes), la convergence des opérateurs de covariance au sens de la norme de Hilbert-Schmidth ainsi la convergence des éléments propres. Ensuite, Dauxois et al, ont montré la convergence en loi de n et en ont déduit les convergences en loi des éléments propres.

En pratique on peut supposer que les courbes sont observées sur une grille de p points de discrétisation t1,... ,tp . On note Xi = (Xi(t1), . . . ,Xi(tp)' la i-ème trajectoire disctrétisée que l'on suppose centrée."En approximant l'opérateur de covariance en utilisant une méthode de quadrature, on peut définir les composantes principales comme les coordonnées dans la bases des fonctions propres discrétisées " [11].

" L'estimation "brute" des éléments propres en présence d'observations discrètes des courbes n'est pas forcément judicieuse, les fonctions propres estimées pouvant etre très irrégulières " [71 , d'oi l'idée pratique de proposer un lissage dans la phase d'estimation. Ce lissage peut opérer sur les trajectoires [11, 27] desquelles on fait ensuite l'ACP sur les vecteurs propres [34, 35] oi encore en lissant simultanément toutes les trajectoires dans un espace de dimension restreinte [101. Ce lissage permet également d'améliorer, lorsque la valeur du paramètre est bien choisie, les estimateurs des éléments propres [11, 27] et les reconstructions des trajectoires [101.

Une variante de l'analyse des données fonctionnelles permettant le traitement d'un autre type de données, appelée: "données ternaires" (three-way data) qui se présentent sous forme de L tableaux indicés par un paramètre qui peut être le temps [12, 21] est l'ACP de densités de probabilité [3, 20] dont la justification théorique ressort de la théorie des opérateurs compacts [13, 151. Elle consiste a remplacer chaque tableau par une densité de probabilité. L'ensemble de ces densités constitue un nuage de L vecteurs dans l'espace de Hilbert L2(IR12) (p désigne le nombre de colonnes de ces tableaux). L'objectif est de décrire globalement ces données, en procédant a une représentation approché dans un sous-espace de faible dimension.

La méthode suppose que les densités sont connues, ce qui n'est pas toujours le cas en pratique. Une façon simple d'y remédier consiste a supposer que les densités appartiennent a une famille connue, comportant des paramètres inconnus dont les estimations par la méthode de vraisemblance permet de déduire des estimations de ces densités, puis de faire une ACP sur les densités estimées. Cette ACP fournit une estimation de l'ACP théorique correspondante.

On peut vérifier dans le cas de données gaussiennes simulées la convergence rapide de l'ACP des densités estimées vers l'ACP théorique correspondante pour des tailles d'échantillon raisonnables [31.

Notre souci dans ce présent travail est de présenter une autre approche d'estimation. Elle consiste a estimer les densités inconnues par la méthode du noyau [2, 16, 31, 32, 331. La convergence de l'ACP estimée est justifiée par les propriétés de convergence des estimateurs a noyau [21.

On étudiera ainsi pour une taille d'échantillon fixée, l'influence des paramètres de lissage (noyau et fenêtre) sur les résultats de l'estimation, puis on proposera un critère de sélection de la fenêtre de lissage. On utilisera ce critère pour calculer une fenêtre dite "optimale", permettant ainsi d'obtenir une meilleure estimation de l'ACP théorique correspondante.

L'étude est faite sur des données simulées de différentes natures (bimodale symétrique et asymétrique, unimodale symétrique et asymétrique). Les programmes ont été écrits dans l'environnement Scilab.

Le premier chapitre est consacré a l'étude de l'ACP de densités. Dans un premier temps on proposera un bref rappel sur l'analyse factorielle d'opérateur, qui sera considérée comme un outil mathématique pour aborder par la suite la deuxième partie, qui est dédiée a l'ACP de densités.

Dans le deuxième chapitre et après un rappel sur la notion d'estimation de densité de probabilités par la méthode du noyau, on présentera dans un premier temps l'ACP de densités estimées non paramétriquement, ensuite on donnera un rappel sur l'approche d'estimation paramétrique et on terminera ce chapitre par une comparaison entre les deux approches d'estimation.

En se basant sur des exemples simulés, on étudiera au début du troisième chapitre, l'influence du noyau sur l'ACP de densités estimées, oi l'on considérera deux cas particuliers; le cas oi les densités sont estimées en associant a chacune d'elle la fenêtre optimale au sens de l'erreur quadratique intégrée asymptotique et le cas oii les densités sont estimées sous la condition d'égalité des erreurs quadratiques intégrées asymptotiques.

Le quatrième et dernier chapitre est réservé a l'influence et choix de la fenêtre de lissage sur l'ACP de densités. On y proposera un critère de sélection d'une fenêtre dite "optimale", et on y comparera a l'aide de quelques exemples simulés, les résultats obtenus en utilisant cette fenêtre et les résultats obtenus en utilisant les fenêtres optimales au sens des erreurs quadratiques intégrées asymptotiques.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Soit réservé sans ostentation pour éviter de t'attirer l'incompréhension haineuse des ignorants"   Pythagore