Notations
Notations matricielles
W' transposée de la matrice / vecteur
W
Wt,s élément de la t-ème
ligne et la s-ème colonne de la matice W
W -1 inverse de la matrice W
|W | déterminant de la matrice W
MuM la norme euclidienne de u
kuMM la M-norme de u
Notations statistiques
E(X) espérance
mathématique de la variable X
V (X) variance de variable X
Cov(X,Y ) covariance des variables X
et Y
N(u,Ó) loi normale de vecteur
moyen u et de matrice de variance covariance Ó
MISE Mean Integrated Square
Error
AMISE Asymptotic Mean Integrated
Square Error
Notations fonctionnelles
L2(IRp) espace des
fonctions réelles de carré intégrable sur
IRp
L2IR( × T) espace des fonctions
réelles de carré intégrable par rapport a la
mesure
produit sur × T
U* adjoint de l'opérateur U
< u,v >H produit scalaire dans l'espace de Hilbert
H entre les deux vecteurs
u et v
UoV composée des opérateurs U et
V
kV M norme de l'oprérateur V
II[a,b] indicatrice de l'intervalle
[a,b]
Notations diverses
Pn i fi sommation sur l'ensemble des valeurs de l'indice
i des quantités fi
ps convergence presque sure
Introduction
La statistique, en tant que discipline
des mathématiques appliquées, admet une
grande diversité de dominantes, elle peut être
descriptive ou inférentielle, paramétrique ou non,
asymptotique ou non, uni ou
multidimensionnelle; elle englobe un spectre très
large de problèmes, allant du plus concret (traitement de
données) au plus abstrait (formalisation mathématique
nécessitant des concepts variés, qui peuvent
être des versions stochastiques de la théorie
fondamentale (théorie des opérateurs)). Pour cela, elle utilise
des outils divers issus de l'algèbre linéaire, de
l'analyse fonctionnelle, de la géométrie
(projection orthogonale) et du calcul des probabilités.
L'analyse des données comme méthode
de la statistique descriptive, a vu ses champs d'applications
s'élargir d'une façon considérable,
avec l'introduction et le développement des moyens de calcul
(les ordinateurs), dépassant ainsi son cadre classique [1, 91
en empruntant les chemins du cadre fonctionnel, permettant ainsi
d'étudier des phénomènes rendus plus complexes par le
gros volume de données qu'ils induisent. Par
exemple, lorsqu'on étudie un phénomène
économique comme la consommation mensuelle
d'électricité, il est d'usage de la représenter
par la chronique des consommations mensuelles totales. " Ce choix
présente deux inconvénients " [61
~ On perd une partie de l'information concernant la structure du
système;
Les délais nécessaires a la connaissance des
derniers résultats de cette série sont souvent assez
longs.
" Le premier point nous amène a caractériser le
phénomène étudié par la série
chronologique multiple des consommations mensuelles des
différentes branches de l'industrie et du commerce. Sa visualisation
nous fournira celle du phénomène de facon
globale" [61.
" Le deuxième point pose le problème du choix
d'une ou plus généralement d'un petit
groupe de séries, extraits de la série multiple et la
représentant au mieux. Ce choix est fondamental dans l'étude de
la conjoncture et dans la prévision " [61 . Braun (1973) propose de
résoudre ce problème en faisant une analyse en
composantes principales sur ces séries, dont la première
composante principale va expliquer au mieux la variabilité du
phénomène. Cette dernière n'expliquant
qu'une partie de la variabilité totale, on peut alors
considérer la deuxième composante principale parmi les
combinaisons linéaires des autres séries orthogonales
a la première composante principale, et ainsi de suite.
Depuis les travaux pionniers de Deville (1974), beaucoup
d'attentions ont étés accordé a l'analyse des
données fonctionnelles par la communauté statistique
[11 dont beaucoup d'études sont consacrées a la description
statistique d'un échantillon de courbes (courbe de
croissance, courbe de température, ... ) au moyen de
l'analyse en composantes principales fonctionnelle (voir
Ramsay and Silverman 1991, Boumaza, 1999, Kneip and Utikal,
2001...). L'utilisation de la décomposition spectrale de
l'opérateur de covariance qui est analogue a la
matrice de covariance dans l'espace des fonctions, permet d'obtenir dans un
espace de faible dimension les principaux modes de variations des
données. Prenons par exemple la fonction aléatoire
X(t,w), w E Ù et t varie dans un
intervalle compact T de IR, de moyenne
u(t) et de fonction de covariance
ã(t,s) =
Cov(X(s),X(t)).
L'opérateur de covariance F s'écrit sous la forme
d'un opérateur intégral comme suit [111:
Z
Vf E L2(T ), Vt E T,
Ff(t) =
ã(t,s)f(s)ds (1)
T
La meilleure approximation de X dans un sous-espace
de dimension q, est obtenue par la projection de X sur le
sous-espace de L2IR(Ù x T)
engendré par les q fonctions propres
g1, . . . ,gq de F de la façon
suivante:
X(t) u(t) + X q fj
gj(t) (2)
j=1
Les fj sont des variables aléatoires
centrées de variances ëj (ëj est la
j-ième valeur propre de F). Une approximation obtenue au
moyen de l'analyse en composantes principales
fonctionnelle (FPCA) de la fonction aléatoire X [4, 141.
Si nous intéressons maintenant a la description et a
l'estimation des réalisations des trajectoires Xi d'une
variable aléatoire X prenant ses valeurs dans un espace
fonctionnel,"deux points de vue cohabitent dans la littérature et
conduisent aux memes procédures d'estimation "[11 . Le premier
considère que les observations sont bruitées et
que le vrai signal est contenu dans un espace fonctionnel
de dimension finie [271, Il s'agit alors de reconstuire au mieux les
trajectoires observées. Le second cherche a obtenir une
représentation optimal d'un ensemble de courbes dans un espace de
dimension petite [11].
Lorsqu'on observe un échantillon i.i.d de
variables aléatoires fonctionnelles Xi, i = 1,m
tiré selon la distibution de X, on peut définir
l'opérateur de covariance empirique
n[14l. Deville (1974), Dauxois et Pousse (1976), montrent,
en des sens et sous des hypothéses différentes
(convergence presque sure, convergence en loi,
données dépendantes), la convergence des
opérateurs de covariance au sens de la norme de Hilbert-Schmidth ainsi
la convergence des éléments propres. Ensuite, Dauxois
et al, ont montré la convergence en loi de
n et en ont déduit les convergences en
loi des éléments propres.
En pratique on peut supposer que les
courbes sont observées sur une grille de p points de
discrétisation t1,... ,tp . On note Xi
= (Xi(t1), . . .
,Xi(tp)' la i-ème
trajectoire disctrétisée que l'on suppose
centrée."En approximant l'opérateur de covariance en utilisant
une méthode de quadrature, on peut définir les
composantes principales comme les coordonnées dans la bases des
fonctions propres discrétisées " [11].
" L'estimation "brute" des éléments propres en
présence d'observations discrètes des courbes n'est pas
forcément judicieuse, les fonctions propres estimées pouvant etre
très irrégulières " [71 , d'oi l'idée
pratique de proposer un lissage dans la phase
d'estimation. Ce lissage peut opérer sur les trajectoires
[11, 27] desquelles on fait ensuite l'ACP sur les vecteurs propres
[34, 35] oi encore en lissant simultanément toutes les trajectoires dans
un espace de dimension restreinte [101. Ce lissage permet
également d'améliorer, lorsque la valeur du
paramètre est bien choisie, les estimateurs des éléments
propres [11, 27] et les reconstructions des trajectoires [101.
Une variante de l'analyse des données
fonctionnelles permettant le traitement d'un autre type de
données, appelée: "données ternaires"
(three-way data) qui se présentent sous forme de
L tableaux indicés par un paramètre qui peut
être le temps [12, 21] est l'ACP de densités de probabilité
[3, 20] dont la justification théorique ressort de la
théorie des opérateurs compacts [13, 151. Elle consiste a
remplacer chaque tableau par une densité de
probabilité. L'ensemble de ces densités constitue un
nuage de L vecteurs dans l'espace de Hilbert
L2(IR12) (p
désigne le nombre de colonnes de ces tableaux).
L'objectif est de décrire globalement ces données, en
procédant a une représentation approché dans un
sous-espace de faible dimension.
La méthode suppose que les densités
sont connues, ce qui n'est pas toujours le cas en
pratique. Une façon simple d'y
remédier consiste a supposer que les densités
appartiennent a une famille connue, comportant des paramètres inconnus
dont les estimations par la méthode de vraisemblance permet de
déduire des estimations de ces densités, puis de faire une ACP
sur les densités estimées. Cette ACP fournit une estimation de
l'ACP théorique correspondante.
On peut vérifier dans le cas de données
gaussiennes simulées la convergence rapide de
l'ACP des densités estimées vers l'ACP
théorique correspondante pour des tailles
d'échantillon raisonnables [31.
Notre souci dans ce présent travail est de
présenter une autre approche d'estimation. Elle consiste a estimer les
densités inconnues par la méthode du noyau [2, 16, 31,
32, 331. La convergence de l'ACP estimée est justifiée
par les propriétés de convergence des estimateurs a
noyau [21.
On étudiera ainsi pour une taille d'échantillon
fixée, l'influence des paramètres de lissage
(noyau et fenêtre) sur les résultats de l'estimation,
puis on proposera un critère de sélection de la fenêtre de
lissage. On utilisera ce critère pour calculer une
fenêtre dite "optimale", permettant ainsi d'obtenir une meilleure
estimation de l'ACP théorique correspondante.
L'étude est faite sur des données
simulées de différentes natures (bimodale
symétrique et
asymétrique, unimodale
symétrique et
asymétrique). Les programmes ont
été écrits dans l'environnement Scilab.
Le premier chapitre est consacré a l'étude de
l'ACP de densités. Dans un premier temps on proposera un bref rappel sur
l'analyse factorielle d'opérateur, qui sera
considérée comme un outil mathématique pour
aborder par la suite la deuxième partie, qui est
dédiée a l'ACP de densités.
Dans le deuxième chapitre et après un rappel sur
la notion d'estimation de densité de probabilités par la
méthode du noyau, on présentera dans un premier temps
l'ACP de densités estimées non
paramétriquement, ensuite on donnera un rappel sur l'approche
d'estimation paramétrique et on terminera ce chapitre par une
comparaison entre les deux approches d'estimation.
En se basant sur des exemples simulés, on
étudiera au début du troisième chapitre, l'influence du
noyau sur l'ACP de densités estimées, oi l'on
considérera deux cas particuliers; le cas oi les
densités sont estimées en associant a chacune d'elle la
fenêtre optimale au sens de l'erreur quadratique
intégrée asymptotique et le cas
oii les densités sont estimées sous la condition
d'égalité des erreurs
quadratiques intégrées
asymptotiques.
Le quatrième et dernier chapitre est
réservé a l'influence et choix de la fenêtre de
lissage sur l'ACP de densités. On y proposera un
critère de sélection d'une fenêtre dite "optimale", et on
y comparera a l'aide de quelques exemples
simulés, les résultats obtenus en utilisant cette fenêtre
et les résultats obtenus en utilisant les fenêtres optimales au
sens des erreurs quadratiques
intégrées asymptotiques.
|