Chapitre 2
Estimation de l'ACP de densités de
probabilité
2.1 Introduction
Au delà de l'aspect théorique
présenté dans le chapitre précédent, l'ACP de
densités est une méthode statistique permettant le
traitement d'un gros ensemble de données, se
présentant sous forme de plusieurs groupes formés des
valeurs de p variables quantitatives sur plusieurs
individus, oi chaque groupe est considéré
comme un échantillon d'une population donnée. La méthode
va nous permettre de dégager des facteurs,
décrivant au mieux les différences entre les échantillons,
par conséquent entre les différentes populations. Elle
consiste alors à associer à chaque échantillon
une densité de probabilité, qui est la densité
de la variable parente correspondante. La démarche elle-même
exige que les densités soient connues, ce
qui n'est pas toujours le cas en pratique. Boumaza (1999)
a proposé une approche dans laquelle les densités sont
estimées en supposant que les données sont des
réalisations de variables aléatoires dont les lois appartiennent
à une famille de lois connues, comportant des paramètres
inconnus; estimer les densités des ces lois revient alors,
à en estimer les paramètres. Dans le cas de données
gaussiennes unidimensionnelles, il a été
vériflé sur des exemples simulés la convergence
rapide de l'ACP des densités estimées vers l'ACP
théorique correspondante pour des tailles
d'échantillons raisonnables (n>25).
fh(x) =
|
] (c)i E {1,...,n} : Xi E
[x - h 2,x + h 2]p
nhp
|
.
|
(2.1)
|
Une autre approche possible qui ne suppose pas
nécessairement la normalité des données, consiste a
estimer les densités inconnues par la méthode du
noyau. Introduite par Kneip et Utikal (2001) dans le cas d'une ACP
centrée non normée, ils proposent dans la méthode, une
procédure en deux étapes d'estimation des éléments
propres de la matrice des produits scalaires [201 . Sans se soucier de la
nature de l'ACP, on étudiera ainsi l'influence du noyau et de
la fenêtre de lissage sur la qualité de
l'estimation. On donnera dans le début du chapitre, un rappel sur
l'estimation d'une densité de probabilité par la méthode
du noyau, ensuite on présentera l'ACP estimée par
noyau, dans laquelle on proposera dans le cas d'une ACP
non centrée et non normée, une procédure d'estimation des
valeurs propres de la matrice des produits scalaires
théorique, permettant d'améliorer leurs
qualités d'estimation. Ensuite on donnera un rappel sur
l'approche d'estimation paramétrique et on terminera ce
chapitre par une comparaison entre les deux approches d'estimation.
|