Conclusion
Le travail que nous avons effectué ici
concerne essentiellement la présentation de l'approche d'estimation non
paramétrique d'une ACP de densités, une approche
qu'on peut toujours utiliser quelque soit la
nature des données. Dans le cas d'une ACP non centrée et non
normée, nous avons utilisé l'approche d'estimation de Kneip et
Utikal 2001, pour améliorer la qualité de l'estimation
des valeurs propres de la matrice des produits scalaires, dans le cas
particulier oi les tailles d'échantillons sont identiques et
des densités estimées par noyau en utilisant la
même fenêtre de lissage. Ensuite, on a effectué
une comparaison entre l'approche paramétrique et l'approche
non paramétrique, nous avons alors
remarqué, l'équivalence entre les deux
approches d'estimations dans le cas de densités gaussiennes
et de densités de Gumbel estimées. Dans le troisième
chapitre nous avons étudié sur la base de 4 exemples, l'influence
du noyau sur la qualité de l'estimation, et cela
en considérant deux cas particuliers; le cas oi les
densités sont estimées, par les différents
noyaux, avec des erreurs quadratiques
intégrées asymptotiques
minimales. Le deuxième cas consiste a estimer. les densités en
commettant les mêmes erreurs quadratiques
intégrées asymptotiques suivant
chaque noyau. Les résultats obtenus montrent
que la qualité de l'estimation est
indépendante du choix de ce noyau.
Après avoir choisi d'estimer les densités en
utilisant une seule fenêtre de lissage, et en utilisant le
résultat précédent, nous avons étudié sur la
base de l'exemple de données gaussiennes simulées,
l'influence et le choix de la fenêtre de lissage sur la
qualité de l'estimation. Les résultats obtenus
montrent que cette dernière est cruciale pour obtenir une
bonne estimation de l'ACP théorique. Pour atteindre cet
objectif, nous avons choisi de sélectionner la meilleure fenêtre
qui consiste a minimiser globalement toutes les erreurs
quadratiques intégrées
asymptotiques, que nous avons notée
hoptimal, ensuite nous avons comparé, en se basant
sur les exemples du chapitre précédent,
les qualités d'estimations obtenues en
utilisant cette fenêtre et celles obtenues en associant a
chaque densité du nuage la fenêtre optimale
au sens de l'AMISE. Les résultats obtenus sont très proches.
Cette fenêtre présente un avantage et
un inconvénient. Son avantage réside dans le fait
qu'elle simplifie les calculs et son inconvénient est le fait
qu'elle dépend toujours des densités inconnues. Pour
résoudre ce problème nous avons proposé en utilisant
l'approche d'estimation de Park et Marron, 1990 de remplacer les
densités dans la formule de hoptimal en utilisant un
modèle paramétrique approprié.
Observons maintenant les données traitées par la
méthode proposée (ACP de densités) oi dans
chaque lot (tableau) nous disposons de mesures d'une variable
quantitative. Regardons maintenant le cas oi on dispose a
la fois des mesures d'une variable quantitative (continue) et d'une
variable qualitative ( discrète), est-il alors possible de
développer une analyse factorielle comme celle
présentée auparavant permettant d'obtenir une analyse
globale de ce type de données et quelle
est l'interprétation qu'on peut donner aux différents
facteurs?
Essentiellement cela consiste a définir une mesure
d'affinité entre deux densités de probabilités comme celle
définie dans le chapitre 1, qui sont les densités
conjointes d'un vecteur aléatoire quantitatif (continu) X et
d'un vecteur aléatoire qualitatif (discret) Y, ainsi une
méthode d'estimation en utilisant les données
précédentes. Ce travail nécessite d'introduire des
hypothèses supplémentaire sur la nature des
données, comme la normalité du vecteur aléatoire
conditionnel X/Y.
Le modèle appelé ' location model ' introduit
par Olkin et Tate (1961), généralisé ensuite
par Krzanoswki (1983) sous le nom ' General location model ' est de loin le
modèle statistique le plus recommander pour ce
type de problème. En se basant sur l'affinité de
Bhattacharyya (1943), Krzanoswki a défini une mesure
d'affinité entre deux populations sur lequelles sont
mesuré p caractères quantitatifs et r
caractères qualitatifs.
En utilisant cette mesure d'affinité ou
éventuellement en définissant d'autres mesures en conservant
l'hypothèse de normalité, on peut développer
une analyse factorielle a la manière présentée
dans le premier chapitre, par conséquent une
analyse en composantes principales sur les densités
conjointes des vecteurs aléatoires quantitatifs (continu) et
qualitatifs (discret), et une
méthode d'estimation de ces densités, en
utilisant soit une approche paramétrique ( Krzanowski, 1983)
soit une approche non paramétrique, en adoptant les
différents résultats de ce travail a cette situation. Des
questions auxquelles nous souhaitons répondre dans
le cadre de travaux a venir.
|