C 13 n dust
énér le
USTHB Page 115
Conclusion générale
Nous avons, tout au long de ce mémoire intitulé
« Application des méthodes de l'analyse des données sur
l'évolution du parc automobile national », essayé
d'atteindre l'objectif fixé, à savoir, trouver des
méthodes d'analyses statistiques adéquates afin
d'interpréter les données récoltées.
Notre travail est scindé en deux parties. La
première porte sur l'utilisation des méthodes de l'analyse des
données sur des statistiques représentant les véhicules en
circulation sur le territoire national. La deuxième partie est
consacrée à l'analyse de séries chronologiques
représentant l'importation des véhicules neufs ; dont l'objectif
sera de prévoir à court terme le nombre futur de véhicule
mis en circulation.
Dans un premier temps, nous nous sommes
intéressés à l'évolution des différents
genres de véhicules au niveau national à travers le temps, et ce,
en appliquant la méthode d'analyse des données appelée
DACP ou double analyse en composants principales, ensuite, afin
d'étudier la répartition genre par ancienneté ainsi que
genre par puissance de véhicule, l'analyse factorielle des
correspondances a été utilisée.
Les résultats obtenus par la DACP nous ont amené
à la conclusion que le parc automobile Algérien a
évolué de façon homogène sur la période de
temps allant de 2000 à 2009.
Les resultats obtenus par l'AFC nous ont amené à
la conclusion que l'Algérie a connu, en l'année 2009, un
renouveau beaucoup plus important dans les véhicules de transport et les
véhicules de tourisme, quant aux plus anciens véhicules en
circulation; ce sont les camionnettes et les véhicules speciaux. nous
somme aussi arrivé à la conclusion que les véhicules les
plus puissants en circulation pendant l'année 2009 sont les camions et
les tracteurs agricoles.
En seconde lieu, nous avons réalisé une
étude prévisionnelle univariée, par le moyen de
séries chronologiques. Nous avons appliqué le plan de
modélisation suivant : la méthode de Box & Jenkins.
L'application de Box & Jenkins nous a permis de
modéliser le phénomène étudié pour certains
genres de véhicules. Dans cette méthode l'obtention des valeurs
futures d'une série temporelle se fait par extrapolation des
observations passées de la série en question.
Nous espérons que les résultats obtenus sauront
répondre à l'attente de l'office national des statistiques ainsi
qu'à tous les utilisateurs.
Le tableau des données brutes `a partir duquel on va
faire l'analyse est noté X et a la forme suivante :
Analyse en composantes principales
I. Définition :
L'analyse en composantes principale « ACP
», est une méthode statistique
multidimensionnelle qui permet de synthétiser un ensemble
de données en identifiant la redondance dans celles-ci et consiste
à rechercher les directions de l'espace qui représentent le mieux
les corrélations entre n variables aléatoires, donc elle
permet de :
Résumer les grands ensembles de données
ce et les corrélations.
L'ACP n'est pas une fin en soi. Elle servira à mieux
connaître les données sur lesquelles on travaille, à
détecter éventuellement des valeurs suspectes, et aidera à
formuler des hypothèses qu'il faudra étudier à l'aide de
modèles et d'études statistiques inférentielles.
Tableau de données :
Les données sont les mesures effectuées sur n
unités {u1, u2, ..., ui, ...un}(en ligne). Les p variables
quantitatives qui représentent ces mesures sont {v1, v2, ..., vi ,
...vp}(en colonne).
?
X=
xij
?
?
?
xi
1
xi
2
?
?
?
?
?
xn
1
xn
2
xnj
?
x x
11 12
?
x x
21 22
?
j
x1
x x
j ?
2 2 p ? x1
p ? ? ?
?
xip
?
xnp ? ? ? ? ? J
xi
1
?
?
?
xi
2
?
ui
?
xij
xip ? ? ? ? ? ??
On peut représenter chaque unité par le vecteur de
ses mesures sur les p variables :
ce qui donne
Alors est un vecteur de .
De façon analogue, on peut représenter chaque
variable par un vecteur de dont les
composantes sont les valeurs de la variable pour les n
unités :
?
?
x1
j
x2
j
v
j
?
xij
?
xnj ? ? ? ? ? J
?
?
Pour avoir une image de l'ensemble des unités, on se place
dans un espace affine en
choisissant comme origine un vecteur particulier de , par exemple
le vecteur dont toutes
les coordonnées sont nulles. Alors, chaque unité
sera représentée par un point dans cet espace. L'ensemble des
points qui représentent les unités est appelé
traditionnellement «nuage des individus».
En faisant de même dans , chaque variable pourra être
représentée par un point de l'espace
affine correspondant. L'ensemble des points qui
représentent les variables est appelé «nuage des
variables».
sj
L'idée générale des méthodes
factorielles est de trouver un système d'axes et de plans tels que les
projections de ces nuages de points sur ces axes et ces plans permettent de
reconstituer les positions des points les uns par rapport aux autres,
c'est-à-dire avoir des images les moins déformées
possible.
II. Individus et variables : A. Distance entre individus
:
La distance entre deux individus i et i' est la distance
euclidienne usuelle donnée par la formule 3-1-1.
Il peut exister des valeurs de j pour lesquelles les variables
correspondantes sont d'échelles très diverses, on veut que la
distance entre deux points soit indépendante des unités sur les
variables. On peut parfois désirer, surtout lorsque les unités de
mesures ne sont pas les mêmes, faire jouer à chaque variable un
rôle identique dans la définition des proximités entre
individus : on parle alors d'analyse en composantes principales normée.
Pour cela on corrige les échelles en adoptant la distance :
p ? ?
r r ?
ij i? j
d i i
2 ( , ? ) ? ?? ?
? s n ?
j ? 1 ? j ?
s = ( )
j n j=1
2 1 n r jj r j
2
désignant l'écart-type empirique de la variable j
dont le carré (variance empirique) vaut :
_ 2
Finalement, nous retiendrons que l'analyse normée dans du
tableau brute est l'analyse
générale de X , de terme général :
jj ?
? ?
x ij x ij
Toutes les variables ainsi transformées sont «
comparables » et ont même dispersion : c ?
cor ? j , j ? ?
jj ?
Les variables sont centrées réduites. On mesure
l'écart à la moyenne en nombre d'écarts-types de la
variable j.
cjj ?
B. Matrice à diagonaliser :
En résumé, l'analyse du nuage des points-individus
dans nous a amené à effectuer une translation de l'origine au
centre de gravité de ce nuage et à changer, dans le cas de
l'analyse normée, les échelles sur les différents axes.
c
?
?r ? r ??
r ? r ?
jj ? n s s
i j j ?
L'analyse du tableau transformé X nous conduit à
diagonaliser la matrice
.Le terme général de cette matrice s'écrit
:
ij j ij ? j ?
n
c ?
i
Soit :
1
n
C'est-à-dire :
n'est autre que le coefficient de corrélation empirique
entre les variables et. A matrice à diagonaliser est donc la matrice de
corrélation C
|