Conclusion partielle
En somme, l'importance des bases de données de nos
jours n'est plus à démontrer. Au fil des années, les
approches de modélisation des BD ont profondément
évolué avec l'apparition de nouveaux enjeux. Chacune d'elle
possédant ses avantages et ses limites, il conviendra aux concepteurs de
choisir l'approche la mieux adaptée compte tenu des
réalités du domaine d'application. Bien au-delà des
modèles théoriques, l'implémentation physique d'une base
de données nécessite une démarche à la fois
méthodique et très rigoureuse. Merise et UML sont les
méthodes d'analyse les plus utilisées afin de garantir une
cohérence des structures de données. Aujourd'hui, les
Systèmes de Gestion de Base de Données permettent la
création et la manipulation des BD. Ces systèmes peuvent
être centralisés ou non (client-serveur). De cette revue, la
question naturelle qui se pose est de savoir quelle est l'approche la plus
pertinente pour la réalisation de la présente étude.
Chapitre 3
Approche Méthodologique et sources de
données
Le présent chapitre a pour objectif de poser les bases
méthodologiques de notre étude. De façon
résumée, la réalisation de la présente étude
passe par l'atteinte des objectifs que nous pouvons décrire à
travers les deux points suivants :
1' Analyse du cadre socioéconomique du
Sénégal et élaboration d'un indicateur sectoriel;
1' Élaboration d'un système
informatisé constitué d'une BD socioéconomique
territorialisée (intégration de ressources SIG) et d'un tableau
de bord des projets.
Dans ce qui suit, nous spécifions pour chacun de ces
points, les objectifs spécifiques à atteindre.
Tableau 3.1 -- Aperçu du cahier de
charges
Etude statistique
|
Système informatisé
|
Objectif Général
Donner à l'USPITE une vue panoramique du paysage
socioéconomique au Sénégal
Mettre à la disposition de l'USPITE un système
informatique de suivi des projets de l'Etat
1' Étudier l'évolution des principaux
indicateurs depuis 2005 suivant les régions
Tâches spécifiques
1' Rechercher les corrélations entre les
différents indicateurs sociaux et établir une carte de
proximité des collectivités locales
1' Élaborer un indicateur annuel de
performances socioéconomiques
1' Élaborer une structure de données
prenant en charge la BD so-cioéconomique territorialisée et le
tableau de bord de suivi des projets
1' Mettre au point une interface servant de pont
entre les utilisateurs et la structure de données ainsi mise sen
place
Brice Baem BAGOA, Elève Ingénieur des
Travaux Statistiques Page 24
Source: Nos travaux
Considérant le tableau ci-dessus, il sera d'abord
question dans ce chapitre, de présenter les méthodes
utilisées pour l'apprentissage statistique de liens entre indicateurs.
Il s'agira ensuite de décrire la méthodologie
d'élaboration de l'Indice Sectoriel de Performances (ISP). La
troisième section de ce chapitre sera consacrée à la
démarche d'implémentation des structures de données pour
le système constitué de la BD socioéconomique et du
tableau de bord de suivi des projets. La présentation de la
modélisation de l'interface fera l'objet de la cinquième section.
La dernière partie de ce chapitre sera réservée à
la présentation des sources de données.
3.1. Analyse exploratoire
1 E Im =
n j#k
|
d2(Zj, Zk)
= 1 E
n j#k
|
En i=1
|
(Zij - Zik)2
(3.3)
|
Brice Baem BAGOA, Elève Ingénieur des
Travaux Statistiques Page 25
3.1 Analyse exploratoire
Pour la description des données, nous utilisons, en
plus des méthodes usuelles de statistiques descriptives, des
méthodes d'apprentissage non supervisé. Compte tenu de la
problématique et de la performance, nous retenons l'analyse en
composantes principales pour l'étude des corrélations entre les
variables et le réseau de KOHONEN pour la classification des
collectivités locales.
3.1.1 L'analyse en composantes principales
L'Analyse en Composantes Principales (ACP) cherche à
expliquer la structure des corrélations d'un ensemble de variables en
utilisant un plus petit ensemble de combinaisons linéaires de ces
dernières. Il s'agit donc de représenter l'information contenue
dans un tableau de m variables par un plus petit nombre de facteurs
(généralement 2). Par ses méthodes, l'ACP cherche à
établir une carte des variables en fonction de leurs corrélations
et une carte des individus en fonction de leur proximité. Dans cette
étude nous nous intéressons aux variables (les indicateurs
socioéconomiques).
3.1.1.1 Présentation théorique :
Soit X = (X1, ... , Xm)
une matrice n x m, chacun des Xi, i = 1, ... , n étant
ainsi un vecteur n x 1 décrivant une certaine caractéristique des
individus étudiés. Les composantes principales
représentent un nouveau système de coordonnées qui
s'obtient par maximisation de la variabilité (ou inertie) totale
contenue dans le tableau X. Avant de réaliser une ACP, il convient de
standardiser les variables de sorte à ce que leurs moyennes soient
nulles et leurs écart-types égales à l'unité. Cette
normalisation permet d'une part de centrer le nuage des individus autour de
l'individu moyen et d'autre part de restreindre le nuage N des variables au
cercle trigonométrique. Cette dernière restriction a le
mérite d'éliminer l'effet des unités des variables dans
l'analyse. Posons donc :
Xj - uj
Zj =
ój
|
,Vj = 1,...,m (3.1)
|
uj et ój étant
respectivement la moyenne et l'écart-type de la variable
Xj. L'espace Rn des variables est
muni de la distance euclidienne :
d2(Zj, Zk)
= En (Zij -
Zik)2 (3.2)
i=1
L'inertie totale du nuage des variables est donc donnée
par :
Brice Baem BAGOA, Elève Ingénieur des
Travaux Statistiques Page 26
3.1. Analyse exploratoire
Nous recherchons un espace à k dimensions de
sorte que l'inertie du nuage projeté sur cet espace soit maximale. Le
premier axe factoriel est donc dirigé par le vecteur u1 tel
que
u1 = arg max(Im,
uá) (3.4)
uá
(Im,
uá) est l'inertie obtenue après
projection du nuage N sur le vecteur
uá. On montre que la solution
u1 de l'équation 3.4 est le vecteur propre associée
à la valeur propre la plus élevée A1 de la
matrice de covariances (1/n)Z'Z. Le second axe factoriel
est engendré par le vecteur associé à la deuxième
valeur propre la plus élevée A2 et ainsi de suite. Le
plan factoriel recherché est donc le sous-espace engendré par les
vecteurs propres associées aux valeurs propres A1,...,Ak
de la matrice (1/n)Z'Z.
Hk = V ect(u1,...,uk)
(3.5)
Notons d'une part que Aá
est l'inertie expliquée par l'axe
uá. D'autre part, pour á
=6 â, nous avons (uá,
uâ) = 0 et donc Im
= iá
Aá. Le nombre d'axes
factoriels k à retenir se détermine à l'aide de
la règle du coude de Catel et du pourcentage d'inertie expliquée
par le plan sous-jacent (Voir annexes).
|