Chapitre 2. METHODOLOGIE D'ESTIMATION DES D ECLARATIONS
MANQUANTES
La théorie statistique prévoit plusieurs
méthodes pour l'estimation des valeurs des individus qui font
défaut à l'observation. Ainsi l'on rencontre plusieurs pratiques
dans les services statistiques. Ces pratiques sont plus ou moins basées
sur l'intuition et le bon sens, plutôt que sur une théorie
proprement dite. Surtout quand il s'agit des instituts des pays en voie de
développement. Pourtant, ce ne sont pas les méthodes les plus
robustes qui manquent en la matière.
Dans ce chapitre, l'accent sera mis sur la méthodologie
que nous utiliserons dans notre étude. Mais, nous commencerons par une
présentation des méthodes d'estimation que l'INSD du Burkina Faso
utilise. Cette partie sera suivie d'une critique de la méthode
d'estimation utilisée jusque là par le service de
comptabilité nationale de l'INSD.
La collecte des DSF constitue une étape importante dans
l'élaboration des comptes des sociétés non
financières. A cet effet on entreprend des collectes périodiques
dans les principales villes où l'activité économique est
intense. Ces villes sont Ouagadougou, Bobo-Dioulasso, Koudougou et Banfora. Les
renseignements contenus dans les DSF sont saisis à l'aide d'un micro
programme informatique que le service de comptabilité nationale a mis en
place. Ce programme tient compte de l'architecture des tableaux contenus dans
les DSF. Et à travers un ensemble de règles bien définies
par un manuel d'élaboration des comptes, on passe des données des
entreprises (selon le plan SYSCOA1) aux rubriques de la
comptabilité nationale.
A l'aide de ces formules de passage, on calcule les
données individuelles des entreprises comme le veut la
comptabilité nationale. Ainsi la production prendra en compte en outre
la production réalisée par l'entreprise (ventes de produits ou de
services produits par l'entreprise, production stockée,
immobilisée ou produits accessoires), les ventes des marchandises
desquelles il faut retrancher les achats de marchandises. La valeur
algébrique obtenue représente ainsi la production totale de
l'entreprise selon l'optique de la comptabilité nationale. Ce formalisme
peut être traduit par la formule suivante :
Pdt = PdtStk + PdtImm +PdtsAcc
+ Vtemdse + VtePdtsFabr - Ach mdse + TrSvc
Vend.
Où les termes désignent respectivement, et dans
l'ordre de leur apparition dans la formule, la production totale de
l'entreprise, la partie de la production stockée, celle
immobilisée, les produits accessoires, la vente de marchandises, la
vente des produits fabriqués, les achats de marchandises et les travaux
et services qu'aura vendus l'entreprise.
Lorsqu'il s'agit d'une entreprise commerciale, la production est
évaluée par la marge brute. C'est-à-dire la
différence entre les ventes et les achats de marchandises.
1SYSCOA: Système Comptable ouest africain,
c'est le système de comptabilité que utilisent les pays membres
de l'UEMOA.
De cette même règle on évalue la
consommation intermédiaire de l'unité soumise à
l'étude par les formules de passage entre ces deux types de
comptabilité. Cette formule est la suivante :
CI = AchMat1 + Tsprt + SvcExtr
+ FrechDev + AutAch ? ÄStk. Les termes de
cette équation se définissent comme suit:
CI: Consommation Intermédiaire;
AchMat1: Achat de matières premières;
Tsprt: Coût de Transport;
SvcExtr: Services Extérieurs;
FrechDev: Frais de recherche et de développement
c'est-à-dire les créations, les apports et les acquisitions;
AutAch: Autres achats et
ÄStk: Variation de stocks de matières
premières et des autres achats.
Quand à la rémunération des
salariés, elle correspond au poste « frais du personnel » du
SYSCOA. C'est donc une autre dénomination qui désigne le montant
que l'unité de production accorde à son personnel en contrepartie
du service qu'il fournit.
Après ces calculs de passage entre les deux
comptabilités, on obtient les indicateurs calculés pour chaque
entreprise ayant pris part à l'étude. Mais un certain nombre de
celles-ci a préféré s'abstenir. C'est pour ces
dernières que nous tentons de trouver des méthodes qui permettent
de réduire le biais qu'elles introduisent dans le calcul des
agrégats.
I. Méthode utilisée par
l'INSD
C'est une méthode basée sur le taux de croissance
de la production des entreprises d'une même branche au cours des 5
dernières années ayant précédé
l'année en cours.
Cette méthode suppose que les entreprises appartenant
à la même branche d'activité ont des taux de croissance
similaires. Ainsi la production constitue - t - elle l'élément
déterminant de l'estimation de toutes les grandeurs de la
comptabilité prises en compte lors de l'établissement des comptes
des sociétés non financières.
Par branche d'activité, il est constitué un
échantillon d'entreprises ayant transmis régulièrement
leurs DSF sur la période considérée. Cet
échantillon doit en outre être représentatif de l'ensemble
de la branche ; en d'autres termes il doit représenter au moins quatre
vingt pour cent (80%) de la production totale de la branche dont il est issu.
On calcule ensuite des taux de croissance moyens de la production pour
l'ensemble de la branche à partir de l'échantillon.
Pour une entreprise donnée et en fonction des
données disponibles sur cette entreprise, on utilise les taux de
croissance calculés pour estimer sa production.
Pour l'estimation de la consommation intermédiaire, il est
d'abord calculé un ratio CI Pdt pour chaque entreprise ayant
déposé une DSF au cours de la période de
référence.
Ensuite on constitue, par branche d'activité, un
échantillon d'entreprises dont les ratios CI Pdt sont assez
stables sur la période. On calcule un ratio moyen à partir de cet
échantillon, et par
branche d'activité on applique cette moyenne CI
Pdt à la production estimée pour avoir les CI
estimées. On déduit la valeur ajoutée par
solde.
Pour l'estimation de rémunération des
salariés (RS) et des impôts sur la production, on procède
de la même façon que précédemment, mais selon le
niveau, on calcule des moyennes RS/VA ou I/VA.
Il faut souligner que cette méthode était
surtout utilisée dans l'ancienne méthodologie
d'élaboration des comptes sous le SCN 68 et aussi dans le cadre de
l'élaboration des comptes de l'année de base 1999 sous le SCN 93
à l'aide du module ERETES. Pour l'élaboration des comptes des
années courantes du module ERETES qui est en cours, l'estimation des
agrégats des entreprises du secteur moderne non DSF se fait directement
au sein du module à l'étape des comptes de branches. Toutefois,
cette estimation gagnerait à être effectuée en dehors du
module pour permettre d'aller plus vite dans les travaux internes au module
ERETES.
II. Critique de la méthode
présentée
La méthode explicitée ci-dessus a pour avantage
de permettre de combler les données manquantes. A cet effet, elle permet
de faire une analyse avec une base relativement complète. Cette
façon peut être considérée comme une imputation
simple. C'est-à-dire que l'on donne à toutes les observations
manquantes la valeur commune censée être leur valeur si elles
avaient participé à l'étude.
S'il est vrai qu'elle permet d'avoir les données
artificielles pour compenser le biais que pourraient introduire les
non-réponses, il n'en demeure pas moins vrai qu'elle ne prend pas en
compte ni la nature de non-réponse ni le type de mécanisme qui
pourrait occasionner cette non- réponse. En effet, la méthode
semble être une méthode d'imputation qui s'applique aussi bien
à la non-réponse totale qu'à la no n-réponse
partielle. Or, on sait que ces méthodes ne sont réellement
efficaces que lorsqu'il s'agit d'une non-réponse partielle. Toutefois,
même en présence de cette nature de non-réponse, il est
tout à fait préférable de connaître le type de
processus qui aurait généré la non-réponse. A
défaut de connaître ce type, l'on suppose que les données
manquantes suivent un processus que l'on doit tester.
Confondre la non-réponse totale avec celle partielle et
les traiter de la même manière sont susceptibles de porter
préjudice à la qualité de données et partant celle
des résultats qui seront assortis de l'étude. Car cela revient
à considérer que l'individu qui n'a pas répondu à
une moindre question de l'étude apporte la même perte
d'information que celui qui refuse d'y participer. Par exemple, dans
l'estimation de la production, même si l'entreprise n'a pas
participé à la collecte, il suffit d'avoir une information sur
son existence. Si tel est le cas sa production sera égale à la
production estimée, de même que celle qui n'aurait pas
répondu aux variables permettant d'évaluer sa production mais qui
aura toutefois participé aux autres questions.
En cas de non-réponse totale, il faut redéfinir
les poids que le sondage aurait accordés aux unités statistiques
qui devaient prendre part à l'interview. Car les poids de ces
unités ne tiennent plus et ne peuvent plus être utilisés
pour extrapoler les données sur l'ensemble de la population. Or, en
comptabilité nationale, les données n'étant
publiées que pour le pays, cette extrapolation ne doit en aucune
manière être négligée. On se rend compte que la
procédure développée dans la première partie de ce
chapitre ne prend pas en compte cette nécessité de
redéfinition des poids des unités.
Cette méthode utilise les données d'une autre
enquête ce qui permet d'avoir d'autres sources de traitement. Mais dans
une économie ou les entreprises se créent et disparaissent aussi
rapidement, il peut être non cohérent d'utiliser les
données provenant d'une enquête lointaine dans le temps (de plus
de dix ans par exemple). Car la démographie instable des entreprises
fait appelle à une veille statistique et sa non prise en compte risque
de rendre incohérentes les estimations. En effet, il est possible
d'utiliser une entreprise dans le calcul de ratio et des taux de croissance
alors que cette entreprise a disparu, ou a été
délocalisée ou tout simplement a changé d'activité
principale. En plus c'est une méthode d'imputation ponctuelle
appliquée aux données manquantes sans tenir comptes de leur type
(MCAR, NMAR ou MAR) ou de leur nature (partielle ou totale).
L'objectif n'est pas de donner des estimations dont il est
difficile - si ce n'est pas impossible - de mesurer le biais ou de donner une
formule de la variance. Il s'agit plutôt de compenser les carences
d'informations avec des méthodes assez simples et faciles à
mettre en oeuvre. Le critère de choix de ces méthodes reste
toutefois la traduction de la réalité le plus fidèlement
possible. C'est pourquoi pour mieux faire l'estimation des DSF manquantes il
est intéressant d'étudier et de savoir de quelle nature de
non-réponse avons-nous à faire. En fonction de cette nature?
Quelle est la méthode la plus appropriée et la plus possible
à envisager pour le traitement? Ces éclaircissements feront
l'objet de la prochaine partie.
III. Proposition de méthode
La méthodologie de traitement des données
d'enquête est confrontée à plusieurs problèmes qui
sont à la fois d'ordre pratique et théorique. La recherche de
remède à ces difficultés n'est pas une chose aisée.
En effet, le statisticien dans son travail de l'élaboration des
données est confronté à un besoin sans cesse grandissant
des acteurs de la vie économique et sociale. Ce besoin se manifeste par
une pression accrue pour l'obtention des indicateurs de niveau global de
l'activité dans un laps de temps. Cette pression est parfois
accompagnée par une exigence portée sur la qualité des
données que produit le statisticien.
La faiblesse de culture statistique au sein de la plus grande
partie de la population des pays en voie de développement est un
handicap majeur pour la bonne collecte. Ces deux aspects contradictoires (d'une
part une demande accrue pour avoir les statistiques et d'autre part la
méconnaissance de bien fondé de statistiques de la part de la
grande majorité) traduisant la vie statistique des pays de l'Afrique
subsaharienne peuvent parfois entraîner une diminution du taux de
réponse, comme nous l'avons explicité plus haut. Ce
phénomène qui introduirait un faible taux de réponse
amènerait à des estimations biaisées et parfois moins
précises. A ce problème de faible taux de réponse et
d'exposition à des risques d'introduction de biais dans les estimations,
nous comptons proposer une méthode de traitement qui en tiendra compte.
Cette méthode permettrait de réduire les effets de
non-réponse, à défaut de les éradiquer. Nous
présenterons notre méthode d'estimation après une analyse
exploratoire de notre source statistique. Cette analyse nous permettra de
définir les taux de réponse, le type de non-réponse,
etc.
1. Analyse exploratoire
La base de données que nous utiliserons est issue de la
collecte que le service a entreprise pour se procurer des informations sur
l'activité des entreprises. Cette base contient les données nous
permettant d'évaluer la production, la consommation
intermédiaire, l'impôt lié à la production et la
rémunération des salariés des entreprises DSF. Ces
variables d'intérêt sont calculées à l'aide de
formules de passage entre les deux comptabilités. Ces formules ont
été
explicitées dans la partie introductive de ce chapitre.
Les entreprises ont un poids proportionnel à leur chiffre d'affaires sur
celui du total. Ce poids était valable pour toutes les entreprises
recensées, lors du dernier recensement commercial et industriel de 1998,
qui devraient faire partie de l'échantillon. La collecte a lieu chaque
année. Et nous utiliserons les données de 2001 pour
l'illustration de la méthode que nous proposerons au service de
comptabilité. Pour les données issues des collectes de
l'année 2000 et de l'année 1999, on appliquera cette
méthode proposée. Les résultats pour ces années
sont représentés dans l'annexe du document.
A l'issue de la collecte en 2001, un certain nombre
d'entreprise ont pris part à l'interview, mais d'autres ne l'ont pas
fait. Une description de l'état de participation des entreprises se
dessine comme suit :
Tableau 1: Etat de taux de réponse
globale
|
Fréquence
|
Pour cent
|
Valide DSF existe
|
232
|
59,6
|
DSF n'existe pas
|
157
|
40,4
|
Total
|
389
|
100,0
|
Source: INSD, nos calculs.
Sur le plan général, l'analyse de ce tableau
permet de constater qu'en 2001, sur les 389 entreprises qui devraient prendre
part à l'étude cent cinquante sept ont fait défaut
à la collecte ou ont des DSF inutilisables. Cet effectif
représente un taux de non-réponse assez élevé (plus
de 40%). Cette classification concerne le taux de non-réponse totale. En
effet, dans une étude pareille, il est presque impossible d'avoir
affaire à des non-réponses partielles. Car les entreprises
élaborent les DSF qu'elles mettent à la disposition des agents
collecteurs. Ce qui signifie que le document n'est reçu que lorsqu'il
est prêt. Mais cette répartition ne donne que la situation
globale. Or, il serait intéressant de savoir quelle localité a
tendance à tirer ce taux vers le haut. Cette répartition de
niveau de réponse par grandes villes peut se résumer de la sorte
:
Tableau 2: Répartition de
non-réponses par localité1
|
|
|
Disponibilité de DSF
|
Total
|
DSF existe
|
DSF n'existe pas
|
Localité de
|
BANFORA
|
Effectif
|
5
|
4
|
9
|
l'entreprise
|
|
taux de réponse
|
55,6%
|
44,4%
|
100,0%
|
|
BOBO
|
Effectif
|
47
|
34
|
81
|
|
|
taux de réponse
|
58,0%
|
42,0%
|
100,0%
|
|
KDG
|
Effectif
|
4
|
4
|
8
|
|
|
taux de réponse
|
50,0%
|
50,0%
|
100,0%
|
|
Ouaga
|
Effectif
|
176
|
115
|
291
|
|
|
taux de réponse
|
60,5%
|
39,5%
|
100,0%
|
Total
|
|
Effectif
|
232
|
157
|
389
|
|
|
taux de réponse
|
59,6%
|
40,4%
|
100,0%
|
Source: INSD, nos estimations
Il existe une relation entre la localité de
résidence de l'entreprise et sa décision de déposer sa
DSF. Comme l'indique le test de Fisher exact (P-value = 0,891). La
répartition des taux de non-réponse par localité permet de
constater une disparité entre les différentes localités
concernées par l'étude. Ainsi on peut remarquer qu'en dehors de
la ville de Ouagadougou, les autres ont un taux de réponse
supérieur à la moyenne. Parmi ces localités Koudougou
(KDG) vient en tête de liste avec cinquante pour cent de
non-réponse. Il faut signaler que pour un certain nombre d'entreprises,
la variable localité n'était pas renseignée. Pour
celles-ci, nous avons procédé à une interrogation par
proximité. Cette interrogation a consisté à demander aux
personnes ressources la localité de telle ou telle autre entreprise.
Elle nous a permis de connaître la résidence d'une grande partie
des centres élémentaires concernés. Pour ce qui est du
reste (environ 8% de l'ensemble); nous avons décidé de faire une
répartition entre les quatre localités au prorata de leur
effectif dans la base.
Au vu de cette répartition inégale des
non-réponses entre les localités on peut se poser la question
suivante: quel est le lien entre la non-réponse et une localité
particulière? Dit autrement, est ce que la résidence de
l'unité statistique influe sur sa décision de prendre part
à l'étude ?
Pour des besoins d'analyse, nous avons jugé
nécessaire de créer une variable "type". Cette variable renseigne
sur la vocation de l'entreprise. Nous lui avons affectée quatre
modalités. Elle permet par exemple de savoir si les entreprises
pharmaceutiques sont plus réticentes que les entreprises de transport ou
de transit. Cette distinction est résumée dans le tableau qui
suit.
1 Un test de marasculo est fait pour confirmer les proportions.
Un exemple de ce test est présenté dans l'annexe 7.
Tableau 3: Taux de non-réponse selon la
structure des entreprises
|
|
|
Disponibilité de DSF
|
Total
|
DSF existe
|
DSF n'existe pas
|
Type de l'entreprise
|
Entreprise Pharmaceutique
|
Effectif
Taux de réponse
|
47
50,0%
|
47
50,0%
|
94
100,0%
|
Entreprise de Service ou Commerce
|
Effectif
Taux de réponse
|
147
63,1%
|
86
36,9%
|
233
100,0%
|
Industrie
|
Effectif
Taux de réponse
|
28
60,9%
|
18
39,1%
|
46
100,0%
|
Transport ou Transit
|
Effectif
Taux de réponse
|
10
62,5%
|
6
37,5%
|
16
100,0%
|
Total
|
|
Effectif
Taux de réponse
|
232
59,6%
|
157
40,4%
|
389
100,0%
|
Source : INSD, nos calculs
Un test de Chi 2 de dépendance aboutit à une
conclusion d'existence de relation entre le dépôt de DSF d'une
entreprise et la vocation de celle-ci (P-value 1= 0,182). A
l'exception des unités pharmaceutiques, on enregistre un taux de
non-réponse inférieur à 40% au sein des autres types
d'entreprises. Le taux élevé de non-réponse serait donc
fortement influencé par les entreprises pharmaceutiques (les
laboratoires, les grossistes de médicament et les pharmacies). Car les
entreprises de cette structure, qui ne représentent qu'environ 25 pour
cent de l'échantillon (voir annexe1), récoltent cinquante pour
cent de non-réponse en leur sein. Par contre, les entreprises qui
offrent des services (les cabinets d'étude par exemple) ou qui font le
commerce ont le taux de non-réponse le plus faible (36,9%) quoiqu'elles
constituent 59,9% de l'échantillon2.
Après toute cette analyse exploratoire de la base, on
s'aperçoit qu'il s'agit bel et bien d'un cas de non-réponse
totale. Les entreprises pour lesquelles on n'a pas pu évaluer la
production, la consommation intermédiaire, etc. sont celles qui n'ont
pas déposé de déclaration. Ou ces sont des entreprises
pour lesquelles on n'a pas pu disposer de DSF, peu importe la raison qui
justifie le non dépôt. Pour tenir compte de cette carence, nous
proposons de procéder par une repondération.
2. Proposition de méthode de
repondération
Il s'agit, ici, de justifier notre choix qui s'est porté
sur ce type de méthode. Cette justification sera suivie de la
présentation de la façon dont nous comptons le mettre en
pratique.
a. Justification
Comme nous l'avons fait remarquer, la non-réponse que
nous traitons dans la collecte des DSF est de nature totale. Cette
non-réponse concerne plus de quarante pour cent de l'échantillon
constitué par des entreprises. Ce taux faible de réponse est de
nature à affecter les estimateurs calculés sur la base de la
collecte. Pour pallier cette difficulté et cette insuffisance,
1 Il s'agit de la P-value associée à la statistique
de Pearson qui suit un chi 2 de trois degré de liberté.
2 On a effectué un test de proportion de marasculo sur ce
tableau. Les résultats sont dans le dernier annexe.
nous avons plusieurs méthodes en présence. Parmi
celles-ci, notre choix s'est porté sur la méthode de
repondération. En effet, la repondération s'avère facile
à mettre en oeuvre lorsqu'il s'agit de non-réponse totale. Ce
choix se justifie aussi par la nature de la base d'information. Nous n'avons
pas des variables auxiliaires qui puissent permettre d'estimer les grandeurs
économiques (production, CI, Impôt sur production,...) des
entreprises absentes de la collecte. En sus, nous supposons l'existence d'un
phénomène de réponse homogène au sein des groupes.
Cette supposition nous conduit dans cette repondération, à
procéder à la constitution de groupes de réponses
homogènes. L'hypothèse de mécanisme de réponse
homogène est en effet basée sur l'observation de la
répartition des taux de réponse selon les groupes
présentés dans la sous section supra.
Une autre raison est qu'en comptabilité nationale et
dans les études conjoncturelles, dont ces grandeurs peuvent faire
l'objet l'on a recours à l'agrégation des données. Cette
extrapolation (agrégation) incluant les réponses pour estimer le
niveau national des grandeurs, utilise des coefficients. Ces coefficients, que
l'on appelle coefficients d'extrapolation, ne sont autres que les poids que le
sondage aura accordés aux unités. Or ces poids ne sont plus
valides compte tenu de l'influence de la non-réponse. Il faut donc
réajuster ces poids. C'est à ce niveau que la
repondération se révèle nécessaire.
b. Spécification de la
méthode
Dans ce qui suit, nous allons déterminer la
procédure que nous adopterons lors de la mise en oeuvre de la
méthode de repondération.
A cet effet, nous n'allons pas faire directement l'ajustement
des poids des unités répondantes. On procède au
préalable à la définition des groupes de réponses
homogènes. Ces groupes seront définis à l'aide des
probabilités estimées de réponses. C'est donc à
l'intérieur de ces groupes que nous appliquerons l'ajustement au poids
des unités statistiques.
b. 1 Estimations des probabilités de
réponses
Nous allons prédire ces probabilités de
répondre pour chaque entreprise. Ainsi on pourra savoir la chance que
chaque unité aura de répondre en tenant compte des facteurs qui
agissent sur sa décision de répondre. En d'autres termes il
s'agit de modéliser la chance qu'une unité réponde en
tenant compte des informations sur celle-ci. Ces informations que nous
appellerons plus tard les facteurs explicatifs, sont sensés avoir un
effet sur la décision de l'entreprise de participer à la collecte
des DSF. Pour la prédiction des probabilités de réponses
de chaque unité, nous utiliserons un modèle d'estimation de
probabilité approprié, il s'agit d'un modèle
qualitatif.
Dans ces modèles et contrairement aux
régressions linéaires, où est associée à la
réalisation d'un événement une valeur quantitative, on
associe à la réalisation d'un événement sa
probabilité d'apparition. Cette probabilité est toute fois
conditionnelle aux variables exogènes. De façon formelle, on
écrira le modèle suivant:
P i =Prob(yi
=1/xi)=F(xi)
Où la fonction F(.) désigne une fonction
de répartition que l'on choisira, xi et
désignent respectivement le vecteur de variables
explicatives et le vecteur de coefficients du modèle. Il existe un choix
varié de fonctions de répartition mais deux sont les plus
utilisées (la loi normale et la loi logistique). Ainsi, on
désigne le modèle utilisant la loi normale par le modèle
probit et celle qui utilise la loi logistique est appelée logit.
Tout au long de notre étude nous choisirons le
modèle logit pour prédire les probabilités
associées au fait qu'une entreprise dépose sa DSF. Pour ce fait
nous avons créé une variable expliquée (variable
dépendante du modèle) qui prend la valeur "1" lorsque
l'on détient la DSF de l'entreprise. Cette variable prend la valeur
"0" dans le cas échéant. Il faut noter que pour tous les
tests économétriques que nous mettrons en oeuvre, le seuil
théorique est fixé à 5% sauf indication contraire.
Comme toute estimation, il faut des variables explicatives. En
ce qui nous concerne, trois variables ont retenu notre attention. Une sur le
secteur d'activité de l'entreprise, une sur sa localité et la
dernière sur son statut juridique. Nous rappelons que la variable sur le
secteur d'activité de l'entreprise a été
créée par nous. Et pour la renseigner nous avons
procédé par une interrogation par proximité.
Parmi ces variables, deux étaient catégorielles.
Pour les besoins d'études il a été jugé
nécessaire de dichotomiser leurs modalités. Ainsi chaque
modalité est devenue une variable dichotomique (qui prend la valeur 0 ou
1). En effet, cette dichotomisation facilite l'analyse et donne une
cohérence à l'interprétation. On peut ainsi dire que si
l'entreprise est dans telle localité au lieu et à la place de "si
l'entreprise a la valeur 4 de localité". Car cette valeur quatre n'est
qu'une codification. Un autre analyste pourrait affecter à la même
localité le code deux.
Ainsi pour la prédiction des probabilités nous
avons des variables explicatives suivantes :
1' Quatre variables dichotomiques liées à
chacune des quatre localités soumises à l'étude. Ces
variables sont VIOU (qui vaut 1 si l'entreprise est à
Ouagadougou et zéro sinon), VIBO (pour la ville de
Bobo-Dioulasso), VIBA (pour la ville de Banfora) et VIKD (la
ville de Koudougou).
1' Quatre variables correspondant au secteur d'activité
de l'entreprise. On a VIPH qui prend la valeur 1 lorsqu'il s'agit
d'une entreprise pharmaceutique. Ce secteur regroupe les pharmacies et les
grossistes pharmaceutiques. La variable VISC regroupe les entreprises
offrant des services d'études (bureau d'étude par exemple) et les
entreprises commerciales. La variable VIIN rassemble les entreprises
industrielles. Quand à la variable VITT, elle concerne les
unités qui offrent le service de transport, de transit ou de tourisme.
Il s'agit des compagnies de transports, des entreprises de transits et des
agence de voyage et tourisme On rappelle que toutes ces variables sont
dichotomiques. A cet effet, elles prennent l'unité comme valeur lorsque
le critère est respecté et zéro si tel n'est pas le
cas.
1' Et enfin une variable renseignant sur le statut juridique
de l'entreprise. Celle-ci permet de distinguer les unités privées
des unités publiques. Cette variable, Pub, prend la valeur 1
pour les entreprises et les sociétés d'Etat et prend 0 pour tout
autre type d'entreprises.
Pour estimer la probabilité qu'une entreprise
dépose sa DSF compte tenue de la connaissance sur les facteurs
explicatifs de sa décision on utilisera le modèle logit. La
variable expliquée est aussi dichotomique. Il s'agit de la variable
suivante:
?
VDSF i = ??
|
1 si la DSF existe 0 sinon
|
Il s'agit donc d'estimer le modèle suivant: P Prob
VDSF x F x
= = =
( 1/ ) ( ) Où la probabilité vaut la valeur de la
fonction de répartition
VDSFi i i i
de la loi logistique considérée au point et qui
peut s'écrire comme suit:
x i
F ( )
x = i
|
i
e x 1
= ? =
i 1,
1 1
+ +
e e
x x
i i
-
|
2,....,n.
|
Ce modèle permet d'estimer, à l'aide de logit,
la probabilité pour qu'une unité statistique soit
répondante à l'étude compte tenu des informations que l'on
détient sur elle. C'est donc une espérance conditionnelle que
VDSF soit égale à 1 connaissant les valeurs des autres
variables explicatives.
Après estimations on trouve des résultats qui sont
répertoriés dans le tableau ci-dessous :
Tableau 4: Résultat de l'estimation de
probabilités de réponses
VDSF
|
Coefficients
|
Std. Err.
|
Statistiques
|
P-value
|
Intervalle de confiance à 95%
|
|
|
|
|
|
Borne inférieure
|
Borne supérieure
|
VITT
|
0,0442354
|
0,6033469
|
0,07
|
0,942
|
-1,138303
|
1,226774
|
VISC
|
0,0784134
|
0,3355564
|
0,23
|
0,815
|
-0,5792651
|
0,7360918
|
VIPH
|
-0,4476894
|
0,3747968
|
-2,19
|
0,032
|
-1,01202278
|
-0,0868988
|
VIBA
|
0,0910208
|
0,9857771
|
0,09
|
0,926
|
-1,841067
|
2,023109
|
VIBO
|
0,1577487
|
0,7550015
|
2,21
|
0,014
|
0,037524
|
1,012027
|
VIOU
|
0,3017356
|
0,7261064
|
0,42
|
0,678
|
-1,121407
|
1,724878
|
Pub
|
0,1969121
|
0,5172728
|
0,38
|
0,703
|
-0,8169239
|
1,210748
|
Constante
|
0,184638
|
0,7871903
|
0,23
|
0,815
|
-1,358227
|
1,727503
|
Source: INSD, nos estimations
A l'issue de cette estimation par le modèle logit, on
constate qu'au sens statistique seules deux variables explicatives sont
significatives au seuil de 5% : il s'agit de VIPH et VIBO. Ce
qui signifie que statistiquement, ces deux variables ont une influence sur le
fait qu'une unité dépose sa déclaration statistique.
Autrement dit lorsqu'une entreprise est basée à Bobo-Dioulasso,
la chance que celle-ci dépose sa déclaration augmente. Tandis que
la structure pharmaceutique influence négativement la décision de
répondre de l'unité à la collecte. Il est à noter
que deux variables ont été supprimées. Car elles
risquaient d'introduire une colinéarité dans l'estimation. Il
s'agit de variables VIIN et VIKD.
Il vient d'après l'estimation que la probabilité de
réponse est:
+
P V D S F = ? ( 0 , 0 4 4 2 3 5 4 * 0 , 0 7 8 4 1 3 4 *
0 , 4 4 7 6 8 9 4 * 0 , 0 9 1 0 2 0 8 *
V I T T V I S C V I P H V I B A
+ - +
0 , 1 5 7 7 4 8 7 * 0 , 3 0 1 7 3 5 6 * 0 , 1 9 6 9 1 2 1 * 0 ,
1 8 4 6 3 8 ) .
V I B O V I O U P u b
+ + +
Avec ? qui désigne la fonction de répartition de la
loi logistique.
Cette non significativité des autres variables
mérite d'être soumise à des tests. Ces tests et diagnostics
permettront de détecter une présence éventuelle des
"outliers" ou de "leverages" ou d'autres types de problèmes susceptibles
d'affecter la qualité de l'estimation.
b.2 Diagnostics du modèle
Intéressons nous à expliquer le modèle
estimé ci-dessus. Cette explication se fera à l'appui des tests
numériques et graphiques sur les leverages, la distance de Cook, les
résidus de l'estimation et sur d'autres.
Pour les résidus, on s'attachera à
vérifier une éventuelle présence d'observations outliers.
Compte tenu du nombre d'observations, on peut supposer une normalité
asymptotique de ceux-ci. En effet, nous avons plus de trois cent observations.
Ceci permet de supposer que les résidus suivraient asymptotiquement une
distribution normale.
Une observation peut être considérée comme
outlier, si elle a un grand résidu. Dans la pratique la valeur absolue
de résidu standardisé est comparée à deux. Si pour
une observation ce résidu est supérieur en valeur absolue
à deux, on dira alors qu"il s'agit d'une observation outlier. En ce qui
nous concerne nous pouvons le vérifier à l'aide du graphique
suivant:
0 100 200 300 400
ident
Graphique 1: Résidu standard par
entreprise
Source: INSD, nos estimations
L'analyse de ce graphique laisse apparaître une
conclusion assez intéressante. Car elle permet de constater qu'on n'est
pas confronté aux observations outliers. En effet, tous les
résidus sont contenus entre les deux lignes horizontales
délimitées par 2 et -2. Cela signifie qu'aucune des unités
n'a une probabilité de réponse peu commune avec les autres
entreprises compte tenu des facteurs explicatifs. Cette situation pourrait
traduire une bonne disposition des chances de réponses. Quoique
importante, l'absence des outliers ne suffit pas pour conclure une absence de
problème.
Un autre type de problème auquel on peut être
confronté est celui des observations leverages. On dit qu'une
observation est leverage lorsque la valeur de sa puissance (leverage) devit
considérablement de sa moyenne. Ce leverage est donc comparé
à deux fois sa moyenne théorique. De façon formelle on
peut résumer comme suit:
? ?
r
h h r rst
1 Où , et désignent respectivement le leverage, le
résidu de l'estimationet le
i
ii = -? ? ii i i
? ?
rst i
résidu standard de l'individu . Cette valeur est
comparée à 2* i
|
? + ?
k 1
? ?
? ?
n
|
avec nombre de k
|
s variables
|
explivative et n celui de l'observation. Lorsque
ii dépasse cette valeur on parle de leverage
élevé. h
Avant de faire ce test de "puissance élevée" sur
les unités de la base d'informations, nous chercherons d'abord à
déterminer les observations qui pourraient influencer les estimateurs.
Pour ce fait, on utilise la notion de distance de Cook. Compte tenu du nombre
impressionnant des observations de notre base de données, nous n'avons
pas jugé nécessaire de présenter la liste des observations
influentes. On a plutôt créé une variable "compteur". Cette
variable sert à compter le nombre de ces observations. Les
résultats sont consignés dans le tableau ci-dessous:
Tableau 5: Les observations ayant des distances
élevées
Candidats
|
Effectif
|
Pourcentage
|
Non
|
324
|
83,29
|
Oui
|
65
|
16,71
|
Total
|
389
|
100
|
Source: INSD, nos estimations
On constate d'après ce tableau, que sur les 389
observations qui constituent la base soixante cinq sont candidates pour
être des influences. Mais l'analyse la plus pointue des observations
laisse apparaître une absence de leverage. Ce qui signifie que sur
environ les dix sept pour cent des observations qui se
révéleraient high leverage (distance de Cook
élevée), aucune ne possède une puissance
élevée. Cette situation traduirait, que les données
sembleraient être bien classées. Toutefois, la non
significativité de certaines variables pourraient en partie être
due à ces observations qui ont une distance de Cook
élevée. Le test d'autocorélation de DurbinWatson conduit
à une absence dune éventuelle autocorélation entre les
résidus de l'estimation. En effet, la statistique de Durbin-Watson
calculée est de 1,997. Qui se situe dans l'intervalle correspondant
à l'absence d'autocorélation.
Nous nous sommes jusqu'ici intéresser aux
problèmes que peuvent entraîner les observations. Un autre
diagnostic consiste à tester la classification des données
prédites et à vérifier l'adéquation du
modèle avec les données. Pour le critère de classification
de données, nous utiliserons l'indicateur R2 count. C'est un
indicateur de bonne classification. C'est-à-dire pour la quelle la
valeur estimée serait égale à la valeur observée de
la variable d'étude.
Pour sa mise en oeuvre, on crée une variable qui prend
la valeur 1 lorsque la valeur estimée de VDSF> 0,5 et
zéro dans l'autre cas. Ainsi on construit un tableau1
permettant le
calcul de R2 count. L'indicateur peut
être donné de la façon suivante:
1 Ce tableau se trouve dans l'annexe 2, il est intitulé
table de prédiction du modèle.
2 00 11
n n
+
R=
count n
où n désigne (respectivement n 11 )
l'effctif des unités pour lesquelles = 0
VDSF
00
(respectivement 1) et estimée vaut 0 (respectivement
1).
VDSF
Après calcul on trouve R2 count=59, 13%. Ce
résultat signifie que le modèle est à environ plus de
cinquante neuf pour cent bien classifié. En d'autres termes nous avons
une classification de probabilité de réponse de bonne
qualité. L'analyse du tableau de l'annexe 2 permet de connaître
comment le modèle aurait prédit le classement pour chaque
individu de l'échantillon. Le jugement qu'on porte sur le modèle
peut en dépendre. En effet, plus les prédictions du modèle
sont conformes à la réalité plus est positif le jugement
qui lui est fait. Le tableau de l'annexe 2 résume ce test. Ainsi on
constate que la probabilité qu'une unité soit classée
répondante sachant qu'elle a répondu est de 95,26%. Cette
probabilité d'être classée non répondante sachant
que l'unité est non répondante est de 5,73%. Autrement dit, pour
une unité répondante le modèle le classe répondante
dans une très grande proportion. Alors que pour celle non
répondante, il la classe dans une proportion moins importante. L'on peut
lire aussi dans ce tableau que la probabilité pour qu'une unité
soit répondante sachant que sa probabilité prédite
d'être répondante est inférieure à 0,5 est de 55%. A
contrario, une unité dont la probabilité prédite est
supérieure à 0,5 a une probabilité de 0,4 d'être non
répondante. Mais ces chances de réponse ou de non-réponse
ne suffisent pas pour conclure à un bon calibrage du modèle. Pour
ce fait, nous utiliserons le test de Hosmer-Lemeshow.
Le test de Hosmer-Lemeshow est un test d'adéquation du
modèle. Il permet de se rendre compte sur le niveau de calibrage du
modèle qui est soumis à l'étude. C'est donc une
procédure qui consiste à tester l'adéquation entre les
valeurs prédites par le modèle et les valeurs observées de
la variable d'étude. Pour ce faire, on regroupe les individus en
classes1. On calcule une statistique de Hosmer-Lemeshow qui suit un
chi deux. Si la p-value associée à cette statistique est
inférieure au seuil théorique qu'on s'est fixé, on dira
que le modèle ne reflète pas la réalité. A
contrario, si cette p-value est supérieure à cinq pour cent, nous
pouvons affirmer un calibrage du modèle. C'est-à-dire qu'on peut
affirmer, avec un risque de cinq pour cent de se tromper, que le modèle
reflète la réalité (les données
observées).
Le résultat de Goodness of fit Test (Test de Hosmer-
Lemeshow) est répertorié dans le tableau de l'annexe 3 du
document. Dans ce tableau outre le regroupement, on a la p-value
associée à la statistique de Hosmer-Lemeshow. Cette p -
value = 0,8289, forts de ce résultat
nous pouvons affirmer que notre modèle est bien
calibré, qu'il reflète les données dont il prétend
expliquer. Il est à remarquer que l'on ne devrait pas surestimer
l'importance de l'ajustement dans les modèles où la variable
dépendante est dichotomique 2.
b.3 Odds ratio
Le odds ratio est un indicateur qui permet de tester
l'association entre deux variables, l'une étant une variable
d'intérêt et l'autre une variable explicative dans un
modèle CLDV donné. Il se calcule en général sur les
variables dichotomiques. Toutefois, on peut dichotomiser les
1 Pour plus d'amples de renseignement se reporter à
l'annexe 3 du document. Un tableau représente ce regroupement.
2 Gujarati. N. D. (2004) - Econométrie,
4ème édition américaine : Traduction
Par Bernier B., Col. Ouvertures Economiques, De Boeck, Bruxelles.
variables explicatives continues. Pour ce fait, on choisit une
caractéristique de tendance centrale1 comme critère.
Ainsi un odds ratio différent de 1 signifie qu'il y a association entre
les deux variables, un odds ratio égal à 1 signifie que les deux
variables ne sont pas en liaison. Le odds ratio est définis à
partir de rapport entre deux odds, lesquels sont définis ainsi qu'il
suit :
( )
VDSF X
= =
1/ 1
i
( )
VDSF X
= =
1/ 1
i
Odds1
P r
1-P r
p ( )
= =
Odds 2
1/ 0
VDSF X
r i
1 1/ 0
- = =
p VDSF X
r ( )
i
Ainsi le odds ratio peut être donné de la
façon suivante :
Oddsratio
|
=
|
Pr Pr
|
( ) ( ( ) )
VDSF X P VDSF X
= = - = =
1/ 1 / 1 1/ 1
i r i
( ) ( ( ) )
VDSF X P VDSF X
= = - = =
1/ 0 / 1 1/ 0
i r i
|
Après calcul, on trouve des résultats qui
aboutissent à la conclusion selon laquelle toutes les variables ont une
association avec la variable d'étude. Ces résultats sont
présentés dans le tableau qui suit :
Tableau 6: Odds ratio des variable
explicatives
Variables
|
Odds Ratio
|
VITT
|
1,045228
|
VISC
|
1,08157
|
VIPH
|
0,6391031
|
VIBA
|
1,095292
|
VIBO
|
1,570872
|
VIOU
|
1,352204
|
Pub
|
1,217637
|
Source : INSD, nos estimations
Comme on le voit dans le tableau, même si certaines
variables explicatives ne sont pas statistiquement significatives au risque de
cinq pour cent, elles auraient des liens avec la variable d'étude.
C'est-à-dire qu'il y a effectivement une association entre chacune des
variables choisies et la décision de l'entreprise de fournir ou de ne
pas fournir sa DSF. L'on constate que les entreprises pharmaceutiques ont une
propension plus grande à ne pas déposer leurs DSF toute chose
égale par ailleurs. Tandis que les entreprises offrant le service ou les
entreprise commerciales (variable VISC) ont une propension plus grande
à répondre favorable à l'étude.
La première étape de mise en oeuvre de la
méthode de repondération consistait à prédire les
probabilités de réponse aussi bien pour les répondantes
que pour les non répondantes. L'on devait se rassurer que ces
probabilités pouvaient être acceptées (pouvaient
refléter les données). Ce souci a nécessité des
tests et des diagnostics. A présent, on va ordonner ces chances de
réponse et on les regroupera en classe de réponses
homogènes.
1 La moyenne lorsque la variable suit une distribution normale
et dans le cas échéant on conseille la médiane. La
variable dichotomique prend zéro si la valeur de la variable
concernée est inférieure à la caractéristique sinon
elle prend un.
b.4 Groupes de réponses
Dans cette section l'idée motrice est de trouver un
regroupement des unités en des classes. Ce regroupement se fait de telle
sorte que les classes puissent être pertinentes pour l'analyse. De plus
ces classes doivent être basées sur les probabilités
prédites plus haut. Il s'agit donc de construire des groupes à
partir des probabilités qu'on a prédites avec le modèle
utilisé dans la section précédente. Pour notre part nous
utiliserons cinq classes de réponses. Ces classes sont définies
à partir des quintiles de la probabilité de réponse. En
effet, d'après Laurent Donzé - enseignant à
l'université de Fribourg (Suisse) - il est préférable lors
de construction de groupe de réponses homogènes de choisir un
nombre de classe limité. Pour cela il propose de "former cinq à
six classes à partir des probabilités estimées, en prenant
par exemple les quintiles1 ".
Nous avons constitué nos groupes de réponse
homogènes sur les quintiles des probabilités que nous avons
estimées pour les unités qui constituent la banque
d'informations. Mais ces groupes ne respectent pas toutes les hypothèses
de groupes homogènes. En effet, il existait deux classes qui ont la
même probabilité de réponse2. Or une des
hypothèses est qu'à l'intérieur des classes on ait des
probabilités identiques de réponses; cette probabilité
doit être différente selon les classes. Nous avons donc
utilisé quatre classes de réponse au lieu de cinq. Ces groupes
sont consignés dans le tableau qui suit :
Tableau 7: Caractéristique de groupe de
réponse homogène pour la repondération
N° de groupe
|
Probabilités
|
Observations manquantes
|
Observations non Manquantes
|
Observations totales
|
1
|
0,5654
|
49
|
48
|
97
|
2
|
0,6296
|
41
|
56
|
97
|
3
|
0,6376
|
36
|
61
|
97
|
4
|
0,6817
|
31
|
67
|
98
|
|
Total
|
157
|
232
|
389
|
Source: INSD, nos estimations
On constate que les probabilités estimées de
réponses varient avec les classes ce qui signifie que les chances de
réponses sont différentes d'une classe à une autre. C'est
à l'intérieur de ces groupes que nous allons procéder
à la repondération qui donne lieu à l'estimation de la
production, de la consommation intermédiaire, de l'impôt sur
production et de la rémunération des salariés des
entreprises.
1 Donzé L. (2003) - Théorie et pratique des
enquêtes : analyse de données d'une enquête complexe,
Université de Fribourg, Fribourg, Suisse.
2 Se référer à l'annexe 4 du document.
|