WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Le traitement des données manquantes pour l'établissement des comptes économiques du Burkina Faso

( Télécharger le fichier original )
par Lassana DOUCOURE
ENSEA Abidjan - Ingénieur Statistiques 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 2. METHODOLOGIE D'ESTIMATION DES D ECLARATIONS MANQUANTES

La théorie statistique prévoit plusieurs méthodes pour l'estimation des valeurs des individus qui font défaut à l'observation. Ainsi l'on rencontre plusieurs pratiques dans les services statistiques. Ces pratiques sont plus ou moins basées sur l'intuition et le bon sens, plutôt que sur une théorie proprement dite. Surtout quand il s'agit des instituts des pays en voie de développement. Pourtant, ce ne sont pas les méthodes les plus robustes qui manquent en la matière.

Dans ce chapitre, l'accent sera mis sur la méthodologie que nous utiliserons dans notre étude. Mais, nous commencerons par une présentation des méthodes d'estimation que l'INSD du Burkina Faso utilise. Cette partie sera suivie d'une critique de la méthode d'estimation utilisée jusque là par le service de comptabilité nationale de l'INSD.

La collecte des DSF constitue une étape importante dans l'élaboration des comptes des sociétés non financières. A cet effet on entreprend des collectes périodiques dans les principales villes où l'activité économique est intense. Ces villes sont Ouagadougou, Bobo-Dioulasso, Koudougou et Banfora. Les renseignements contenus dans les DSF sont saisis à l'aide d'un micro programme informatique que le service de comptabilité nationale a mis en place. Ce programme tient compte de l'architecture des tableaux contenus dans les DSF. Et à travers un ensemble de règles bien définies par un manuel d'élaboration des comptes, on passe des données des entreprises (selon le plan SYSCOA1) aux rubriques de la comptabilité nationale.

A l'aide de ces formules de passage, on calcule les données individuelles des entreprises comme le veut la comptabilité nationale. Ainsi la production prendra en compte en outre la production réalisée par l'entreprise (ventes de produits ou de services produits par l'entreprise, production stockée, immobilisée ou produits accessoires), les ventes des marchandises desquelles il faut retrancher les achats de marchandises. La valeur algébrique obtenue représente ainsi la production totale de l'entreprise selon l'optique de la comptabilité nationale. Ce formalisme peut être traduit par la formule suivante :

Pdt = PdtStk + PdtImm +PdtsAcc + Vtemdse + VtePdtsFabr - Ach mdse + TrSvc Vend.

Où les termes désignent respectivement, et dans l'ordre de leur apparition dans la formule, la production totale de l'entreprise, la partie de la production stockée, celle immobilisée, les produits accessoires, la vente de marchandises, la vente des produits fabriqués, les achats de marchandises et les travaux et services qu'aura vendus l'entreprise.

Lorsqu'il s'agit d'une entreprise commerciale, la production est évaluée par la marge brute. C'est-à-dire la différence entre les ventes et les achats de marchandises.

1SYSCOA: Système Comptable ouest africain, c'est le système de comptabilité que utilisent les pays membres de l'UEMOA.

De cette même règle on évalue la consommation intermédiaire de l'unité soumise à l'étude par les formules de passage entre ces deux types de comptabilité. Cette formule est la suivante :

CI = AchMat1 + Tsprt + SvcExtr + FrechDev + AutAch ? ÄStk. Les termes de cette équation se définissent comme suit:

CI: Consommation Intermédiaire;

AchMat1: Achat de matières premières;

Tsprt: Coût de Transport;

SvcExtr: Services Extérieurs;

FrechDev: Frais de recherche et de développement c'est-à-dire les créations, les apports et les acquisitions;

AutAch: Autres achats et

ÄStk: Variation de stocks de matières premières et des autres achats.

Quand à la rémunération des salariés, elle correspond au poste « frais du personnel » du SYSCOA. C'est donc une autre dénomination qui désigne le montant que l'unité de production accorde à son personnel en contrepartie du service qu'il fournit.

Après ces calculs de passage entre les deux comptabilités, on obtient les indicateurs calculés pour chaque entreprise ayant pris part à l'étude. Mais un certain nombre de celles-ci a préféré s'abstenir. C'est pour ces dernières que nous tentons de trouver des méthodes qui permettent de réduire le biais qu'elles introduisent dans le calcul des agrégats.

I. Méthode utilisée par l'INSD

C'est une méthode basée sur le taux de croissance de la production des entreprises d'une même branche au cours des 5 dernières années ayant précédé l'année en cours.

Cette méthode suppose que les entreprises appartenant à la même branche d'activité ont des taux de croissance similaires. Ainsi la production constitue - t - elle l'élément déterminant de l'estimation de toutes les grandeurs de la comptabilité prises en compte lors de l'établissement des comptes des sociétés non financières.

Par branche d'activité, il est constitué un échantillon d'entreprises ayant transmis régulièrement leurs DSF sur la période considérée. Cet échantillon doit en outre être représentatif de l'ensemble de la branche ; en d'autres termes il doit représenter au moins quatre vingt pour cent (80%) de la production totale de la branche dont il est issu. On calcule ensuite des taux de croissance moyens de la production pour l'ensemble de la branche à partir de l'échantillon.

Pour une entreprise donnée et en fonction des données disponibles sur cette entreprise, on utilise les taux de croissance calculés pour estimer sa production.

Pour l'estimation de la consommation intermédiaire, il est d'abord calculé un ratio CI Pdt pour chaque entreprise ayant déposé une DSF au cours de la période de référence.

Ensuite on constitue, par branche d'activité, un échantillon d'entreprises dont les ratios CI Pdt
sont assez stables sur la période. On calcule un ratio moyen à partir de cet échantillon, et par

branche d'activité on applique cette moyenne CI Pdt à la production estimée pour avoir les CI estimées. On déduit la valeur ajoutée par solde.

Pour l'estimation de rémunération des salariés (RS) et des impôts sur la production, on procède de la même façon que précédemment, mais selon le niveau, on calcule des moyennes RS/VA ou I/VA.

Il faut souligner que cette méthode était surtout utilisée dans l'ancienne méthodologie d'élaboration des comptes sous le SCN 68 et aussi dans le cadre de l'élaboration des comptes de l'année de base 1999 sous le SCN 93 à l'aide du module ERETES. Pour l'élaboration des comptes des années courantes du module ERETES qui est en cours, l'estimation des agrégats des entreprises du secteur moderne non DSF se fait directement au sein du module à l'étape des comptes de branches. Toutefois, cette estimation gagnerait à être effectuée en dehors du module pour permettre d'aller plus vite dans les travaux internes au module ERETES.

II. Critique de la méthode présentée

La méthode explicitée ci-dessus a pour avantage de permettre de combler les données manquantes. A cet effet, elle permet de faire une analyse avec une base relativement complète. Cette façon peut être considérée comme une imputation simple. C'est-à-dire que l'on donne à toutes les observations manquantes la valeur commune censée être leur valeur si elles avaient participé à l'étude.

S'il est vrai qu'elle permet d'avoir les données artificielles pour compenser le biais que pourraient introduire les non-réponses, il n'en demeure pas moins vrai qu'elle ne prend pas en compte ni la nature de non-réponse ni le type de mécanisme qui pourrait occasionner cette non- réponse. En effet, la méthode semble être une méthode d'imputation qui s'applique aussi bien à la non-réponse totale qu'à la no n-réponse partielle. Or, on sait que ces méthodes ne sont réellement efficaces que lorsqu'il s'agit d'une non-réponse partielle. Toutefois, même en présence de cette nature de non-réponse, il est tout à fait préférable de connaître le type de processus qui aurait généré la non-réponse. A défaut de connaître ce type, l'on suppose que les données manquantes suivent un processus que l'on doit tester.

Confondre la non-réponse totale avec celle partielle et les traiter de la même manière sont susceptibles de porter préjudice à la qualité de données et partant celle des résultats qui seront assortis de l'étude. Car cela revient à considérer que l'individu qui n'a pas répondu à une moindre question de l'étude apporte la même perte d'information que celui qui refuse d'y participer. Par exemple, dans l'estimation de la production, même si l'entreprise n'a pas participé à la collecte, il suffit d'avoir une information sur son existence. Si tel est le cas sa production sera égale à la production estimée, de même que celle qui n'aurait pas répondu aux variables permettant d'évaluer sa production mais qui aura toutefois participé aux autres questions.

En cas de non-réponse totale, il faut redéfinir les poids que le sondage aurait accordés aux unités statistiques qui devaient prendre part à l'interview. Car les poids de ces unités ne tiennent plus et ne peuvent plus être utilisés pour extrapoler les données sur l'ensemble de la population. Or, en comptabilité nationale, les données n'étant publiées que pour le pays, cette extrapolation ne doit en aucune manière être négligée. On se rend compte que la procédure développée dans la première partie de ce chapitre ne prend pas en compte cette nécessité de redéfinition des poids des unités.

Cette méthode utilise les données d'une autre enquête ce qui permet d'avoir d'autres sources de traitement. Mais dans une économie ou les entreprises se créent et disparaissent aussi rapidement, il peut être non cohérent d'utiliser les données provenant d'une enquête lointaine dans le temps (de plus de dix ans par exemple). Car la démographie instable des entreprises fait appelle à une veille statistique et sa non prise en compte risque de rendre incohérentes les estimations. En effet, il est possible d'utiliser une entreprise dans le calcul de ratio et des taux de croissance alors que cette entreprise a disparu, ou a été délocalisée ou tout simplement a changé d'activité principale. En plus c'est une méthode d'imputation ponctuelle appliquée aux données manquantes sans tenir comptes de leur type (MCAR, NMAR ou MAR) ou de leur nature (partielle ou totale).

L'objectif n'est pas de donner des estimations dont il est difficile - si ce n'est pas impossible - de mesurer le biais ou de donner une formule de la variance. Il s'agit plutôt de compenser les carences d'informations avec des méthodes assez simples et faciles à mettre en oeuvre. Le critère de choix de ces méthodes reste toutefois la traduction de la réalité le plus fidèlement possible. C'est pourquoi pour mieux faire l'estimation des DSF manquantes il est intéressant d'étudier et de savoir de quelle nature de non-réponse avons-nous à faire. En fonction de cette nature? Quelle est la méthode la plus appropriée et la plus possible à envisager pour le traitement? Ces éclaircissements feront l'objet de la prochaine partie.

III. Proposition de méthode

La méthodologie de traitement des données d'enquête est confrontée à plusieurs problèmes qui sont à la fois d'ordre pratique et théorique. La recherche de remède à ces difficultés n'est pas une chose aisée. En effet, le statisticien dans son travail de l'élaboration des données est confronté à un besoin sans cesse grandissant des acteurs de la vie économique et sociale. Ce besoin se manifeste par une pression accrue pour l'obtention des indicateurs de niveau global de l'activité dans un laps de temps. Cette pression est parfois accompagnée par une exigence portée sur la qualité des données que produit le statisticien.

La faiblesse de culture statistique au sein de la plus grande partie de la population des pays en voie de développement est un handicap majeur pour la bonne collecte. Ces deux aspects contradictoires (d'une part une demande accrue pour avoir les statistiques et d'autre part la méconnaissance de bien fondé de statistiques de la part de la grande majorité) traduisant la vie statistique des pays de l'Afrique subsaharienne peuvent parfois entraîner une diminution du taux de réponse, comme nous l'avons explicité plus haut. Ce phénomène qui introduirait un faible taux de réponse amènerait à des estimations biaisées et parfois moins précises. A ce problème de faible taux de réponse et d'exposition à des risques d'introduction de biais dans les estimations, nous comptons proposer une méthode de traitement qui en tiendra compte. Cette méthode permettrait de réduire les effets de non-réponse, à défaut de les éradiquer. Nous présenterons notre méthode d'estimation après une analyse exploratoire de notre source statistique. Cette analyse nous permettra de définir les taux de réponse, le type de non-réponse, etc.

1. Analyse exploratoire

La base de données que nous utiliserons est issue de la collecte que le service a entreprise pour se procurer des informations sur l'activité des entreprises. Cette base contient les données nous permettant d'évaluer la production, la consommation intermédiaire, l'impôt lié à la production et la rémunération des salariés des entreprises DSF. Ces variables d'intérêt sont calculées à l'aide de formules de passage entre les deux comptabilités. Ces formules ont été

explicitées dans la partie introductive de ce chapitre. Les entreprises ont un poids proportionnel à leur chiffre d'affaires sur celui du total. Ce poids était valable pour toutes les entreprises recensées, lors du dernier recensement commercial et industriel de 1998, qui devraient faire partie de l'échantillon. La collecte a lieu chaque année. Et nous utiliserons les données de 2001 pour l'illustration de la méthode que nous proposerons au service de comptabilité. Pour les données issues des collectes de l'année 2000 et de l'année 1999, on appliquera cette méthode proposée. Les résultats pour ces années sont représentés dans l'annexe du document.

A l'issue de la collecte en 2001, un certain nombre d'entreprise ont pris part à l'interview, mais d'autres ne l'ont pas fait. Une description de l'état de participation des entreprises se dessine comme suit :

Tableau 1: Etat de taux de réponse globale

 

Fréquence

Pour cent

Valide DSF existe

232

59,6

DSF n'existe pas

157

40,4

Total

389

100,0

Source: INSD, nos calculs.

Sur le plan général, l'analyse de ce tableau permet de constater qu'en 2001, sur les 389 entreprises qui devraient prendre part à l'étude cent cinquante sept ont fait défaut à la collecte ou ont des DSF inutilisables. Cet effectif représente un taux de non-réponse assez élevé (plus de 40%). Cette classification concerne le taux de non-réponse totale. En effet, dans une étude pareille, il est presque impossible d'avoir affaire à des non-réponses partielles. Car les entreprises élaborent les DSF qu'elles mettent à la disposition des agents collecteurs. Ce qui signifie que le document n'est reçu que lorsqu'il est prêt. Mais cette répartition ne donne que la situation globale. Or, il serait intéressant de savoir quelle localité a tendance à tirer ce taux vers le haut. Cette répartition de niveau de réponse par grandes villes peut se résumer de la sorte :

Tableau 2: Répartition de non-réponses par localité1

 
 
 

Disponibilité de DSF

Total

DSF existe

DSF n'existe
pas

Localité de

BANFORA

Effectif

5

4

9

l'entreprise

 

taux de réponse

55,6%

44,4%

100,0%

 

BOBO

Effectif

47

34

81

 
 

taux de réponse

58,0%

42,0%

100,0%

 

KDG

Effectif

4

4

8

 
 

taux de réponse

50,0%

50,0%

100,0%

 

Ouaga

Effectif

176

115

291

 
 

taux de réponse

60,5%

39,5%

100,0%

Total

 

Effectif

232

157

389

 
 

taux de réponse

59,6%

40,4%

100,0%

Source: INSD, nos estimations

Il existe une relation entre la localité de résidence de l'entreprise et sa décision de déposer sa DSF. Comme l'indique le test de Fisher exact (P-value = 0,891). La répartition des taux de non-réponse par localité permet de constater une disparité entre les différentes localités concernées par l'étude. Ainsi on peut remarquer qu'en dehors de la ville de Ouagadougou, les autres ont un taux de réponse supérieur à la moyenne. Parmi ces localités Koudougou (KDG) vient en tête de liste avec cinquante pour cent de non-réponse. Il faut signaler que pour un certain nombre d'entreprises, la variable localité n'était pas renseignée. Pour celles-ci, nous avons procédé à une interrogation par proximité. Cette interrogation a consisté à demander aux personnes ressources la localité de telle ou telle autre entreprise. Elle nous a permis de connaître la résidence d'une grande partie des centres élémentaires concernés. Pour ce qui est du reste (environ 8% de l'ensemble); nous avons décidé de faire une répartition entre les quatre localités au prorata de leur effectif dans la base.

Au vu de cette répartition inégale des non-réponses entre les localités on peut se poser la question suivante: quel est le lien entre la non-réponse et une localité particulière? Dit autrement, est ce que la résidence de l'unité statistique influe sur sa décision de prendre part à l'étude ?

Pour des besoins d'analyse, nous avons jugé nécessaire de créer une variable "type". Cette variable renseigne sur la vocation de l'entreprise. Nous lui avons affectée quatre modalités. Elle permet par exemple de savoir si les entreprises pharmaceutiques sont plus réticentes que les entreprises de transport ou de transit. Cette distinction est résumée dans le tableau qui suit.

1 Un test de marasculo est fait pour confirmer les proportions. Un exemple de ce test est présenté dans l'annexe 7.

Tableau 3: Taux de non-réponse selon la structure des entreprises

 
 
 

Disponibilité de DSF

Total

DSF existe

DSF n'existe
pas

Type de l'entreprise

Entreprise Pharmaceutique

Effectif

Taux de réponse

47

50,0%

47

50,0%

94

100,0%

Entreprise de Service ou Commerce

Effectif

Taux de réponse

147

63,1%

86

36,9%

233

100,0%

Industrie

Effectif

Taux de réponse

28

60,9%

18

39,1%

46

100,0%

Transport ou Transit

Effectif

Taux de réponse

10

62,5%

6

37,5%

16

100,0%

Total

 

Effectif

Taux de réponse

232

59,6%

157

40,4%

389

100,0%

Source : INSD, nos calculs

Un test de Chi 2 de dépendance aboutit à une conclusion d'existence de relation entre le dépôt de DSF d'une entreprise et la vocation de celle-ci (P-value 1= 0,182). A l'exception des unités pharmaceutiques, on enregistre un taux de non-réponse inférieur à 40% au sein des autres types d'entreprises. Le taux élevé de non-réponse serait donc fortement influencé par les entreprises pharmaceutiques (les laboratoires, les grossistes de médicament et les pharmacies). Car les entreprises de cette structure, qui ne représentent qu'environ 25 pour cent de l'échantillon (voir annexe1), récoltent cinquante pour cent de non-réponse en leur sein. Par contre, les entreprises qui offrent des services (les cabinets d'étude par exemple) ou qui font le commerce ont le taux de non-réponse le plus faible (36,9%) quoiqu'elles constituent 59,9% de l'échantillon2.

Après toute cette analyse exploratoire de la base, on s'aperçoit qu'il s'agit bel et bien d'un cas de non-réponse totale. Les entreprises pour lesquelles on n'a pas pu évaluer la production, la consommation intermédiaire, etc. sont celles qui n'ont pas déposé de déclaration. Ou ces sont des entreprises pour lesquelles on n'a pas pu disposer de DSF, peu importe la raison qui justifie le non dépôt. Pour tenir compte de cette carence, nous proposons de procéder par une repondération.

2. Proposition de méthode de repondération

Il s'agit, ici, de justifier notre choix qui s'est porté sur ce type de méthode. Cette justification sera suivie de la présentation de la façon dont nous comptons le mettre en pratique.

a. Justification

Comme nous l'avons fait remarquer, la non-réponse que nous traitons dans la collecte des DSF est de nature totale. Cette non-réponse concerne plus de quarante pour cent de l'échantillon constitué par des entreprises. Ce taux faible de réponse est de nature à affecter les estimateurs calculés sur la base de la collecte. Pour pallier cette difficulté et cette insuffisance,

1 Il s'agit de la P-value associée à la statistique de Pearson qui suit un chi 2 de trois degré de liberté.

2 On a effectué un test de proportion de marasculo sur ce tableau. Les résultats sont dans le dernier annexe.

nous avons plusieurs méthodes en présence. Parmi celles-ci, notre choix s'est porté sur la méthode de repondération. En effet, la repondération s'avère facile à mettre en oeuvre lorsqu'il s'agit de non-réponse totale. Ce choix se justifie aussi par la nature de la base d'information. Nous n'avons pas des variables auxiliaires qui puissent permettre d'estimer les grandeurs économiques (production, CI, Impôt sur production,...) des entreprises absentes de la collecte. En sus, nous supposons l'existence d'un phénomène de réponse homogène au sein des groupes. Cette supposition nous conduit dans cette repondération, à procéder à la constitution de groupes de réponses homogènes. L'hypothèse de mécanisme de réponse homogène est en effet basée sur l'observation de la répartition des taux de réponse selon les groupes présentés dans la sous section supra.

Une autre raison est qu'en comptabilité nationale et dans les études conjoncturelles, dont ces grandeurs peuvent faire l'objet l'on a recours à l'agrégation des données. Cette extrapolation (agrégation) incluant les réponses pour estimer le niveau national des grandeurs, utilise des coefficients. Ces coefficients, que l'on appelle coefficients d'extrapolation, ne sont autres que les poids que le sondage aura accordés aux unités. Or ces poids ne sont plus valides compte tenu de l'influence de la non-réponse. Il faut donc réajuster ces poids. C'est à ce niveau que la repondération se révèle nécessaire.

b. Spécification de la méthode

Dans ce qui suit, nous allons déterminer la procédure que nous adopterons lors de la mise en oeuvre de la méthode de repondération.

A cet effet, nous n'allons pas faire directement l'ajustement des poids des unités répondantes. On procède au préalable à la définition des groupes de réponses homogènes. Ces groupes seront définis à l'aide des probabilités estimées de réponses. C'est donc à l'intérieur de ces groupes que nous appliquerons l'ajustement au poids des unités statistiques.

b. 1 Estimations des probabilités de réponses

Nous allons prédire ces probabilités de répondre pour chaque entreprise. Ainsi on pourra savoir la chance que chaque unité aura de répondre en tenant compte des facteurs qui agissent sur sa décision de répondre. En d'autres termes il s'agit de modéliser la chance qu'une unité réponde en tenant compte des informations sur celle-ci. Ces informations que nous appellerons plus tard les facteurs explicatifs, sont sensés avoir un effet sur la décision de l'entreprise de participer à la collecte des DSF. Pour la prédiction des probabilités de réponses de chaque unité, nous utiliserons un modèle d'estimation de probabilité approprié, il s'agit d'un modèle qualitatif.

Dans ces modèles et contrairement aux régressions linéaires, où est associée à la réalisation d'un événement une valeur quantitative, on associe à la réalisation d'un événement sa probabilité d'apparition. Cette probabilité est toute fois conditionnelle aux variables exogènes. De façon formelle, on écrira le modèle suivant:

P i =Prob(yi =1/xi)=F(xi)

Où la fonction F(.) désigne une fonction de répartition que l'on choisira, xi et

désignent respectivement le vecteur de variables explicatives et le vecteur de coefficients du modèle. Il existe un choix varié de fonctions de répartition mais deux sont les plus utilisées (la loi normale et la loi logistique). Ainsi, on désigne le modèle utilisant la loi normale par le modèle probit et celle qui utilise la loi logistique est appelée logit.

Tout au long de notre étude nous choisirons le modèle logit pour prédire les probabilités associées au fait qu'une entreprise dépose sa DSF. Pour ce fait nous avons créé une variable expliquée (variable dépendante du modèle) qui prend la valeur "1" lorsque l'on détient la DSF de l'entreprise. Cette variable prend la valeur "0" dans le cas échéant. Il faut noter que pour tous les tests économétriques que nous mettrons en oeuvre, le seuil théorique est fixé à 5% sauf indication contraire.

Comme toute estimation, il faut des variables explicatives. En ce qui nous concerne, trois variables ont retenu notre attention. Une sur le secteur d'activité de l'entreprise, une sur sa localité et la dernière sur son statut juridique. Nous rappelons que la variable sur le secteur d'activité de l'entreprise a été créée par nous. Et pour la renseigner nous avons procédé par une interrogation par proximité.

Parmi ces variables, deux étaient catégorielles. Pour les besoins d'études il a été jugé nécessaire de dichotomiser leurs modalités. Ainsi chaque modalité est devenue une variable dichotomique (qui prend la valeur 0 ou 1). En effet, cette dichotomisation facilite l'analyse et donne une cohérence à l'interprétation. On peut ainsi dire que si l'entreprise est dans telle localité au lieu et à la place de "si l'entreprise a la valeur 4 de localité". Car cette valeur quatre n'est qu'une codification. Un autre analyste pourrait affecter à la même localité le code deux.

Ainsi pour la prédiction des probabilités nous avons des variables explicatives suivantes :

1' Quatre variables dichotomiques liées à chacune des quatre localités soumises à l'étude. Ces variables sont VIOU (qui vaut 1 si l'entreprise est à Ouagadougou et zéro sinon), VIBO (pour la ville de Bobo-Dioulasso), VIBA (pour la ville de Banfora) et VIKD (la ville de Koudougou).

1' Quatre variables correspondant au secteur d'activité de l'entreprise. On a VIPH qui prend la valeur 1 lorsqu'il s'agit d'une entreprise pharmaceutique. Ce secteur regroupe les pharmacies et les grossistes pharmaceutiques. La variable VISC regroupe les entreprises offrant des services d'études (bureau d'étude par exemple) et les entreprises commerciales. La variable VIIN rassemble les entreprises industrielles. Quand à la variable VITT, elle concerne les unités qui offrent le service de transport, de transit ou de tourisme. Il s'agit des compagnies de transports, des entreprises de transits et des agence de voyage et tourisme On rappelle que toutes ces variables sont dichotomiques. A cet effet, elles prennent l'unité comme valeur lorsque le critère est respecté et zéro si tel n'est pas le cas.

1' Et enfin une variable renseignant sur le statut juridique de l'entreprise. Celle-ci permet de distinguer les unités privées des unités publiques. Cette variable, Pub, prend la valeur 1 pour les entreprises et les sociétés d'Etat et prend 0 pour tout autre type d'entreprises.

Pour estimer la probabilité qu'une entreprise dépose sa DSF compte tenue de la connaissance sur les facteurs explicatifs de sa décision on utilisera le modèle logit. La variable expliquée est aussi dichotomique. Il s'agit de la variable suivante:

?

VDSF i = ??

1 si la DSF existe 0 sinon

Il s'agit donc d'estimer le modèle suivant: P Prob VDSF x F x

= = =

( 1/ ) ( ) Où la probabilité vaut la valeur de la fonction de répartition

VDSFi i i i

de la loi logistique considérée au point et qui peut s'écrire comme suit:

x i

F ( )

x = i

i

e x 1

= ? =

i 1,

1 1

+ +

e e

x x

i i

-

2,....,n.

Ce modèle permet d'estimer, à l'aide de logit, la probabilité pour qu'une unité statistique soit répondante à l'étude compte tenu des informations que l'on détient sur elle. C'est donc une espérance conditionnelle que VDSF soit égale à 1 connaissant les valeurs des autres variables explicatives.

Après estimations on trouve des résultats qui sont répertoriés dans le tableau ci-dessous :

Tableau 4: Résultat de l'estimation de probabilités de réponses

VDSF

Coefficients

Std. Err.

Statistiques

P-value

Intervalle de confiance à 95%

 
 
 
 
 

Borne inférieure

Borne supérieure

VITT

0,0442354

0,6033469

0,07

0,942

-1,138303

1,226774

VISC

0,0784134

0,3355564

0,23

0,815

-0,5792651

0,7360918

VIPH

-0,4476894

0,3747968

-2,19

0,032

-1,01202278

-0,0868988

VIBA

0,0910208

0,9857771

0,09

0,926

-1,841067

2,023109

VIBO

0,1577487

0,7550015

2,21

0,014

0,037524

1,012027

VIOU

0,3017356

0,7261064

0,42

0,678

-1,121407

1,724878

Pub

0,1969121

0,5172728

0,38

0,703

-0,8169239

1,210748

Constante

0,184638

0,7871903

0,23

0,815

-1,358227

1,727503

Source: INSD, nos estimations

A l'issue de cette estimation par le modèle logit, on constate qu'au sens statistique seules deux variables explicatives sont significatives au seuil de 5% : il s'agit de VIPH et VIBO. Ce qui signifie que statistiquement, ces deux variables ont une influence sur le fait qu'une unité dépose sa déclaration statistique. Autrement dit lorsqu'une entreprise est basée à Bobo-Dioulasso, la chance que celle-ci dépose sa déclaration augmente. Tandis que la structure pharmaceutique influence négativement la décision de répondre de l'unité à la collecte. Il est à noter que deux variables ont été supprimées. Car elles risquaient d'introduire une colinéarité dans l'estimation. Il s'agit de variables VIIN et VIKD.

Il vient d'après l'estimation que la probabilité de réponse est:

+

P V D S F = ? ( 0 , 0 4 4 2 3 5 4 * 0 , 0 7 8 4 1 3 4 * 0 , 4 4 7 6 8 9 4 * 0 , 0 9 1 0 2 0 8 *

V I T T V I S C V I P H V I B A

+ - +

0 , 1 5 7 7 4 8 7 * 0 , 3 0 1 7 3 5 6 * 0 , 1 9 6 9 1 2 1 * 0 , 1 8 4 6 3 8 ) .

V I B O V I O U P u b

+ + +

Avec ? qui désigne la fonction de répartition de la loi logistique.

Cette non significativité des autres variables mérite d'être soumise à des tests. Ces tests et diagnostics permettront de détecter une présence éventuelle des "outliers" ou de "leverages" ou d'autres types de problèmes susceptibles d'affecter la qualité de l'estimation.

b.2 Diagnostics du modèle

Intéressons nous à expliquer le modèle estimé ci-dessus. Cette explication se fera à l'appui des tests numériques et graphiques sur les leverages, la distance de Cook, les résidus de l'estimation et sur d'autres.

Pour les résidus, on s'attachera à vérifier une éventuelle présence d'observations outliers. Compte tenu du nombre d'observations, on peut supposer une normalité asymptotique de ceux-ci. En effet, nous avons plus de trois cent observations. Ceci permet de supposer que les résidus suivraient asymptotiquement une distribution normale.

Une observation peut être considérée comme outlier, si elle a un grand résidu. Dans la pratique la valeur absolue de résidu standardisé est comparée à deux. Si pour une observation ce résidu est supérieur en valeur absolue à deux, on dira alors qu"il s'agit d'une observation outlier. En ce qui nous concerne nous pouvons le vérifier à l'aide du graphique suivant:

0 100 200 300 400

ident

Graphique 1: Résidu standard par entreprise

Source: INSD, nos estimations

L'analyse de ce graphique laisse apparaître une conclusion assez intéressante. Car elle permet de constater qu'on n'est pas confronté aux observations outliers. En effet, tous les résidus sont contenus entre les deux lignes horizontales délimitées par 2 et -2. Cela signifie qu'aucune des unités n'a une probabilité de réponse peu commune avec les autres entreprises compte tenu des facteurs explicatifs. Cette situation pourrait traduire une bonne disposition des chances de réponses. Quoique importante, l'absence des outliers ne suffit pas pour conclure une absence de problème.

Un autre type de problème auquel on peut être confronté est celui des observations leverages. On dit qu'une observation est leverage lorsque la valeur de sa puissance (leverage) devit considérablement de sa moyenne. Ce leverage est donc comparé à deux fois sa moyenne théorique. De façon formelle on peut résumer comme suit:

? ?

r

h h r rst

1 Où , et désignent respectivement le leverage, le résidu de l'estimationet le

i

ii = -? ? ii i i

? ?

rst i

résidu standard de l'individu . Cette valeur est comparée à 2* i

? + ?

k 1

? ?

? ?

n

avec nombre de k

s variables

explivative et n celui de l'observation. Lorsque ii dépasse cette valeur on parle de leverage élevé.
h

Avant de faire ce test de "puissance élevée" sur les unités de la base d'informations, nous chercherons d'abord à déterminer les observations qui pourraient influencer les estimateurs. Pour ce fait, on utilise la notion de distance de Cook. Compte tenu du nombre impressionnant des observations de notre base de données, nous n'avons pas jugé nécessaire de présenter la liste des observations influentes. On a plutôt créé une variable "compteur". Cette variable sert à compter le nombre de ces observations. Les résultats sont consignés dans le tableau ci-dessous:

Tableau 5: Les observations ayant des distances élevées

Candidats

Effectif

Pourcentage

Non

324

83,29

Oui

65

16,71

Total

389

100

Source: INSD, nos estimations

On constate d'après ce tableau, que sur les 389 observations qui constituent la base soixante cinq sont candidates pour être des influences. Mais l'analyse la plus pointue des observations laisse apparaître une absence de leverage. Ce qui signifie que sur environ les dix sept pour cent des observations qui se révéleraient high leverage (distance de Cook élevée), aucune ne possède une puissance élevée. Cette situation traduirait, que les données sembleraient être bien classées. Toutefois, la non significativité de certaines variables pourraient en partie être due à ces observations qui ont une distance de Cook élevée. Le test d'autocorélation de DurbinWatson conduit à une absence dune éventuelle autocorélation entre les résidus de l'estimation. En effet, la statistique de Durbin-Watson calculée est de 1,997. Qui se situe dans l'intervalle correspondant à l'absence d'autocorélation.

Nous nous sommes jusqu'ici intéresser aux problèmes que peuvent entraîner les observations. Un autre diagnostic consiste à tester la classification des données prédites et à vérifier l'adéquation du modèle avec les données. Pour le critère de classification de données, nous utiliserons l'indicateur R2 count. C'est un indicateur de bonne classification. C'est-à-dire pour la quelle la valeur estimée serait égale à la valeur observée de la variable d'étude.

Pour sa mise en oeuvre, on crée une variable qui prend la valeur 1 lorsque la valeur estimée de VDSF> 0,5 et zéro dans l'autre cas. Ainsi on construit un tableau1 permettant le

calcul de R2 count. L'indicateur peut être donné de la façon suivante:

1 Ce tableau se trouve dans l'annexe 2, il est intitulé table de prédiction du modèle.

2 00 11

n n

+

R=

count n

où n désigne (respectivement n 11 ) l'effctif des unités pour lesquelles = 0

VDSF

00

(respectivement 1) et estimée vaut 0 (respectivement 1).

VDSF

Après calcul on trouve R2 count=59, 13%. Ce résultat signifie que le modèle est à environ plus de cinquante neuf pour cent bien classifié. En d'autres termes nous avons une classification de probabilité de réponse de bonne qualité. L'analyse du tableau de l'annexe 2 permet de connaître comment le modèle aurait prédit le classement pour chaque individu de l'échantillon. Le jugement qu'on porte sur le modèle peut en dépendre. En effet, plus les prédictions du modèle sont conformes à la réalité plus est positif le jugement qui lui est fait. Le tableau de l'annexe 2 résume ce test. Ainsi on constate que la probabilité qu'une unité soit classée répondante sachant qu'elle a répondu est de 95,26%. Cette probabilité d'être classée non répondante sachant que l'unité est non répondante est de 5,73%. Autrement dit, pour une unité répondante le modèle le classe répondante dans une très grande proportion. Alors que pour celle non répondante, il la classe dans une proportion moins importante. L'on peut lire aussi dans ce tableau que la probabilité pour qu'une unité soit répondante sachant que sa probabilité prédite d'être répondante est inférieure à 0,5 est de 55%. A contrario, une unité dont la probabilité prédite est supérieure à 0,5 a une probabilité de 0,4 d'être non répondante. Mais ces chances de réponse ou de non-réponse ne suffisent pas pour conclure à un bon calibrage du modèle. Pour ce fait, nous utiliserons le test de Hosmer-Lemeshow.

Le test de Hosmer-Lemeshow est un test d'adéquation du modèle. Il permet de se rendre compte sur le niveau de calibrage du modèle qui est soumis à l'étude. C'est donc une procédure qui consiste à tester l'adéquation entre les valeurs prédites par le modèle et les valeurs observées de la variable d'étude. Pour ce faire, on regroupe les individus en classes1. On calcule une statistique de Hosmer-Lemeshow qui suit un chi deux. Si la p-value associée à cette statistique est inférieure au seuil théorique qu'on s'est fixé, on dira que le modèle ne reflète pas la réalité. A contrario, si cette p-value est supérieure à cinq pour cent, nous pouvons affirmer un calibrage du modèle. C'est-à-dire qu'on peut affirmer, avec un risque de cinq pour cent de se tromper, que le modèle reflète la réalité (les données observées).

Le résultat de Goodness of fit Test (Test de Hosmer- Lemeshow) est répertorié dans le tableau de l'annexe 3 du document. Dans ce tableau outre le regroupement, on a la p-value associée à la statistique de Hosmer-Lemeshow. Cette p - value = 0,8289, forts de ce résultat

nous pouvons affirmer que notre modèle est bien calibré, qu'il reflète les données dont il prétend expliquer. Il est à remarquer que l'on ne devrait pas surestimer l'importance de l'ajustement dans les modèles où la variable dépendante est dichotomique 2.

b.3 Odds ratio

Le odds ratio est un indicateur qui permet de tester l'association entre deux variables, l'une étant une variable d'intérêt et l'autre une variable explicative dans un modèle CLDV donné. Il se calcule en général sur les variables dichotomiques. Toutefois, on peut dichotomiser les

1 Pour plus d'amples de renseignement se reporter à l'annexe 3 du document. Un tableau représente ce regroupement.

2 Gujarati. N. D. (2004) - Econométrie, 4ème édition américaine : Traduction Par Bernier B., Col. Ouvertures Economiques, De Boeck, Bruxelles.

variables explicatives continues. Pour ce fait, on choisit une caractéristique de tendance centrale1 comme critère. Ainsi un odds ratio différent de 1 signifie qu'il y a association entre les deux variables, un odds ratio égal à 1 signifie que les deux variables ne sont pas en liaison. Le odds ratio est définis à partir de rapport entre deux odds, lesquels sont définis ainsi qu'il suit :

( )

VDSF X

= =

1/ 1

i

( )

VDSF X

= =

1/ 1

i

Odds1

P r

1-P r

p ( )

= =

Odds 2

1/ 0

VDSF X

r i

1 1/ 0

- = =

p VDSF X

r ( )

i

Ainsi le odds ratio peut être donné de la façon suivante :

Oddsratio

=

Pr Pr

( ) ( ( ) )

VDSF X P VDSF X

= = - = =

1/ 1 / 1 1/ 1

i r i

( ) ( ( ) )

VDSF X P VDSF X

= = - = =

1/ 0 / 1 1/ 0

i r i

Après calcul, on trouve des résultats qui aboutissent à la conclusion selon laquelle toutes les variables ont une association avec la variable d'étude. Ces résultats sont présentés dans le tableau qui suit :

Tableau 6: Odds ratio des variable explicatives

Variables

Odds Ratio

VITT

1,045228

VISC

1,08157

VIPH

0,6391031

VIBA

1,095292

VIBO

1,570872

VIOU

1,352204

Pub

1,217637

Source : INSD, nos estimations

Comme on le voit dans le tableau, même si certaines variables explicatives ne sont pas statistiquement significatives au risque de cinq pour cent, elles auraient des liens avec la variable d'étude. C'est-à-dire qu'il y a effectivement une association entre chacune des variables choisies et la décision de l'entreprise de fournir ou de ne pas fournir sa DSF. L'on constate que les entreprises pharmaceutiques ont une propension plus grande à ne pas déposer leurs DSF toute chose égale par ailleurs. Tandis que les entreprises offrant le service ou les entreprise commerciales (variable VISC) ont une propension plus grande à répondre favorable à l'étude.

La première étape de mise en oeuvre de la méthode de repondération consistait à prédire les probabilités de réponse aussi bien pour les répondantes que pour les non répondantes. L'on devait se rassurer que ces probabilités pouvaient être acceptées (pouvaient refléter les données). Ce souci a nécessité des tests et des diagnostics. A présent, on va ordonner ces chances de réponse et on les regroupera en classe de réponses homogènes.

1 La moyenne lorsque la variable suit une distribution normale et dans le cas échéant on conseille la médiane. La variable dichotomique prend zéro si la valeur de la variable concernée est inférieure à la caractéristique sinon elle prend un.

b.4 Groupes de réponses

Dans cette section l'idée motrice est de trouver un regroupement des unités en des classes. Ce regroupement se fait de telle sorte que les classes puissent être pertinentes pour l'analyse. De plus ces classes doivent être basées sur les probabilités prédites plus haut. Il s'agit donc de construire des groupes à partir des probabilités qu'on a prédites avec le modèle utilisé dans la section précédente. Pour notre part nous utiliserons cinq classes de réponses. Ces classes sont définies à partir des quintiles de la probabilité de réponse. En effet, d'après Laurent Donzé - enseignant à l'université de Fribourg (Suisse) - il est préférable lors de construction de groupe de réponses homogènes de choisir un nombre de classe limité. Pour cela il propose de "former cinq à six classes à partir des probabilités estimées, en prenant par exemple les quintiles1 ".

Nous avons constitué nos groupes de réponse homogènes sur les quintiles des probabilités que nous avons estimées pour les unités qui constituent la banque d'informations. Mais ces groupes ne respectent pas toutes les hypothèses de groupes homogènes. En effet, il existait deux classes qui ont la même probabilité de réponse2. Or une des hypothèses est qu'à l'intérieur des classes on ait des probabilités identiques de réponses; cette probabilité doit être différente selon les classes. Nous avons donc utilisé quatre classes de réponse au lieu de cinq. Ces groupes sont consignés dans le tableau qui suit :

Tableau 7: Caractéristique de groupe de réponse homogène pour la repondération

N° de groupe

Probabilités

Observations manquantes

Observations non Manquantes

Observations totales

1

0,5654

49

48

97

2

0,6296

41

56

97

3

0,6376

36

61

97

4

0,6817

31

67

98

 

Total

157

232

389

Source: INSD, nos estimations

On constate que les probabilités estimées de réponses varient avec les classes ce qui signifie que les chances de réponses sont différentes d'une classe à une autre. C'est à l'intérieur de ces groupes que nous allons procéder à la repondération qui donne lieu à l'estimation de la production, de la consommation intermédiaire, de l'impôt sur production et de la rémunération des salariés des entreprises.

1 Donzé L. (2003) - Théorie et pratique des enquêtes : analyse de données d'une enquête complexe, Université de Fribourg, Fribourg, Suisse.

2 Se référer à l'annexe 4 du document.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Aux âmes bien nées, la valeur n'attend point le nombre des années"   Corneille