WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Le traitement des données manquantes pour l'établissement des comptes économiques du Burkina Faso

( Télécharger le fichier original )
par Lassana DOUCOURE
ENSEA Abidjan - Ingénieur Statistiques 2005
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

    BURKINA FASO

    Unité Progrès Justice
    MINISTERE DE L'ECONOMIE ET DU

    REPUBLIQUE DE COTE D'IVOIRE

    Union Discipline Travail
    MINISTERE DE L'ENSEIGNEMENT

    SUPERIEUR

    DEVELOPPEMENT

    ECOLE NATIONALE SUPERIEURE
    DE STATISTIQUE ET D'ECONOMIE
    APPLIQUEE (ENSEA)

    INSTITUT NATIONAL DE LA
    STATISTIQUE ET DE LA
    DEMOGRAPHIE (INSD)

    MEMOIRE DE FIN DE CYCLE

    Maître de stage :
    PARE Lassina
    Ingénieur statisticien économiste
    Service des Comptes Economiques
    et des Analyses Macroéconomiques
    (SCEAM)

    Présenté et soutenu par:
    DOUCOURE Lassana
    Elève ingénieur des travaux
    statistiques

    Septembre 2005.

    DEDICACE ET REMERCIEMENTS

    "Rendons la grâce à Allah le Tout Puissant, le Clément le Très Miséricordieux qui a guidé nos pas depuis l'aube de notre vie, loué soit Allah. Et que la paix, la miséricorde et la bénédiction d'Allah soient sur Muhammad, celui qui nous a apporté la vérité de la part de son Seigneur ainsi que sur sa famille et ses compagnons".

    Je dédie cette modeste oeuvre à la mémoire de mon oncle feu Sékou DOUCOURE (dit Sékou Bléh). Je la dédie également à ma petite soeur, Fatoumata (Maman) dont le décès est survenu au cours de ce stage. Qu'Allah aie pitié d'eux.

    Qu'il me soit permis de dire ceci à mes parents qui n'ont ménagé aucun effort pour m'aider dans mes études.

    "N'bâ N'mânou ka nari ar na atouga ".

    Je pense en ce moment précis à tous ceux qui m'ont apporté leur aide principalement dans ce travail et pendant tout mon parcours scolaire. Je tiens à remercier particulièrement mes frères Sidiki et Mahamet. Je remercie la LIEEMA au Mali et tous ses membres.

    Tout au long de la présente étude j'ai bénéficié de l'aide, du soutien et des conseils de mon enseignant d'économétrie CHITOU Bassirou, et de mon maître de stage PARE Lassina. Qu'ils trouvent l'expression de ma reconnaissance et mes remerciements les plus sincères. Je tiens à remercier le Directeur de l'ENSEA M. KOFFI N'guessan et le Directeur des études de division ITS M. KOUAKOU N'Gorang Jean Arnaud, ainsi que le corps enseignant et le personnel de l'Ecole. Je remercie aussi le Directeur Général de l'INSD, M. Bamory OUATTARA, le Directeur des études économiques M. YAGO Namaro, le chef de service des comptes économiques et des analyses macroéconomiques M. KABORE Barbi sans oublier le personnel de l'INSD. Qu'il me soit aussi permis de remercier M. Malik LANKOANDE et M. Adama TIENDREBEOGO du service de démographie de l'INSD.

    Au cours de notre séjour à Abidjan et au Burkina Faso, de bonnes volontés nous ont rendu la vie facile. Pour cela je remercie MM. Boussiré et Kandé DOUCOURE ainsi que leur famille à Abidjan, la famille YAGO, M. Ahmed GUENDA et sa famille ainsi que Mme Fatoumata NOMBRE et sa famille à Ouagadougou. Qu'il me soit enfin permis de conclure par cette citation populaire :

    "Etre doué n'est pas ce qui est le plus important, mais faire mieux avec ce qu'on a".

    SIGLES ET ABREVIATIONS ABB : Approximate Bayesian Boostrap.

    CI : Consommation Intermédiaire.

    DGI : Direction Générale des Impôts.

    DSF : Déclaration Statistique et Fiscale.

    Entreprise non DSF : entreprise n'ayant pas déposé sa DSF ou ne produisant pas de DSF.

    ERE : Equilibre Ressources Emplois. INS : Institut National de Statistique.

    INSD : Institut National de la Statistique et de la Démographie du Burkina Faso. KDG : La ville de Koudougou.

    MAR : Missing At Random.

    MCAR: Missing Completely At Random. NMAR: Non Missing At Random.

    Ouaga : La ville de Ouagadougou.

    PIB : Produit Intérieur Brut.

    SCN : Système de Comptabilité Nationale. SYSCOA : Système Comptable Ouest Africain. TOFE : Tableau des Opérations Financières de l'Etat.

    SOMMAIRE

    Dédicace et remerciement 2

    Sigles et abréviations. 3

    Sommaire 4

    Liste des tableaux 5

    Liste des graphique 5

    Avant-propos 6

    Présentation de la structure 7

    Introduction 9

    Chapitre 0. Concepts et définitions 10

    I. Comptabilité nationale 10

    II. Secteur moderne DSF et secteur moderne non DSF 11

    III. Les sources de données 12

    Chapitre 1. Généralités et problématique de l'étude 14

    I. Contexte et problématique de l'étude. 14

    II. Cadre théorique 14

    Chapitre 2. Méthodologie d'Estimation des déclarations manquantes. 24

    I. Méthode utilisée par INSD 25

    II. Critique de la méthode présentée 26

    III. Proposition de méthode. 27

    Chapitre 3. : estimation des dsf des entreprises du secteur moderne. 39

    I. Estimation de la production et de la CI 39

    II. Estimation de la rémunération des salariés et de l'impôt sur production 40

    Recommandations 42

    Conclusion 43

    Annexes 44

    Références bibliographiques 55

    Table des matières 56

    LISTE DES TABLEAUX

    Tableau 1: Etat de taux de réponse globale 28

    Tableau 2: Répartition de non-réponses par localité 29

    Tableau 3: Taux de non-réponse selon la structure des entreprises 30

    Tableau 4: Résultat de l'estimation de probabilités de réponses. 33

    Tableau 5: Les observations ayant de distance élevée 35

    Tableau 6: Odds ratio des variable explicatives 37

    Tableau 7: Caractéristique de groupe de réponse homogène pour la repondération 38

    Tableau 8: Etat de non-réponses selon le statut des entreprises 45

    Tableau 9: Répartition des entreprises selon leur vocation 46

    Tableau 10: Table de prédiction du modèle 47

    Tableau 11: Test de Hosmer-Lemeshow de bon calibrage du modèle 48

    Tableau 12: Quintiles de probabilité de réponse 49

    Tableau 13: Résultat de l'estimation de probabilité de réponse de l'année 2000. 50

    Tableau 14: Table de prédiction du modèle pour la base de 2000. 50

    Tableau 15: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 2000. 51

    Tableau 16: Caractéristique de groupes (probabilité estimée) de réponse de 2000. 51

    Tableau 17: Odds Ratio des variables explicatives de l'année 2000. 51

    Tableau 18: Résultat de l'estimation de probabilité de réponse de l'année 1999 52

    Tableau 19; Table de prédiction du modèle de la base 1999 52

    Tableau 20: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 1999. 53

    Tableau 21: Caractéristique de groupes (probabilité estimée) de réponse de 1999. 53

    Tableau 22: Odds Ratio des variables explicative de l'année 1999. 53

    LISTE DES GRAPHIQUE

    Graphique 1: Résidu standard par entreprise 34

    Graphique 2: Répartition de l'échantillon selon la résidence des entreprises 45

    AVANT-PROPOS

    L'Ecole Nationale Supérieure de Statistique et d'Economie Appliquée, L'ENSEA est une école nationale à vocation sous régionale. A cet effet, elle a pour mission la formation des cadres statisticiens pour les pays d'Afrique francophone. Ces cadres issus de toute l'Afrique francophone sont formés dans plusieurs domaines de la statistique et de l'économie.

    Pour mener à bien sa mission, l'ENSEA a réparti la formation entre cinq divisions : deux de techniciens, deux d'ingénieurs et une division de diplôme d'étude supérieure spécialisée. La division des ingénieurs des travaux statistiques est une de ces cinq divisions. La formation y est dispensée à travers les cours théoriques couplés de ceux pratiques. Après deux années de formations théoriques, les élèves doivent effectuer un stage qui donne lieu à une rédaction d'un document qui sera soutenu devant un jury. Le stage constitue une partie du volet pratique de la formation. Il a pour objectif d'une part de familiariser les élèves avec le monde professionnel et d'autre part de leur donner l'occasion de confronter les théories acquises à l'école aux réalités pratiques de terrain. Ce présent stage d'environ trois mois s'inscrit dans ce cadre.

    Par rapport aux objectifs cités dans le paragraphe précédent, nous avons été reçus à la direction de l'Institut National de la Statistique et de la Démographie (INSD) du Burkina Faso, dans sa direction des études économiques et plus précisément au service de comptabilité nationale. Il nous a été demandé de proposer une méthode de traitement des entreprises du secteur moderne non DSF (Déclarations Statistiques Fiscales) pour la comptabilité nationale du Burkina Faso.

    Le présent document est la résultante d'un stage qui s'est déroulé du 13 juin au 9 septembre 2005 à l'INSD du Burkina Faso.

    PRESENTATION DE LA STRUCTURE

    Officiellement Burkina Faso, le Burkina est un pays situé en Afrique de l'Ouest. Il est enclavé et limité au nord et à l'ouest par le Mali, à l'est par le Niger et au sud par le Bénin, le Togo, le Ghana et la Côte d'Ivoire. Le Faso comme on le désigne par fois couvre une superficie de 275 000 km2 avec une population estimée en 2003 à plus de treize millions d'habitants. La population croît à un taux de 2,6% par an selon la même estimation de 2003. Le Burkina a pour capitale, l'ancien centre du royaume mossi, la ville de Ouagadougou. Sur le plan économique, le PIB par habitant est estimé à 220 dollars américains par an en 2001. Ce pays nous a servi d'accueil pour le déroulement de notre stage de fin de formation. Ce stage s'est déroulé à l'Institut National de la Statistique et de la Démographie.

    Comme tous les INS (Institut National de la Statistique) des pays africains, l'INSD est chargé de produire régulièrement des statistiques sur les caractéristiques socioéconomiques, sur la situation démographique et sur bien d'autres domaines. D'une façon générale les attributions de la direction générale de l'INSD peuvent être résumées en un certain nombre de points. Ces points sont:

    y' La réalisation d'enquêtes, de recensement et d'études dans le domaine social, économique et démographique, et réalisation des études statistiques au compte des autres utilisateurs;

    y' La collecte, la centralisation, le traitement, l'analyse et l'organisation des statistiques provenant de sources diverses dans des banques de données;

    y' Le développement et promotion du système national statistique.

    Conscient que le regroupement des hommes requiert un minimum d'organisation, l'INSD s'est subdivisé en directions techniques : une Direction de la Coordination et de la Coopération statistiques, une Direction de la Démographie, une Direction des Statistiques générales et une Direction des Etudes Economiques. C'est dans cette dernière que nous avons été accueillis en tant que stagiaire. Elle est structurée en trois services : le Service de la Prévision et de l'Analyse conjoncturelle, le Service des Statistiques d'Entreprise et du Commerce et le Service des Comptes Economiques et des Analyses Macroéconomiques. C'est ce dernier service qui nous a offert un environnement de travail. Cet environnement nous a permis d'effectuer notre stage avec les moyens de bord. Ce service est chargé essentiellement de l'élaboration et de la publication des comptes nationaux du Burkina.

    Les études que le SCEAM entreprend, sont axées sur la publication des résultats des collectes entreprises par l'institut. Ces publications portent sur les comptes nationaux du pays, la situation de la pauvreté, la situation économique... Elle procède aussi à des études de prévision de certaine caractéristique de la vie économique du Faso (Prévision de production des entreprises, des loyers fictifs,...).

    C'est donc ce service qui est chargé de la collecte et de suivi des DSF des entreprises opérant sur le territoire économique du Burkina. A cet effet, il se doit de veiller non seulement à la bonne marche de la collecte mais aussi à l'utilisation judicieuse des informations pour une bonne estimation des grandeurs nécessaires à l'élaboration des comptes nationaux.

    La tâche qui incombe à la structure statistique nationale devenant de plus en plus importante, le besoin d'une décentralisation des forces d'intervention se fait sentir. C'est dans ce cadre que dans le futur l'INSD entend se rapprocher davantage de la population pour mener à bien la mission qui lui incombe. Cette volonté se manifeste par la mise en place des directions régionales. Ces directions représenteront l'appareil statistique dans leur région

    d'intervention. Pour l'instant il s'agit de Bobo et de Fada. Cette décentralisation concernera plus tard les autres régions du Faso.

    INTRODUCTION

    Dans un contexte de mondialisation où le suivi des projets, des programmes et des politiques économiques se fait de plus en plus sentir, l'information statistique et économique a une importance majeure aussi bien pour les entreprises, la population que pour les décideurs politiques. Il importe de chercher non seulement à comprendre l'évolution de ces informations mais aussi à maîtriser les évolutions de ces dernières par les méthodes statistiques. La comptabilité nationale occupe une place de choix dans un tel contexte. Car elle comprend non seulement toutes les données économiques de la nation, mais aussi elle prend en compte toutes ces informations économiques dans le but de les synthétiser dans un cadre cohérent. Ce cadre cohérant permettrai de mieux rendre compte les performances économique de la nation. Nul ne doute de l'abondance et de la complexité d'un tel travail. Aussi il demande d'être exécuté dans un délai important en dépit des pressions pour avoir les informations le plutôt possible.

    Par ailleurs les difficultés de collecte à laquelle se heurtent les instituts de statistiques des pays africains ne sont pas de nature à résoudre le problème. A l'issue des enquêtes organisées pour la collecte, il n'est pas rare que l'INSD du Burkina Faso se retrouve avec un nombre important d'entreprises du secteur moderne qui ne font pas des déclarations statistiques et fiscales. Ces déclarations servent comme pierre angulaire dans la constitution et l'élaboration des comptes nationaux. Les publications sur les agrégats économiques sont donc fortement influencées par ces Déclarations Statistiques et Fiscales (DSF) "manquantes". Car c'est à partir des comptabilités des entreprises que l'on procède à une agrégation des données pour obtenir les indicateurs de dimension globale (Produit Intérieur Brut, revenu national, niveau de consommation, ...).

    Consciente de l'importance de ces DSF dans l'économie nationale, la direction de l'INSD du Burkina Faso à travers son service de comptabilité a accordé un stage à l'Ecole Nationale Supérieure de Statistique et d'Economie Appliquée. Ce stage avait pour thème les traitements des entreprises du secteur moderne non DSF (Déclarations Statistiques Fiscales) pour la comptabilité nationale du Burkina Faso. Ce thème répond à un besoin de réduire au minimum la sous estimation des grandeurs économiques que le service en charge d'élaboration des comptes économiques met à la disposition des décideurs.

    Le présent document comportera quatre chapitres : le premier a pour but de faire une présentation générale de concepts et de sources de données de la comptabilité nationale, le second traitera de problématique et de cadre théorique de l'étude. Avant de procéder aux estimations des ces statistiques (Production, Consommation intermédiaire, rémunération des salariés et les impôts liés à la production), on présentera la méthodologie d'estimations des déclarations manquantes que le service utilise et on proposera une autre méthode.

    Chapitre 0. CONCEPTS ET DEFINITIONS

    I. Comptabilité nationale

    Dans cette section il s'agit pour nous de circonscrire notre thème dans un cadre comptable. Ce document ne se veut pas non plus un guide pour l'apprentissage de la discipline. Nous ne donnerons que des définitions et des éclaircissements sur des concepts que nous estimons importants pour mener à bien notre étude.

    1. Définition

    La comptabilité nationale peut être appréhendée comme un outil ou un instrument de mesure qui, au moyen des techniques statistiques, économiques et comptables informe de manière très précise et synthétique sur la situation économique d'un pays. C'est donc un instrument de mesure privilégié au service de la science économique, en ce sens qu'elle permet d'introduire la quantification non seulement dans les analyses mais aussi dans les modèles économiques proposés.

    En tant que science, elle enseigne les techniques et les méthodes permettant de retracer dans un cadre comptable toutes les opérations qu'effectuent les agents économiques résidents pendant une année. L'expression cadre comptable signifie que les comptes de la nation ne constituent pas une véritable comptabilité qui serait issue de la consolidation de la comptabilité de tous les agents économiques.

    2. Objet

    Dans les années 1930, il est apparu nécessaire voire indispensable de connaître avec la plus grande certitude possible les grands agrégats caractérisant l'économie nationale (PIB, revenu national, niveau de consommation, ...) ainsi que l'évolution de ces agrégats. Ces agrégats, élaborés à partir d'un système cohérent, permettraient de quantifier les interventions du pouvoir public pour un éventuel coup de main au lancement de l'emploi et de la production. Les premiers travaux sur les agrégats ont été orientés vers ce sens.

    Cette demande est devenue plus pressante au lendemain de la seconde guerre mondiale, nécessitant une normalisation des systèmes d'élaboration et de suivi des comptes. Ce système qui, plus tard, aboutira à l'adoption d'un système uniforme et universel de la comptabilité nationale, est aujourd'hui adopté par presque tout les pays pour l'établissement de leurs comptes économiques. La version la plus recommandée de ce système a été élaborée en commun accord de cinq structures, et est présentée comme le système de comptabilité nationale des nations unies.

    Par ce système, la comptabilité nationale aura permis une unification de langage économique, du moins en ce qui concerne les données macroéconomiques, en dépit des différences qui subsistent dans la théorie économique. Ainsi, ses définitions sont sans ambiguïté. Elle élabore des agrégats économiques qui pour la plupart donnent lieu à l'établissement des modèles d'estimations et de prévision à court et à moyen terme.

    La comptabilité nationale a donc pour objet de décrire (rendre compte, analyser, ....) l'ensemble des opérations à caractère économique qui ont lieu sur le territoire économique d'un pays ou d'un Etat. Pour ce faire, elle procède à un regroupement des agents économiques en des

    unités qui auraient des comportements analogues. Ces unités, qui sont des centres élémentaires de décision jouissant d'une certaine autonomie, forment ce que l'on peut appeler les secteurs institutionnels. On distingue ainsi selon le SCN19931, cinq secteurs institutionnels (les sociétés non financières, les sociétés financières, les administrations publiques, les institutions sans buts lucratifs et les ménages) et mutuellement exclusifs. A ces secteurs on adjoint le reste du monde qui n'est pas un secteur à part entière, il permet toutefois de retracer les relations économiques que le pays entretient avec l'extérieur, c'est-à-dire les relations qu'entretiennent les unités résidentes2 avec celles non-résidentes de l'économie.

    Cette nomenclature de secteur institutionnel est propre à la comptabilité nationale et s'écarte de celle utilisée par d'autres spécialistes, comme les sociologues. Ainsi un individu peut à la fois appartenir aux sociétés et quasi-sociétés (secteur des sociétés non financières) pour son activité de production, (entant qu'ouvrier par exemple) et aux ménages pour son activité de consommation. Les opérations de ces secteurs sont enregistrées en des différents postes que l'on appelle les comptes.

    3. Les comptes

    La comptabilité nationale enregistre chaque opération effectuée par un secteur institutionnel en plusieurs postes d'enregistrements. Ces postes constituent ce que l'on appelle les comptes institutionnels. Pour un agent, les opérations peuvent être de nature financière ou porter sur les biens et services. Pour des opérations de biens et services, on les enregistre dans l'un des cinq comptes intégrés qui sont: comptes de production, d'exploitation, de revenu, d'utilisation de revenu et de compte de capital. Pour plus de clarté, on peut éclater le compte d'utilisation de revenu en trois comptes à savoir les comptes d'affectation de revenu primaire, les comptes de distribution secondaire de revenu et le compte d'utilisation du revenu disponible. Les comptes sont liés les uns aux autres par leur solde. On inscrit à la ressource du second le solde du premier, celui du second à la ressource du troisième et ainsi de suite. Le dernier solde est celui de capacité ou de besoin de financement pour l'unité concernée. Il renseigne sur la situation de trésorerie de l'agent économique concerné.

    Les comptes financiers renseignent sur la manière dont les agents en besoin de financement ont financé leur besoin et dont ceux en capacité de financement ont utilisé leurs ressources disponibles. Ils portent sur les opérations relatives à la création et à la circulation des moyens de paiement et de financement dont a besoin l'économie pour son fonctionnement.

    II. Secteur moderne DSF et secteur moderne non DSF

    Les DSF (Déclaration Statistique et Fiscale) sont des documents officiels que déposent les entreprises du secteur moderne à la Direction Générale des Impôts (DGI) à la fin de chaque exercice comptable. Ces documents contiennent la quasi-totalité de comptabilité des entreprises dépositaires. En ce sens, elles permettent d'évaluer leurs productions, leurs Consommations Intermédiaires (CI)... Les entreprises concernées par le dépôt de DSF sont celles du secteur moderne. Car ces sont elles qui sont supposées détenir de comptabilité qu'elles produisent annuellement. Le constat de la réalité a permis au service de la comptabilité nationale de scinder ce secteur en deux sous-secteurs. Ces sous-secteurs sont élaborés à la fois en fonction de leurs chiffres d'affaires et de leurs statuts. Le statut évoqué n'est autre que l'appartenance ou non d'une

    1 Système de comptabilité nationale des Nations Unies version révisée en 1993.

    2 La résidence n'est pas définie selon la nationalité, est résident d'une économie toute personne physique ou morale qui effectue une activité à caractère économique sur un territoire ou a l'intention d'y effectuer cette activité pour une durée au moins une année. La résidence retenue est donc un concept lié au centre d'intérêt économique

    entreprise au secteur dit moderne. Cette classification donnera les deux sous secteurs à savoir "secteur moderne DSF" et "secteur moderne non DSF".

    Le secteur marchand moderne DSF regroupe toutes les grosses entreprises1 du secteur moderne qui produisent un document comptable de façon périodique. Le secteur marchand moderne non DSF regroupe, quant à lui, les entreprises du secteur moderne non retenues dans le classement cité supra. Ce sont des entreprises dont les DSF sont inexploitables ou pour lesquelles l'on ne dispose pas du tout de DSF. Les comptes de ce secteur doivent donc être estimés.

    III. Les sources de données

    Comme toute science quantitative, la comptabilité nationale utilise des sources statistiques pour l'élaboration des comptes et pour l'analyse et la projection de ceux-ci. Ces sources statistiques proviennent en partie des enquêtes qu'organisent les services en charge de la collecte d'information. On peut aussi faire recours aux sources administratives disponibles pour l'élaboration des comptes. Parmi ces sources, on a les liasses fiscales des entreprises et les déclarations statistiques et fiscales déposées par celles-ci.

    L'utilisation d'une ou d'autres sources est fonction des comptes que nous devons élaborer. Ainsi pour les comptes nationaux du Burkina, on peut avoir recours à plusieurs sources. Pour les comptes du secteur primaire (agriculture et élevage), les ministères de l'agriculture et de l'élevage constituent les partenaires clés pour les statistiques agricoles. Le Tableau des Opérations Financières de l'Etat (TOFE), les documents comptables des organismes de sécurité sociale et des autres organismes de l'Etat, les comptes de gestion des collectivités locales (communes et provinces) et la balance du trésor sont des sources importantes pour l'élaboration des comptes de l'administration publique. En ce qui concerne le reste du monde, la balance des paiements et les statistiques du commerce extérieur constituent la source de première place.

    Pour l'élaboration des comptes des sociétés financières et non financières, on utilisera comme sources de données de première importance les documents comptables des institutions de crédit et des sociétés d'assurance, le recensement à caractère industriel et commercial et les déclarations statistiques et fiscales.

    Au Burkina, les entreprises sont tenues de faire une déclaration auprès de services des impôts. Ces déclarations concernent toutes les entreprises du secteur moderne. A partir des statistiques disponibles couplées avec celles collectées par le service de comptabilité nationale, on disposera d'une base d'informations. Cette base constitue la boussole du service dans l'élaboration des comptes nationaux. Le document qui contient ces déclarations est appelé la DSF (Déclaration Statistique et Fiscale) des entreprises. Mais en pratique, il n'est pas fréquent de coupler les informations reçues par la direction générale des impôts (liasses fiscales) avec les données de l'INSD.

    Compte tenu de l'importance que peuvent avoir ces DSF et de nombre pléthorique des entreprises du secteur moderne, il a été prévu que chaque entreprise de ce secteur prévoira un exemplaire de ses déclarations fiscales annuelles - qu'elle dépose à la DGI - pour le besoin de statistiques. Mais dans les faits, ce principe est loin d'être respecté. Car la DGI ne met pas toujours des DSF à la disposition des comptables nationaux et il existe des entreprises qui n'en produisent point, obligeant l'INSD à entreprendre des travaux de collecte pour se procurer de maximum de données sur l'existence et l'activité de ces unités institutionnelles. En sus, la démographie instable des entreprises fait que l'on ne peut pas se passer de collecter des informations chaque année sur à la fois leur existence que sur leur niveau d'activité entre autres la production, le salaire versé aux employés, la consommation nécessaire pour le fonctionnement

    1 Raisonnement en terme de chiffre d'affaires.

    de processus de production et les impôts sur la production. De plus, ces données sont très variables d'une année à une autre, même pour les entreprises stables sur le territoire économique, faisant de la collecte un des moyens le plus sûr pour avoir les informations sur les unités opérant des activités économiques sur le territoire nationale.

    Chapitre 1. GENERALITES ET PROBLEMATIQUE DE L'ETUDE

    Toute étude scientifique doit se baser sur les théories tout en ne perdant pas de vue l'aspect pratique. Ce chapitre aborde le cadre théorique de notre étude après avoir situé le contexte et la problématique du stage.

    I. Contexte et problématique de l'étude

    La présente étude, portant sur le traitement des entreprises du secteur moderne non DSF en vue de l'élaboration des comptes des sociétés non financières, intervient dans le cadre du stage de fin de cycle d'ingénieur des travaux statistiques. Elle répond d'une part à une demande du service de comptabilité nationale de l'INSD du Burkina Faso, et d'autre part au besoin de mise en pratique des théories acquises au cours de la formation.

    Au sein du Service de la comptabilité nationale, nous avions pour tâche de proposer une méthodologie pour le traitement des entreprises du secteur moderne "non DSF" en vue de compléter l'information disponible fournie par les entreprises du moderne DSF.

    Pour l'élaboration des comptes nationaux, el service en charge de la Comptabilité nationale doit collecter des informations assez précises et exhaustives en vue de produire les agrégats et les indicateurs macroéconomiques avec la plus grande certitude possible. Pour ce faire, on cherche à détenir le maximum d'informations sur toutes les unités institutionnelles qui prennent part à l'activité économique nationale. Les sociétés et quasi sociétés non financières constituent une source importante de données dans la production de ces agrégats. Il est donc nécessaire de rassembler le maximum d'information chiffrée sur ces unités. Le support qui permet de disposer de cette information est la DSF qui est un document comptable dont les entreprises ont obligation de déposer des copies à la Direction Générale des Impôts (DGI). L'INSD devrait pouvoir entrer en possession de ces documents auprès de la DGI mais la collaboration avec cette structure n'est pas toujours aisée. C'est pourquoi des collectes directes sont organisées par le Service de la Comptabilité nationale en vue de disposer des DSF, tout au moins pour les grandes entreprises. Pour les entreprises dont on ne peut pas disposer des DSF (soit que le document est inaccessible ou soit qu'il n'existe pas du tout), des estimations sont faites pour approcher leurs agrégats (production, consommations intermédiaires, rémunérations des salariés et impôts sur la production).

    La prise en compte des DSF manquantes permet de remédier au problème de sous estimations des grandeurs dans l'élaboration des comptes nationaux. Le traitement des DSF manquantes consiste à estimer les comptes de production et d'exploitation des entreprises pour lesquelles on n'a pas pu disposer de documents pour une année donnée.

    L'objectif premier de notre étude est donc de proposer une méthodologie adaptée d'estimation, en vue de réduire le biais introduit par la non disponibilité des DSF pour certaines entreprises du secteur moderne non financier. Mais avant de proposer notre méthode d'investigation pour réaliser cet objectif, nous allons passer succinctement en revue les principales méthodes d'estimation des données manquantes disponibles dans la littérature.

    II. Cadre théorique

    Dans cette section, il sera question pour nous de présenter la littérature sur les différentes théories concernant le traitement de données manquantes.

    Dans l'application des techniques de collecte (sondage), plusieurs problèmes peuvent se poser, parmi lesquels on compte la difficulté pour choisir une technique de sondage particulière. A cette difficulté conceptuelle s'ajoutent plusieurs autres problèmes d'ordres pratiques entre autres : l'absence de certaines unités au moment de l'enquête, le refus de répondre, la perte des questionnaires ou l'illisibilité de certains questionnaires. Ces problèmes mentionnés entraînent la non-réponse totale ou partielle dont la non prise en compte est susceptible d'entraîner un biais dans l'estimation des paramètres.

    Peu importe la rigueur que l'on se fixe, il y aura toujours des non-réponses (comme le soulignaient BRION P. et CLAIRIN Rémy - 1997)1 et il faut faire avec en trouvant une méthode robuste pour leur traitement. Ainsi dans toute enquête un certain degré de non- réponse est inévitable. A cet effet, il convient alors de connaître les méthodes qui réduisent et affaiblissent leur effet sur le résultat. Avant de définir les méthodes appropriées aux traitements de ce phénomène, il nous paraît nécessaire de faire une distinction entre les différentes formes de non-réponses. Quand parle - t - on d'une non-réponse totale ou partielle ? Cette distinction sera suivie par une description des types de mécanismes susceptibles de faire apparaître de données manquantes.

    On considère une variable Y dont on veut estimer la moyenne, le total ou toute autre fonction sur une population donnée. Soit Y = (yj)1=j=k, l'ensemble des observations de la

    variable Y sur un échantillon s de cette population.

    On appelle ensemble de réponses associées à la variable d'intérêt y l'ensemble

    suivant :

    r = i i ? s y ji .

    j { / et observée }

    Avec s désignant l'échantillon. On remarque que les rj ne sont pas forcément identiques pour tout les individus.

    De façon générale, le statisticien d'enquête distingue deux sortes de non-réponses : la non-réponse totale et la non-réponse partielle.

    1. Non-réponse totale

    La non-réponse est dite totale lorsque l'on rencontre des problèmes qui nous empêchent d'avoir le questionnaire pour l'analyse, peu importe ce qui aurait occasionné la non disponibilité du questionnaire. Cette non disponibilité peut être due au refus de l'unité statistique (l'enquêté) à prendre part à l'interview, à la perte du questionnaire, à l'illisibilité du questionnaire rempli,... Ainsi, on parlera de non-réponse totale pour l'élément i si le vecteur entier des variables de l'étude est manquant (non observé). Soit l'ensemble suivant :

    k

    r r r

    = ? ?

    t 1 2

    ... . Ainsi désigne l'ensemble de réponse totale.

    ? =J

    r r r

    k i t

    i=1

    L'ensemble de non-réponse totale s'obtient par différence entre l'échantillon et l'ensemble de réponse, d'où l'équation suivante :

    r t = s -rt.

    Dans cette équation, rt désigne l'ensemble de non-réponse totale.

    1 BRION P. et CLAIRIN R. (1997) - Manuel de sondages : Application aux pays en développement, INSEE et CPED, Paris.

    2. Non-réponse partielle

    On parle de non-réponse partielle lorsque pour une raison ou pour une autre l'on n'est pas capable d'avoir l'information pour une ou plusieurs des questions particulières de l'enquête. Il s'agit donc de l'absence de la valeur observée pour l'unité. C'est lorsqu'une ou plusieurs variables sont manquantes. L'ensemble des réponses partielles est donnée par :

    k

    r r r r r

    = n n n =I

    ...

    p 1 2 k i

    i=1

    Ainsi le rp nous donne les éléments qui ont répondu à toutes les questions et r t - rp donne l'ensemble de non-réponse partielle.

    Toutefois, le manque de cette valeur n'implique pas automatiquement une non- réponse partielle pour l'observation. La carence d'information peut être due par exemple au fait que l'individu statistique n'est pas concerné par la question qui lui est posée (exemple : le niveau d'étude d'un enfant de moins de six ans dans un pays où l'age officiel d'aller à l'école est de sept ans). On parlera alors de "sans objet" au lieu de non-réponse.

    La non-réponse partielle se présente dans l'un des cas suivants :

    y' L'enquêté ne connaît pas la réponse à la question qui lui a été posée; y' Il ne souhaite pas répondre à la question pour une raison quelconque;

    y' La suppression des valeurs aberrantes par l'enquêteur ou par l'analyste.

    On retient donc que dans les deux cas de non-réponses les données peuvent exister et être hors de portée du statisticien. Pour des raisons de secret professionnel, par exemple, les firmes peuvent bloquer l'accès aux données.

    3. Les mécanismes de génération des données manquantes

    Par mécanisme de génération, on entend le phénomène susceptible d'entraîner la non- réponse des unités statistiques ou encore type de données manquantes. Dans la théorie statistique, on distingue en général trois mécanismes, selon Little et Rubin (1987), qui peuvent décrire le phénomène de données manquantes. Ces mécanismes sont: réponse manquant entièrement au hasard (MCAR, Missing Completely At Random), réponse manquant au hasard (MAR, Missing At Random) et réponse ne manquant pas au hasard (NMAR, Non Missing At Random).

    Avant d'expliciter ces mécanismes nous jugeons nécessaire de faire une définition des concepts et des notations que nous utiliserons dans la définition des types de non-réponse.

    Soit X = (x ij ) une matrice de données d'ordre (n× k) d'éléments xijn est le nombre
    d'observations de la population cible U, k le nombre de variables et xij est la valeur de la
    variable j pour l'observation i, avec i =1,..., n, et j =1,..., k. Soit A = (aij), une matrice dont

    les éléments valent l'unité lorsque la valeur de la variable de l'observation est absente et zéro
    sinon. Dit autrement et de façon formelle, c'est une matrice indicatrice de données

    manquantes d'éléments aij telle que aij = 1 si xij manque, et aij = 0 sinon. La matrice A décrit donc la structure des données manquantes. Il est utile de traiter A comme une matrice stochastique. Soient , , et

    X X

    o no respectivement la partie observée de données X, la partie

    non observée et les paramètres caractérisant le taux de réponse.

    De façon non formelle, on dira qu'un processus de génération de données manquantes est dû au hasard (MAR) si la probabilité de réponse dépend de certaines variables auxiliaires, mais non de la variable d'intérêt. Autrement dit, si ( / , , )

    P A X X

    o no est la

    distribution conditionnelle de A étant donné X et ne dépend que de variables qui se retrouvent dans la base, o

    X . On dira ainsi que :

    ( / , , ) ( / , )

    o no = P A X o no

    P A X X ? X .

    C'est donc un processus pour lequel la probabilité de répondre à une variable d'intérêt dépend uniquement des variables auxiliaires.

    Pour le processus dont les données manquantes ne sont pas dues au hasard, on parlera de mécanisme de type NMAR. La probabilité de réponse dépend de la variable d'intérêt et éventuellement d'autres variables explicatives non observées.

    Si ( / , , ) ( / , )

    o no = P A Y X on dit que la distribution conditionnelle de A

    no

    P A X X

    sachant X ne dépend pas d'un phénomène aléatoire mais plutôt de la nature de la variable d'intérêt. Par exemple pour des raisons de méfiance dans un pays en conflit la population n'aime pas répondre à la question concernant la religion et l'ethnie. Tout comme, l'entrepreneur ne souhaite pas toujours donner des informations sur son chiffre d'affaires.

    Quant au mécanisme de type MCAR, il concerne des données manquantes qui sont complètement dues au hasard. Pour ce mécanisme la probabilité de répondre ne dépend ni de la variable d'intérêt ni des variables explicatives et elle est identique pour toutes les unités.

    Formellement, lorsque l'on considère que P (A / X,) est la distribution conditionnelle de la matrice indicatrice A. Lorsqu'on connaît la matrice de données X, on dira qu'il s'agit de

    MCAR siP(A/X,)=P(A/) ? X.

    4. Traitement de la non-réponse

    Après un aperçu sur les mécanismes de non-réponse nous aborderons dans cette sous section les méthodes de traitement que prévoit la théorie statistique en cas de présence de données manquantes. On note qu'il existe plusieurs méthodes de traitement de données manquantes. Ces méthodes s'appliquent selon la nature du processus et parfois compte tenu de nombre d'observation voire de l'existence de variables auxiliaires.

    Parmi les méthodes de traitement de non-réponse, on dénombre deux qui sont plus faciles à mettre en oeuvre. Cependant, elles ne sont pas les plus robustes. Il est apparu dans les services statistiques des Etats en développement de ne rien faire face aux données manquantes. Cette solution est aussi une méthode, elle consiste à travailler avec la base sans se soucier des non-réponses.

    La non prise en compte de données manquantes est peu commode pour un statisticien. D'abord, il se trouve face à une base qui n'est pas présentable (incomplète); ensuite les moyennes et les variances sont calculées sur toute la population en assimilant les données manquantes à zéro. Enfin, ces estimateurs sont alors influencés par les individus n'ayant pas répondu au risque de rendre incohérents, les résultats assortis des analyses. En effet, elle accroît le biais des estimations lorsque les non répondants se distinguent des répondants dans leurs comportements par rapport aux variables d'étude.

    Une autre solution aussi facile à appliquer est la suppression des individus pour lesquels il manque au moins une valeur d'une variable de la base. La méthode de suppression permet d'utiliser un fichier complet. Plus avantageuse que la première citée, cette solution donne des

    estimateurs de l'échantillon retenu sans biais si la non-réponse ne dépend d'aucune variable d'intérêt. Mais ces estimateurs peuvent ne pas refléter la réalité. Car ils sont alors des fonctions des valeurs obtenues pour les répondants qui ont fourni des données complètes uniquement. Ce qui conduit au rejet de cas de non-réponse partielle et entraîne une perte considérable d'information empêchant ainsi l'utilisation du poids que le sondage aurait accordé aux unités statistiques. Et le fait que la taille de l'échantillon se trouve réduite, elle peut conduire à augmenter la variance des estimateurs.

    4.1. Méthode de repondération

    C'est une méthode de redressement de données en présence de non-réponse. Elle est utilisée, en général, pour compenser la non-réponse totale. La repondération vise à ajuster les poids de répondants en vue de compenser la perte d'information due aux non répondants. En d'autres termes c'est une méthode consistant essentiellement à augmenter le poids de sondage de répondants afin de compenser les non répondants. Cette méthode a cependant des principes et des critères d'application. Il faut que la non-réponse soit totale, qu'on ne dispose pas d'informations auxiliaires et que le mécanisme de réponse soit homogène dans la population

    Mise en application

    Avant de procéder à l'ajustement de poids des répondants, on effectue une classification des unités statistiques en j classes. Ces j classes regroupent tous les individus de

    j

    l'échantillon, les répondants comme les non répondants, de telle sorte qu'on ait

    U = où s s s

    i

    i= 1

    désigne l'échantillon et les si la classe i de l'échantillon avec i=1, 2, ..., j. Cependant, on doit s'assurer pour ces groupes que la variable d'intérêt n'a pas d'influence sur la décision de répondre ou de ne pas répondre. La constitution des classes doit être pertinente pour l'analyse qu'on envisage mener. Par exemple, pour la production des entreprises, on ne fera pas un regroupement par ordre alphabétique des sigles ni des noms. On fera plutôt une catégorisation basée sur le chiffre d'affaires ou sur la taille de celles-ci ou sur tout autre critère pertinent.

    Ayant les classes on pourra ainsi calculer le poids des unités répondantes après ajustement pour la non-réponse qui vaut:

    wi

    * i

    w

    =

    Pc

    Pc et wi désignent respectivement le taux de réponse dans la classe c et le poids de l'individus i avant l'ajustement.

    On peut calculer l'estimateur par repondération en considérant les c classes, comme

    suit :

    ? ? ?

    Y n y n w *

    c i ri i i

    = ? = ? .

    i s i s

    ? ?

    c c

    Avec yri qui désigne la moyenne des répondants dans la classe i. On démontre que le

    biais de non-réponse est une espérance conditionnelle de l'échantillon total et qu'il vaut zéro pour le mécanisme de non-réponse uniforme à l'intérieur des classes. En effet, le biais s'écrit selon l'expression suivante :

    - 1

    ? ? j

    B Y s E Y Y s P w P P y y

    ( / ) ( / ) ( )( )

    = - = ? ? - -

    i i

    c i k k k i

    i k s

    = ?

    1

    c

    Pi désigne la moyenne pondérée, par le poids avant l'ajustement, des taux de réponses de la classe i. Et yi désigne la moyenne de la variable dans la classe considérée et vaut :

    ? w y

    k k

    c

    k s

    ?

    yi

    ? .

    w k

    k s

    ? c

    Lorsque l'expression du biais est nulle, on peut se retrouver avec des classes à l'intérieur desquelles la repondération serait uniforme c'est-à-dire que la probabilité de répondre pour un individu serait identique à celle des autres individus de la classe. Il s'agit de groupes homogènes. En effet, on dira qu'il s'agit de groupes homogènes si pour tout l'échantillon et toute classe c on a:

    ??? ??

    P i r s i s

    ( / )

    ? = = Ö ? ?

    i s c c

    /

    P i j r s P i r s P j r s i j s

    ( & / ) ( / ) ( / )

    ? = = ? ? ? ? ?

    ij s
    /

    L'objectif est donc la construction de groupes d'individus statistiques qui soient homogènes par rapport à la probabilité de répondre afin d'éliminer ou tout au moins de réduire le biais de la non-réponse. De façon pratique on désire construire des groupes de sorte qu'on puisse décrire autant que faire se peut le mécanisme de non-réponse.

    Les classes des repondérations peuvent être créées à partir de différentes méthodes dont celle des "scores". Cette méthode consiste dans un premier temps à prédire les probabilités de répondre pour toutes les unités de l'échantillon à l'aide d'un modèle de régression approprié (logistique, probit, probabilité linéaire ou autre) tout en prenant le soin de bien choisir les facteurs explicatifs. La deuxième étape est celle d'ordonnancement des probabilités estimées en ordre croissant. La troisième consiste à l'utilisation d'analyse par

    ?

    groupe pour regrouper les unités ayant des Pi similaires. Les classes étant constituées la

    dernière étape s'agirait tout simplement de calculer à l'intérieur de chaque classe les poids ajustés pour la non-réponse; ainsi on aura procédé à la repondération à l'intérieur de chaque classe. L'efficacité de cette méthode a été démontrée en 2001 par D. Haziza et ses collaborateurs dans une étude menée au Canada. Cette méthode a l'avantage de rendre efficaces les estimateurs de grandeurs notamment la moyenne et le total. La repondération par la non-réponse totale peut être le moyen le plus simple de compenser la carence de certaines données d'enquête.

    Pour tenir compte de la non accessibilité du sondage à certaines unités, soit parce qu'elles sont inadmissibles dans une base de sondage ou parce qu'elles sont non répondantes lors de l'enquête, on emploie des multiples formes d'ajustements (multiples méthodes de repondération). Considérons toujours notre population cible dont les unités sont regroupées en j classes homogènes. L'estimateur du total s'écrira de la façon suivante, après ajustement

    au poids :

    ?

    T w y

    = ?

    *

    ci ci

    ci s s

    ? ?

    ad na

    Où :

    y' i et y c idésignent respectivement une unité de la classe c et une valeur liée à cette unité ci.

    ' sad et sna désignent respectivement des répondants admissibles à l'échantillon et l'ensemble des unités connues comme non admissibles.

    La repondération permet, avec l'utilisation judicieuse des données, de compenser l'effet de la non-réponse totale en formant des classes de repondération. Elle permet aussi d'avoir les valeurs estimées des agrégats comme le total et la moyenne. Cependant, elle devient plus compliquée à mettre en oeuvre dans les cas des non-réponses partielles. Car il faudra procéder à des repondérations qui seraient probablement différentes pour chaque variable concernée. Pour cette raison, on lui préfère d'autres méthodes plus appropriées comme celles dites d'imputation.

    4.2. Méthode d'imputation

    a. Généralité sur l'imputation

    Loin d'être une nouvelle méthode, l'imputation est une technique assez utilisée dans les traitements des non-réponses. C'est une technique de redressement des estimateurs en présence de non-réponse partielle, comme le soulignaient Little et Schenker (1995). Le recours à l'imputation pour remplacer des données manquantes à certaines questions est monnaie courante dans bien des enquêtes. La non-réponse partielle peut introduire des biais d'estimation ; il faut donc des traitements conséquents. On y remédie par une méthode dite d'imputation qui consiste à substituer aux données manquantes des valeurs calculées ou tirées de la base de données. Ceci facilite l'analyse de micros données. L'imputation permet d'estimer des agrégats de population comme les moyennes ou les totaux sans faire d'ajustements aux poids qui auraient été différents pour chaque variable.

    L'imputation est une famille de méthodes de traitement de non-réponse partielle. Pour sa bonne mise en oeuvre, il est important de recenser et d'utiliser au maximum toutes les sources de données disponibles lors de l'imputation. La mise en oeuvre de ses procédures peut être basée sur les modèles implicites ou explicites. Il est parfois souhaitable de combiner ses deux méthodes. Les modèles implicites, par opposition aux modèles explicites qui sont en général basés sur une théorie statistique, sont basés sur les procédures permettant de résoudre de façon pratique les problèmes de structures de données. Ces sont des modèles qui sont souvent de type non paramétrique. Les procédures "hot-deck" reposées sur une modélisation implicite en constituent un exemple.

    Les modèles, qu'ils soient implicites ou explicites, peuvent aussi être regroupés sous la bannière de modèle informatif ou non informatif. Le modèle est dit informatif lorsqu'une

    valeur Xk d'un non répondant est systématiquement différente de celle d'un répondant en
    dépit de l'égalité entre les valeurs X1 ,X2,..., Xk - 1 de la variable. Par contre, on parlera de

    modèle non informatif si on accepte que même si un répondant et un non répondant ont un comportement commun par rapport aux valeurs X1 , X2,..., Xk - 1 leurs valeurs Xk ne peuvent

    être égale stochastiquement. Ces modèles peuvent être utilisés comme un départ pour les procédures d'imputation.

    b. Technique d'imputation Le plus proche voisin

    Parmi les méthodes les plus utilisées, on a celle dite du "plus proche voisin". C'est une méthode qui consiste à trouver pour l'individu qui n'a pas répondu un donneur potentiel qui puisse lui être semblable le plus statistiquement possible. Il s'agit de donner une valeur artificielle à l'individu n'ayant pas répondu à la question qui lui aurait été posée. Cette valeur artificielle proviendra d'une unité dont les caractéristiques sont plus proches de l'unité ayant

    introduit le biais de données manquantes. Pour l'imputer on peut utiliser le formalisme suivant :

    y i * = y k /j? sr;(i,j)? classex

    C'est-à-dire qu'on choisit l'individu donneur de telle sorte que la distance d(x i ;x j ) soit la plus petite possible, x étant la variable auxiliaire. Où *

    yi et yj désignent respectivement la valeur imputée de la variable pour l'individu i et la valeur observée de la même variable pour l'individu donneur j. Et sr désigne l'échantillon des répondants.

    Il s'agit donc d'élaborer un critère quelconque, à partir des caractéristiques qu'on a déterminées, pour montrer et choisir lequel des individus répondants ressemble le plus à celui pour lequel on ne détient pas l'information. Le plus semblable des éléments tient lieu de donneur et est considéré de ce fait comme le voisin le plus proche.

    Imputation par moyenne ou par ratio

    On compte aussi parmi les méthodes d'imputation, l'imputation par moyenne et celle par ratio. Ces deux méthodes sont basées sur l'affectation d'une valeur aux observations incomplètes d'une variable. En ce qui concerne l'imputation par la moyenne, sa mise en oeuvre ne nécessite pas que l'on dispose des variables auxiliaires qui seraient pertinentes pour l'analyse de la variable d'intérêt. Car elle consiste à remplacer les données manquantes de la variable considérée par la moyenne des valeurs données par les répondants. De façon analytique lorsqu'un élément ne répond pas à la question qui lui est posée, c'est à dire ne donne pas de valeur à la variable d'étude, on applique la formule de la moyenne pour lui imputer une valeur.

    .

    * 1

    y y

    i j

    = ?

    n ? r j s r

    Cette valeur moyenne pour l'ensemble de réponses obtenues est utilisée pour remplacer chacune de variables manquantes.

    La méthode par ratio utilise à la fois la moyenne de la variable d'intérêt pour les répondant et les variables auxiliaires. Elle consiste à imputer une même valeur pour toutes les unités non répondantes. C'est-à-dire pour une variable donnée toute les observations manquantes auront un remplaçant commun pour compenser la perte de donnée. Le formalisme peut se présenter comme suit:

    * r

    y

    y x

    =

    i i

    xr

    yr , xr et x i désignent respectivement la moyenne de la variable d'intérêt, de la variable auxiliaire pertinente pour l'étude et la valeur de cette variable pour l'individu i Imputation multiple

    Jusqu'ici nous avons seulement, pour la correction de non-réponse partielle, explicité le cas d'imputation unique. C'est-à-dire pour chaque valeur manquante imputer une seule valeur. Une autre technique est de procéder à un type d'imputation appelé imputation multiple. La technique d'imputation multiple a été principalement développée par Rubin. Elle remplace chaque variable manquante par au moins deux valeurs tirées d'une distribution pour les valeurs manquantes sous l'hypothèse que l'on postule à propos de la non-réponse. On obtient donc comme résultat de l'imputation au moins deux bases. Chacune des bases étant analysée

    selon une même méthode, on combine les analyses afin de refléter la variabilité supplémentaire que peuvent entraîner les données manquantes.

    Du point de vue théorique on peut assimiler cette méthode d'imputation multiple à une approche bayesienne. Lorsque le nombre d'imputations est élevé, les estimateurs seront plus précis. Pour qu'une procédure d'imputation multiple soit appropriée, il faut qu'elle incorpore la variabilité adéquate parmi les v ensembles d'imputations.

    La procédure "Approximate Bayesian Boostrap" (ABB) est une des procédures appropriées. Elle peut être décrite comme suit:

    Soit un groupe de n unités de même valeur X1 , X2,..., Xk - 1 où l'on trouve pour la valeur Xk, nsr répondants. Avec n et nsr qui désignent respectivement la taille de la

    population cible et celle de l'échantillon de répondants. Les non répondants sont naturellement de:

    n sr = n- nsr.

    On tire dans l'ensemble de répondants les n valeurs possibles de Xk avec remise et de

    façon aléatoire, et cela pour chacun des v ensembles d'imputations. Après ce tirage on impute les valeurs manquantes en procédant à un tirage aléatoire avec remise de l'ensemble des n

    possibles plutôt que dans l'échantillon de répondants. Ce tirage de nsr génère entre les
    imputations une variabilité appropriée. La supposition d'un groupe de n unités ayant les

    mêmes valeurs X 1 ,X2,..., Xk-1 permet de classer les répondants, comme les non répondants

    dans un même ensemble homogène comme nous l'avons explicité dans la méthode de repondération.

    Le principe est d'attribuer à une donnée manquante une valeur observée chez un répondant. Il s'agirait donc de trouver pour un receveur les potentiels donneurs parmi les répondants. Une façon plus pratique est de faire des classes homogènes comme nous l'avons explicité plus haut. On donnera à un non répondant la valeur d'un répondant appartenant au même groupe.

    La procédure ABB est une méthode de type hot-deck à qui on incorpore les techniques de Boostrap. Car le hot-deck consiste aussi à imputer une valeur à l'observation qui fait défaut selon une technique que l'on cherche à mettre en oeuvre.

    Bien que l'imputation améliore la qualité de données finales par le fait qu'elle permet de compenser les réponses manquantes, invalides ou incohérentes, il convient de veiller à choisir la méthode d'imputation appropriée. En effet, il existe une multitude de techniques d'imputation dont chacune aboutit à une estimation particulière de la variance et à une formule différente de celle des autres. De plus, certaines de ces méthodes ne sont pas sans effet sur les liens qui existent entre les variables. C'est-à-dire qu'il existerait des méthodes d'imputation qui ne préserveraient pas les relations entre les variables de l'étude ou, pourraient fausser les distributions sous-jacentes.

    De façon générale on peut classer les méthodes d'imputation parmi les groupes suivants :

    V' Les méthodes déductives : elles utilisent les informations des autres questions pour avoir des données déduites susceptibles de remplacer les données manquantes;

    V' Les méthodes "cold-deck" : on utilise des informations d'une autre enquête pour compenser les non répondants

    V' Les méthodes hot-deck: dans ces cas on donne la valeur d'un individu répondant (le donneur) à la valeur manquante selon une procédure qu'on se fixe. C'est donc une méthode qui recourt à d'autres enregistrements pour répondre à la question qui doit faire l'objet d'une imputation. Il existe une multitude de procédures connues que l'on peut mettre en pratique. On a parmi ces procédures le hot-deck aléatoire, le hot-deck séquentiel hiérarchisé et le hot-deck métrique.

    V' Il y a aussi des méthodes dites de prévision, elles consistent à procéder à une régression adéquate. Les résultats du modèle de régression sont ensuite utilisés pour faire une prévision.

    Chapitre 2. METHODOLOGIE D'ESTIMATION DES D ECLARATIONS MANQUANTES

    La théorie statistique prévoit plusieurs méthodes pour l'estimation des valeurs des individus qui font défaut à l'observation. Ainsi l'on rencontre plusieurs pratiques dans les services statistiques. Ces pratiques sont plus ou moins basées sur l'intuition et le bon sens, plutôt que sur une théorie proprement dite. Surtout quand il s'agit des instituts des pays en voie de développement. Pourtant, ce ne sont pas les méthodes les plus robustes qui manquent en la matière.

    Dans ce chapitre, l'accent sera mis sur la méthodologie que nous utiliserons dans notre étude. Mais, nous commencerons par une présentation des méthodes d'estimation que l'INSD du Burkina Faso utilise. Cette partie sera suivie d'une critique de la méthode d'estimation utilisée jusque là par le service de comptabilité nationale de l'INSD.

    La collecte des DSF constitue une étape importante dans l'élaboration des comptes des sociétés non financières. A cet effet on entreprend des collectes périodiques dans les principales villes où l'activité économique est intense. Ces villes sont Ouagadougou, Bobo-Dioulasso, Koudougou et Banfora. Les renseignements contenus dans les DSF sont saisis à l'aide d'un micro programme informatique que le service de comptabilité nationale a mis en place. Ce programme tient compte de l'architecture des tableaux contenus dans les DSF. Et à travers un ensemble de règles bien définies par un manuel d'élaboration des comptes, on passe des données des entreprises (selon le plan SYSCOA1) aux rubriques de la comptabilité nationale.

    A l'aide de ces formules de passage, on calcule les données individuelles des entreprises comme le veut la comptabilité nationale. Ainsi la production prendra en compte en outre la production réalisée par l'entreprise (ventes de produits ou de services produits par l'entreprise, production stockée, immobilisée ou produits accessoires), les ventes des marchandises desquelles il faut retrancher les achats de marchandises. La valeur algébrique obtenue représente ainsi la production totale de l'entreprise selon l'optique de la comptabilité nationale. Ce formalisme peut être traduit par la formule suivante :

    Pdt = PdtStk + PdtImm +PdtsAcc + Vtemdse + VtePdtsFabr - Ach mdse + TrSvc Vend.

    Où les termes désignent respectivement, et dans l'ordre de leur apparition dans la formule, la production totale de l'entreprise, la partie de la production stockée, celle immobilisée, les produits accessoires, la vente de marchandises, la vente des produits fabriqués, les achats de marchandises et les travaux et services qu'aura vendus l'entreprise.

    Lorsqu'il s'agit d'une entreprise commerciale, la production est évaluée par la marge brute. C'est-à-dire la différence entre les ventes et les achats de marchandises.

    1SYSCOA: Système Comptable ouest africain, c'est le système de comptabilité que utilisent les pays membres de l'UEMOA.

    De cette même règle on évalue la consommation intermédiaire de l'unité soumise à l'étude par les formules de passage entre ces deux types de comptabilité. Cette formule est la suivante :

    CI = AchMat1 + Tsprt + SvcExtr + FrechDev + AutAch ? ÄStk. Les termes de cette équation se définissent comme suit:

    CI: Consommation Intermédiaire;

    AchMat1: Achat de matières premières;

    Tsprt: Coût de Transport;

    SvcExtr: Services Extérieurs;

    FrechDev: Frais de recherche et de développement c'est-à-dire les créations, les apports et les acquisitions;

    AutAch: Autres achats et

    ÄStk: Variation de stocks de matières premières et des autres achats.

    Quand à la rémunération des salariés, elle correspond au poste « frais du personnel » du SYSCOA. C'est donc une autre dénomination qui désigne le montant que l'unité de production accorde à son personnel en contrepartie du service qu'il fournit.

    Après ces calculs de passage entre les deux comptabilités, on obtient les indicateurs calculés pour chaque entreprise ayant pris part à l'étude. Mais un certain nombre de celles-ci a préféré s'abstenir. C'est pour ces dernières que nous tentons de trouver des méthodes qui permettent de réduire le biais qu'elles introduisent dans le calcul des agrégats.

    I. Méthode utilisée par l'INSD

    C'est une méthode basée sur le taux de croissance de la production des entreprises d'une même branche au cours des 5 dernières années ayant précédé l'année en cours.

    Cette méthode suppose que les entreprises appartenant à la même branche d'activité ont des taux de croissance similaires. Ainsi la production constitue - t - elle l'élément déterminant de l'estimation de toutes les grandeurs de la comptabilité prises en compte lors de l'établissement des comptes des sociétés non financières.

    Par branche d'activité, il est constitué un échantillon d'entreprises ayant transmis régulièrement leurs DSF sur la période considérée. Cet échantillon doit en outre être représentatif de l'ensemble de la branche ; en d'autres termes il doit représenter au moins quatre vingt pour cent (80%) de la production totale de la branche dont il est issu. On calcule ensuite des taux de croissance moyens de la production pour l'ensemble de la branche à partir de l'échantillon.

    Pour une entreprise donnée et en fonction des données disponibles sur cette entreprise, on utilise les taux de croissance calculés pour estimer sa production.

    Pour l'estimation de la consommation intermédiaire, il est d'abord calculé un ratio CI Pdt pour chaque entreprise ayant déposé une DSF au cours de la période de référence.

    Ensuite on constitue, par branche d'activité, un échantillon d'entreprises dont les ratios CI Pdt
    sont assez stables sur la période. On calcule un ratio moyen à partir de cet échantillon, et par

    branche d'activité on applique cette moyenne CI Pdt à la production estimée pour avoir les CI estimées. On déduit la valeur ajoutée par solde.

    Pour l'estimation de rémunération des salariés (RS) et des impôts sur la production, on procède de la même façon que précédemment, mais selon le niveau, on calcule des moyennes RS/VA ou I/VA.

    Il faut souligner que cette méthode était surtout utilisée dans l'ancienne méthodologie d'élaboration des comptes sous le SCN 68 et aussi dans le cadre de l'élaboration des comptes de l'année de base 1999 sous le SCN 93 à l'aide du module ERETES. Pour l'élaboration des comptes des années courantes du module ERETES qui est en cours, l'estimation des agrégats des entreprises du secteur moderne non DSF se fait directement au sein du module à l'étape des comptes de branches. Toutefois, cette estimation gagnerait à être effectuée en dehors du module pour permettre d'aller plus vite dans les travaux internes au module ERETES.

    II. Critique de la méthode présentée

    La méthode explicitée ci-dessus a pour avantage de permettre de combler les données manquantes. A cet effet, elle permet de faire une analyse avec une base relativement complète. Cette façon peut être considérée comme une imputation simple. C'est-à-dire que l'on donne à toutes les observations manquantes la valeur commune censée être leur valeur si elles avaient participé à l'étude.

    S'il est vrai qu'elle permet d'avoir les données artificielles pour compenser le biais que pourraient introduire les non-réponses, il n'en demeure pas moins vrai qu'elle ne prend pas en compte ni la nature de non-réponse ni le type de mécanisme qui pourrait occasionner cette non- réponse. En effet, la méthode semble être une méthode d'imputation qui s'applique aussi bien à la non-réponse totale qu'à la no n-réponse partielle. Or, on sait que ces méthodes ne sont réellement efficaces que lorsqu'il s'agit d'une non-réponse partielle. Toutefois, même en présence de cette nature de non-réponse, il est tout à fait préférable de connaître le type de processus qui aurait généré la non-réponse. A défaut de connaître ce type, l'on suppose que les données manquantes suivent un processus que l'on doit tester.

    Confondre la non-réponse totale avec celle partielle et les traiter de la même manière sont susceptibles de porter préjudice à la qualité de données et partant celle des résultats qui seront assortis de l'étude. Car cela revient à considérer que l'individu qui n'a pas répondu à une moindre question de l'étude apporte la même perte d'information que celui qui refuse d'y participer. Par exemple, dans l'estimation de la production, même si l'entreprise n'a pas participé à la collecte, il suffit d'avoir une information sur son existence. Si tel est le cas sa production sera égale à la production estimée, de même que celle qui n'aurait pas répondu aux variables permettant d'évaluer sa production mais qui aura toutefois participé aux autres questions.

    En cas de non-réponse totale, il faut redéfinir les poids que le sondage aurait accordés aux unités statistiques qui devaient prendre part à l'interview. Car les poids de ces unités ne tiennent plus et ne peuvent plus être utilisés pour extrapoler les données sur l'ensemble de la population. Or, en comptabilité nationale, les données n'étant publiées que pour le pays, cette extrapolation ne doit en aucune manière être négligée. On se rend compte que la procédure développée dans la première partie de ce chapitre ne prend pas en compte cette nécessité de redéfinition des poids des unités.

    Cette méthode utilise les données d'une autre enquête ce qui permet d'avoir d'autres sources de traitement. Mais dans une économie ou les entreprises se créent et disparaissent aussi rapidement, il peut être non cohérent d'utiliser les données provenant d'une enquête lointaine dans le temps (de plus de dix ans par exemple). Car la démographie instable des entreprises fait appelle à une veille statistique et sa non prise en compte risque de rendre incohérentes les estimations. En effet, il est possible d'utiliser une entreprise dans le calcul de ratio et des taux de croissance alors que cette entreprise a disparu, ou a été délocalisée ou tout simplement a changé d'activité principale. En plus c'est une méthode d'imputation ponctuelle appliquée aux données manquantes sans tenir comptes de leur type (MCAR, NMAR ou MAR) ou de leur nature (partielle ou totale).

    L'objectif n'est pas de donner des estimations dont il est difficile - si ce n'est pas impossible - de mesurer le biais ou de donner une formule de la variance. Il s'agit plutôt de compenser les carences d'informations avec des méthodes assez simples et faciles à mettre en oeuvre. Le critère de choix de ces méthodes reste toutefois la traduction de la réalité le plus fidèlement possible. C'est pourquoi pour mieux faire l'estimation des DSF manquantes il est intéressant d'étudier et de savoir de quelle nature de non-réponse avons-nous à faire. En fonction de cette nature? Quelle est la méthode la plus appropriée et la plus possible à envisager pour le traitement? Ces éclaircissements feront l'objet de la prochaine partie.

    III. Proposition de méthode

    La méthodologie de traitement des données d'enquête est confrontée à plusieurs problèmes qui sont à la fois d'ordre pratique et théorique. La recherche de remède à ces difficultés n'est pas une chose aisée. En effet, le statisticien dans son travail de l'élaboration des données est confronté à un besoin sans cesse grandissant des acteurs de la vie économique et sociale. Ce besoin se manifeste par une pression accrue pour l'obtention des indicateurs de niveau global de l'activité dans un laps de temps. Cette pression est parfois accompagnée par une exigence portée sur la qualité des données que produit le statisticien.

    La faiblesse de culture statistique au sein de la plus grande partie de la population des pays en voie de développement est un handicap majeur pour la bonne collecte. Ces deux aspects contradictoires (d'une part une demande accrue pour avoir les statistiques et d'autre part la méconnaissance de bien fondé de statistiques de la part de la grande majorité) traduisant la vie statistique des pays de l'Afrique subsaharienne peuvent parfois entraîner une diminution du taux de réponse, comme nous l'avons explicité plus haut. Ce phénomène qui introduirait un faible taux de réponse amènerait à des estimations biaisées et parfois moins précises. A ce problème de faible taux de réponse et d'exposition à des risques d'introduction de biais dans les estimations, nous comptons proposer une méthode de traitement qui en tiendra compte. Cette méthode permettrait de réduire les effets de non-réponse, à défaut de les éradiquer. Nous présenterons notre méthode d'estimation après une analyse exploratoire de notre source statistique. Cette analyse nous permettra de définir les taux de réponse, le type de non-réponse, etc.

    1. Analyse exploratoire

    La base de données que nous utiliserons est issue de la collecte que le service a entreprise pour se procurer des informations sur l'activité des entreprises. Cette base contient les données nous permettant d'évaluer la production, la consommation intermédiaire, l'impôt lié à la production et la rémunération des salariés des entreprises DSF. Ces variables d'intérêt sont calculées à l'aide de formules de passage entre les deux comptabilités. Ces formules ont été

    explicitées dans la partie introductive de ce chapitre. Les entreprises ont un poids proportionnel à leur chiffre d'affaires sur celui du total. Ce poids était valable pour toutes les entreprises recensées, lors du dernier recensement commercial et industriel de 1998, qui devraient faire partie de l'échantillon. La collecte a lieu chaque année. Et nous utiliserons les données de 2001 pour l'illustration de la méthode que nous proposerons au service de comptabilité. Pour les données issues des collectes de l'année 2000 et de l'année 1999, on appliquera cette méthode proposée. Les résultats pour ces années sont représentés dans l'annexe du document.

    A l'issue de la collecte en 2001, un certain nombre d'entreprise ont pris part à l'interview, mais d'autres ne l'ont pas fait. Une description de l'état de participation des entreprises se dessine comme suit :

    Tableau 1: Etat de taux de réponse globale

     

    Fréquence

    Pour cent

    Valide DSF existe

    232

    59,6

    DSF n'existe pas

    157

    40,4

    Total

    389

    100,0

    Source: INSD, nos calculs.

    Sur le plan général, l'analyse de ce tableau permet de constater qu'en 2001, sur les 389 entreprises qui devraient prendre part à l'étude cent cinquante sept ont fait défaut à la collecte ou ont des DSF inutilisables. Cet effectif représente un taux de non-réponse assez élevé (plus de 40%). Cette classification concerne le taux de non-réponse totale. En effet, dans une étude pareille, il est presque impossible d'avoir affaire à des non-réponses partielles. Car les entreprises élaborent les DSF qu'elles mettent à la disposition des agents collecteurs. Ce qui signifie que le document n'est reçu que lorsqu'il est prêt. Mais cette répartition ne donne que la situation globale. Or, il serait intéressant de savoir quelle localité a tendance à tirer ce taux vers le haut. Cette répartition de niveau de réponse par grandes villes peut se résumer de la sorte :

    Tableau 2: Répartition de non-réponses par localité1

     
     
     

    Disponibilité de DSF

    Total

    DSF existe

    DSF n'existe
    pas

    Localité de

    BANFORA

    Effectif

    5

    4

    9

    l'entreprise

     

    taux de réponse

    55,6%

    44,4%

    100,0%

     

    BOBO

    Effectif

    47

    34

    81

     
     

    taux de réponse

    58,0%

    42,0%

    100,0%

     

    KDG

    Effectif

    4

    4

    8

     
     

    taux de réponse

    50,0%

    50,0%

    100,0%

     

    Ouaga

    Effectif

    176

    115

    291

     
     

    taux de réponse

    60,5%

    39,5%

    100,0%

    Total

     

    Effectif

    232

    157

    389

     
     

    taux de réponse

    59,6%

    40,4%

    100,0%

    Source: INSD, nos estimations

    Il existe une relation entre la localité de résidence de l'entreprise et sa décision de déposer sa DSF. Comme l'indique le test de Fisher exact (P-value = 0,891). La répartition des taux de non-réponse par localité permet de constater une disparité entre les différentes localités concernées par l'étude. Ainsi on peut remarquer qu'en dehors de la ville de Ouagadougou, les autres ont un taux de réponse supérieur à la moyenne. Parmi ces localités Koudougou (KDG) vient en tête de liste avec cinquante pour cent de non-réponse. Il faut signaler que pour un certain nombre d'entreprises, la variable localité n'était pas renseignée. Pour celles-ci, nous avons procédé à une interrogation par proximité. Cette interrogation a consisté à demander aux personnes ressources la localité de telle ou telle autre entreprise. Elle nous a permis de connaître la résidence d'une grande partie des centres élémentaires concernés. Pour ce qui est du reste (environ 8% de l'ensemble); nous avons décidé de faire une répartition entre les quatre localités au prorata de leur effectif dans la base.

    Au vu de cette répartition inégale des non-réponses entre les localités on peut se poser la question suivante: quel est le lien entre la non-réponse et une localité particulière? Dit autrement, est ce que la résidence de l'unité statistique influe sur sa décision de prendre part à l'étude ?

    Pour des besoins d'analyse, nous avons jugé nécessaire de créer une variable "type". Cette variable renseigne sur la vocation de l'entreprise. Nous lui avons affectée quatre modalités. Elle permet par exemple de savoir si les entreprises pharmaceutiques sont plus réticentes que les entreprises de transport ou de transit. Cette distinction est résumée dans le tableau qui suit.

    1 Un test de marasculo est fait pour confirmer les proportions. Un exemple de ce test est présenté dans l'annexe 7.

    Tableau 3: Taux de non-réponse selon la structure des entreprises

     
     
     

    Disponibilité de DSF

    Total

    DSF existe

    DSF n'existe
    pas

    Type de l'entreprise

    Entreprise Pharmaceutique

    Effectif

    Taux de réponse

    47

    50,0%

    47

    50,0%

    94

    100,0%

    Entreprise de Service ou Commerce

    Effectif

    Taux de réponse

    147

    63,1%

    86

    36,9%

    233

    100,0%

    Industrie

    Effectif

    Taux de réponse

    28

    60,9%

    18

    39,1%

    46

    100,0%

    Transport ou Transit

    Effectif

    Taux de réponse

    10

    62,5%

    6

    37,5%

    16

    100,0%

    Total

     

    Effectif

    Taux de réponse

    232

    59,6%

    157

    40,4%

    389

    100,0%

    Source : INSD, nos calculs

    Un test de Chi 2 de dépendance aboutit à une conclusion d'existence de relation entre le dépôt de DSF d'une entreprise et la vocation de celle-ci (P-value 1= 0,182). A l'exception des unités pharmaceutiques, on enregistre un taux de non-réponse inférieur à 40% au sein des autres types d'entreprises. Le taux élevé de non-réponse serait donc fortement influencé par les entreprises pharmaceutiques (les laboratoires, les grossistes de médicament et les pharmacies). Car les entreprises de cette structure, qui ne représentent qu'environ 25 pour cent de l'échantillon (voir annexe1), récoltent cinquante pour cent de non-réponse en leur sein. Par contre, les entreprises qui offrent des services (les cabinets d'étude par exemple) ou qui font le commerce ont le taux de non-réponse le plus faible (36,9%) quoiqu'elles constituent 59,9% de l'échantillon2.

    Après toute cette analyse exploratoire de la base, on s'aperçoit qu'il s'agit bel et bien d'un cas de non-réponse totale. Les entreprises pour lesquelles on n'a pas pu évaluer la production, la consommation intermédiaire, etc. sont celles qui n'ont pas déposé de déclaration. Ou ces sont des entreprises pour lesquelles on n'a pas pu disposer de DSF, peu importe la raison qui justifie le non dépôt. Pour tenir compte de cette carence, nous proposons de procéder par une repondération.

    2. Proposition de méthode de repondération

    Il s'agit, ici, de justifier notre choix qui s'est porté sur ce type de méthode. Cette justification sera suivie de la présentation de la façon dont nous comptons le mettre en pratique.

    a. Justification

    Comme nous l'avons fait remarquer, la non-réponse que nous traitons dans la collecte des DSF est de nature totale. Cette non-réponse concerne plus de quarante pour cent de l'échantillon constitué par des entreprises. Ce taux faible de réponse est de nature à affecter les estimateurs calculés sur la base de la collecte. Pour pallier cette difficulté et cette insuffisance,

    1 Il s'agit de la P-value associée à la statistique de Pearson qui suit un chi 2 de trois degré de liberté.

    2 On a effectué un test de proportion de marasculo sur ce tableau. Les résultats sont dans le dernier annexe.

    nous avons plusieurs méthodes en présence. Parmi celles-ci, notre choix s'est porté sur la méthode de repondération. En effet, la repondération s'avère facile à mettre en oeuvre lorsqu'il s'agit de non-réponse totale. Ce choix se justifie aussi par la nature de la base d'information. Nous n'avons pas des variables auxiliaires qui puissent permettre d'estimer les grandeurs économiques (production, CI, Impôt sur production,...) des entreprises absentes de la collecte. En sus, nous supposons l'existence d'un phénomène de réponse homogène au sein des groupes. Cette supposition nous conduit dans cette repondération, à procéder à la constitution de groupes de réponses homogènes. L'hypothèse de mécanisme de réponse homogène est en effet basée sur l'observation de la répartition des taux de réponse selon les groupes présentés dans la sous section supra.

    Une autre raison est qu'en comptabilité nationale et dans les études conjoncturelles, dont ces grandeurs peuvent faire l'objet l'on a recours à l'agrégation des données. Cette extrapolation (agrégation) incluant les réponses pour estimer le niveau national des grandeurs, utilise des coefficients. Ces coefficients, que l'on appelle coefficients d'extrapolation, ne sont autres que les poids que le sondage aura accordés aux unités. Or ces poids ne sont plus valides compte tenu de l'influence de la non-réponse. Il faut donc réajuster ces poids. C'est à ce niveau que la repondération se révèle nécessaire.

    b. Spécification de la méthode

    Dans ce qui suit, nous allons déterminer la procédure que nous adopterons lors de la mise en oeuvre de la méthode de repondération.

    A cet effet, nous n'allons pas faire directement l'ajustement des poids des unités répondantes. On procède au préalable à la définition des groupes de réponses homogènes. Ces groupes seront définis à l'aide des probabilités estimées de réponses. C'est donc à l'intérieur de ces groupes que nous appliquerons l'ajustement au poids des unités statistiques.

    b. 1 Estimations des probabilités de réponses

    Nous allons prédire ces probabilités de répondre pour chaque entreprise. Ainsi on pourra savoir la chance que chaque unité aura de répondre en tenant compte des facteurs qui agissent sur sa décision de répondre. En d'autres termes il s'agit de modéliser la chance qu'une unité réponde en tenant compte des informations sur celle-ci. Ces informations que nous appellerons plus tard les facteurs explicatifs, sont sensés avoir un effet sur la décision de l'entreprise de participer à la collecte des DSF. Pour la prédiction des probabilités de réponses de chaque unité, nous utiliserons un modèle d'estimation de probabilité approprié, il s'agit d'un modèle qualitatif.

    Dans ces modèles et contrairement aux régressions linéaires, où est associée à la réalisation d'un événement une valeur quantitative, on associe à la réalisation d'un événement sa probabilité d'apparition. Cette probabilité est toute fois conditionnelle aux variables exogènes. De façon formelle, on écrira le modèle suivant:

    P i =Prob(yi =1/xi)=F(xi)

    Où la fonction F(.) désigne une fonction de répartition que l'on choisira, xi et

    désignent respectivement le vecteur de variables explicatives et le vecteur de coefficients du modèle. Il existe un choix varié de fonctions de répartition mais deux sont les plus utilisées (la loi normale et la loi logistique). Ainsi, on désigne le modèle utilisant la loi normale par le modèle probit et celle qui utilise la loi logistique est appelée logit.

    Tout au long de notre étude nous choisirons le modèle logit pour prédire les probabilités associées au fait qu'une entreprise dépose sa DSF. Pour ce fait nous avons créé une variable expliquée (variable dépendante du modèle) qui prend la valeur "1" lorsque l'on détient la DSF de l'entreprise. Cette variable prend la valeur "0" dans le cas échéant. Il faut noter que pour tous les tests économétriques que nous mettrons en oeuvre, le seuil théorique est fixé à 5% sauf indication contraire.

    Comme toute estimation, il faut des variables explicatives. En ce qui nous concerne, trois variables ont retenu notre attention. Une sur le secteur d'activité de l'entreprise, une sur sa localité et la dernière sur son statut juridique. Nous rappelons que la variable sur le secteur d'activité de l'entreprise a été créée par nous. Et pour la renseigner nous avons procédé par une interrogation par proximité.

    Parmi ces variables, deux étaient catégorielles. Pour les besoins d'études il a été jugé nécessaire de dichotomiser leurs modalités. Ainsi chaque modalité est devenue une variable dichotomique (qui prend la valeur 0 ou 1). En effet, cette dichotomisation facilite l'analyse et donne une cohérence à l'interprétation. On peut ainsi dire que si l'entreprise est dans telle localité au lieu et à la place de "si l'entreprise a la valeur 4 de localité". Car cette valeur quatre n'est qu'une codification. Un autre analyste pourrait affecter à la même localité le code deux.

    Ainsi pour la prédiction des probabilités nous avons des variables explicatives suivantes :

    1' Quatre variables dichotomiques liées à chacune des quatre localités soumises à l'étude. Ces variables sont VIOU (qui vaut 1 si l'entreprise est à Ouagadougou et zéro sinon), VIBO (pour la ville de Bobo-Dioulasso), VIBA (pour la ville de Banfora) et VIKD (la ville de Koudougou).

    1' Quatre variables correspondant au secteur d'activité de l'entreprise. On a VIPH qui prend la valeur 1 lorsqu'il s'agit d'une entreprise pharmaceutique. Ce secteur regroupe les pharmacies et les grossistes pharmaceutiques. La variable VISC regroupe les entreprises offrant des services d'études (bureau d'étude par exemple) et les entreprises commerciales. La variable VIIN rassemble les entreprises industrielles. Quand à la variable VITT, elle concerne les unités qui offrent le service de transport, de transit ou de tourisme. Il s'agit des compagnies de transports, des entreprises de transits et des agence de voyage et tourisme On rappelle que toutes ces variables sont dichotomiques. A cet effet, elles prennent l'unité comme valeur lorsque le critère est respecté et zéro si tel n'est pas le cas.

    1' Et enfin une variable renseignant sur le statut juridique de l'entreprise. Celle-ci permet de distinguer les unités privées des unités publiques. Cette variable, Pub, prend la valeur 1 pour les entreprises et les sociétés d'Etat et prend 0 pour tout autre type d'entreprises.

    Pour estimer la probabilité qu'une entreprise dépose sa DSF compte tenue de la connaissance sur les facteurs explicatifs de sa décision on utilisera le modèle logit. La variable expliquée est aussi dichotomique. Il s'agit de la variable suivante:

    ?

    VDSF i = ??

    1 si la DSF existe 0 sinon

    Il s'agit donc d'estimer le modèle suivant: P Prob VDSF x F x

    = = =

    ( 1/ ) ( ) Où la probabilité vaut la valeur de la fonction de répartition

    VDSFi i i i

    de la loi logistique considérée au point et qui peut s'écrire comme suit:

    x i

    F ( )

    x = i

    i

    e x 1

    = ? =

    i 1,

    1 1

    + +

    e e

    x x

    i i

    -

    2,....,n.

    Ce modèle permet d'estimer, à l'aide de logit, la probabilité pour qu'une unité statistique soit répondante à l'étude compte tenu des informations que l'on détient sur elle. C'est donc une espérance conditionnelle que VDSF soit égale à 1 connaissant les valeurs des autres variables explicatives.

    Après estimations on trouve des résultats qui sont répertoriés dans le tableau ci-dessous :

    Tableau 4: Résultat de l'estimation de probabilités de réponses

    VDSF

    Coefficients

    Std. Err.

    Statistiques

    P-value

    Intervalle de confiance à 95%

     
     
     
     
     

    Borne inférieure

    Borne supérieure

    VITT

    0,0442354

    0,6033469

    0,07

    0,942

    -1,138303

    1,226774

    VISC

    0,0784134

    0,3355564

    0,23

    0,815

    -0,5792651

    0,7360918

    VIPH

    -0,4476894

    0,3747968

    -2,19

    0,032

    -1,01202278

    -0,0868988

    VIBA

    0,0910208

    0,9857771

    0,09

    0,926

    -1,841067

    2,023109

    VIBO

    0,1577487

    0,7550015

    2,21

    0,014

    0,037524

    1,012027

    VIOU

    0,3017356

    0,7261064

    0,42

    0,678

    -1,121407

    1,724878

    Pub

    0,1969121

    0,5172728

    0,38

    0,703

    -0,8169239

    1,210748

    Constante

    0,184638

    0,7871903

    0,23

    0,815

    -1,358227

    1,727503

    Source: INSD, nos estimations

    A l'issue de cette estimation par le modèle logit, on constate qu'au sens statistique seules deux variables explicatives sont significatives au seuil de 5% : il s'agit de VIPH et VIBO. Ce qui signifie que statistiquement, ces deux variables ont une influence sur le fait qu'une unité dépose sa déclaration statistique. Autrement dit lorsqu'une entreprise est basée à Bobo-Dioulasso, la chance que celle-ci dépose sa déclaration augmente. Tandis que la structure pharmaceutique influence négativement la décision de répondre de l'unité à la collecte. Il est à noter que deux variables ont été supprimées. Car elles risquaient d'introduire une colinéarité dans l'estimation. Il s'agit de variables VIIN et VIKD.

    Il vient d'après l'estimation que la probabilité de réponse est:

    +

    P V D S F = ? ( 0 , 0 4 4 2 3 5 4 * 0 , 0 7 8 4 1 3 4 * 0 , 4 4 7 6 8 9 4 * 0 , 0 9 1 0 2 0 8 *

    V I T T V I S C V I P H V I B A

    + - +

    0 , 1 5 7 7 4 8 7 * 0 , 3 0 1 7 3 5 6 * 0 , 1 9 6 9 1 2 1 * 0 , 1 8 4 6 3 8 ) .

    V I B O V I O U P u b

    + + +

    Avec ? qui désigne la fonction de répartition de la loi logistique.

    Cette non significativité des autres variables mérite d'être soumise à des tests. Ces tests et diagnostics permettront de détecter une présence éventuelle des "outliers" ou de "leverages" ou d'autres types de problèmes susceptibles d'affecter la qualité de l'estimation.

    b.2 Diagnostics du modèle

    Intéressons nous à expliquer le modèle estimé ci-dessus. Cette explication se fera à l'appui des tests numériques et graphiques sur les leverages, la distance de Cook, les résidus de l'estimation et sur d'autres.

    Pour les résidus, on s'attachera à vérifier une éventuelle présence d'observations outliers. Compte tenu du nombre d'observations, on peut supposer une normalité asymptotique de ceux-ci. En effet, nous avons plus de trois cent observations. Ceci permet de supposer que les résidus suivraient asymptotiquement une distribution normale.

    Une observation peut être considérée comme outlier, si elle a un grand résidu. Dans la pratique la valeur absolue de résidu standardisé est comparée à deux. Si pour une observation ce résidu est supérieur en valeur absolue à deux, on dira alors qu"il s'agit d'une observation outlier. En ce qui nous concerne nous pouvons le vérifier à l'aide du graphique suivant:

    0 100 200 300 400

    ident

    Graphique 1: Résidu standard par entreprise

    Source: INSD, nos estimations

    L'analyse de ce graphique laisse apparaître une conclusion assez intéressante. Car elle permet de constater qu'on n'est pas confronté aux observations outliers. En effet, tous les résidus sont contenus entre les deux lignes horizontales délimitées par 2 et -2. Cela signifie qu'aucune des unités n'a une probabilité de réponse peu commune avec les autres entreprises compte tenu des facteurs explicatifs. Cette situation pourrait traduire une bonne disposition des chances de réponses. Quoique importante, l'absence des outliers ne suffit pas pour conclure une absence de problème.

    Un autre type de problème auquel on peut être confronté est celui des observations leverages. On dit qu'une observation est leverage lorsque la valeur de sa puissance (leverage) devit considérablement de sa moyenne. Ce leverage est donc comparé à deux fois sa moyenne théorique. De façon formelle on peut résumer comme suit:

    ? ?

    r

    h h r rst

    1 Où , et désignent respectivement le leverage, le résidu de l'estimationet le

    i

    ii = -? ? ii i i

    ? ?

    rst i

    résidu standard de l'individu . Cette valeur est comparée à 2* i

    ? + ?

    k 1

    ? ?

    ? ?

    n

    avec nombre de k

    s variables

    explivative et n celui de l'observation. Lorsque ii dépasse cette valeur on parle de leverage élevé.
    h

    Avant de faire ce test de "puissance élevée" sur les unités de la base d'informations, nous chercherons d'abord à déterminer les observations qui pourraient influencer les estimateurs. Pour ce fait, on utilise la notion de distance de Cook. Compte tenu du nombre impressionnant des observations de notre base de données, nous n'avons pas jugé nécessaire de présenter la liste des observations influentes. On a plutôt créé une variable "compteur". Cette variable sert à compter le nombre de ces observations. Les résultats sont consignés dans le tableau ci-dessous:

    Tableau 5: Les observations ayant des distances élevées

    Candidats

    Effectif

    Pourcentage

    Non

    324

    83,29

    Oui

    65

    16,71

    Total

    389

    100

    Source: INSD, nos estimations

    On constate d'après ce tableau, que sur les 389 observations qui constituent la base soixante cinq sont candidates pour être des influences. Mais l'analyse la plus pointue des observations laisse apparaître une absence de leverage. Ce qui signifie que sur environ les dix sept pour cent des observations qui se révéleraient high leverage (distance de Cook élevée), aucune ne possède une puissance élevée. Cette situation traduirait, que les données sembleraient être bien classées. Toutefois, la non significativité de certaines variables pourraient en partie être due à ces observations qui ont une distance de Cook élevée. Le test d'autocorélation de DurbinWatson conduit à une absence dune éventuelle autocorélation entre les résidus de l'estimation. En effet, la statistique de Durbin-Watson calculée est de 1,997. Qui se situe dans l'intervalle correspondant à l'absence d'autocorélation.

    Nous nous sommes jusqu'ici intéresser aux problèmes que peuvent entraîner les observations. Un autre diagnostic consiste à tester la classification des données prédites et à vérifier l'adéquation du modèle avec les données. Pour le critère de classification de données, nous utiliserons l'indicateur R2 count. C'est un indicateur de bonne classification. C'est-à-dire pour la quelle la valeur estimée serait égale à la valeur observée de la variable d'étude.

    Pour sa mise en oeuvre, on crée une variable qui prend la valeur 1 lorsque la valeur estimée de VDSF> 0,5 et zéro dans l'autre cas. Ainsi on construit un tableau1 permettant le

    calcul de R2 count. L'indicateur peut être donné de la façon suivante:

    1 Ce tableau se trouve dans l'annexe 2, il est intitulé table de prédiction du modèle.

    2 00 11

    n n

    +

    R=

    count n

    où n désigne (respectivement n 11 ) l'effctif des unités pour lesquelles = 0

    VDSF

    00

    (respectivement 1) et estimée vaut 0 (respectivement 1).

    VDSF

    Après calcul on trouve R2 count=59, 13%. Ce résultat signifie que le modèle est à environ plus de cinquante neuf pour cent bien classifié. En d'autres termes nous avons une classification de probabilité de réponse de bonne qualité. L'analyse du tableau de l'annexe 2 permet de connaître comment le modèle aurait prédit le classement pour chaque individu de l'échantillon. Le jugement qu'on porte sur le modèle peut en dépendre. En effet, plus les prédictions du modèle sont conformes à la réalité plus est positif le jugement qui lui est fait. Le tableau de l'annexe 2 résume ce test. Ainsi on constate que la probabilité qu'une unité soit classée répondante sachant qu'elle a répondu est de 95,26%. Cette probabilité d'être classée non répondante sachant que l'unité est non répondante est de 5,73%. Autrement dit, pour une unité répondante le modèle le classe répondante dans une très grande proportion. Alors que pour celle non répondante, il la classe dans une proportion moins importante. L'on peut lire aussi dans ce tableau que la probabilité pour qu'une unité soit répondante sachant que sa probabilité prédite d'être répondante est inférieure à 0,5 est de 55%. A contrario, une unité dont la probabilité prédite est supérieure à 0,5 a une probabilité de 0,4 d'être non répondante. Mais ces chances de réponse ou de non-réponse ne suffisent pas pour conclure à un bon calibrage du modèle. Pour ce fait, nous utiliserons le test de Hosmer-Lemeshow.

    Le test de Hosmer-Lemeshow est un test d'adéquation du modèle. Il permet de se rendre compte sur le niveau de calibrage du modèle qui est soumis à l'étude. C'est donc une procédure qui consiste à tester l'adéquation entre les valeurs prédites par le modèle et les valeurs observées de la variable d'étude. Pour ce faire, on regroupe les individus en classes1. On calcule une statistique de Hosmer-Lemeshow qui suit un chi deux. Si la p-value associée à cette statistique est inférieure au seuil théorique qu'on s'est fixé, on dira que le modèle ne reflète pas la réalité. A contrario, si cette p-value est supérieure à cinq pour cent, nous pouvons affirmer un calibrage du modèle. C'est-à-dire qu'on peut affirmer, avec un risque de cinq pour cent de se tromper, que le modèle reflète la réalité (les données observées).

    Le résultat de Goodness of fit Test (Test de Hosmer- Lemeshow) est répertorié dans le tableau de l'annexe 3 du document. Dans ce tableau outre le regroupement, on a la p-value associée à la statistique de Hosmer-Lemeshow. Cette p - value = 0,8289, forts de ce résultat

    nous pouvons affirmer que notre modèle est bien calibré, qu'il reflète les données dont il prétend expliquer. Il est à remarquer que l'on ne devrait pas surestimer l'importance de l'ajustement dans les modèles où la variable dépendante est dichotomique 2.

    b.3 Odds ratio

    Le odds ratio est un indicateur qui permet de tester l'association entre deux variables, l'une étant une variable d'intérêt et l'autre une variable explicative dans un modèle CLDV donné. Il se calcule en général sur les variables dichotomiques. Toutefois, on peut dichotomiser les

    1 Pour plus d'amples de renseignement se reporter à l'annexe 3 du document. Un tableau représente ce regroupement.

    2 Gujarati. N. D. (2004) - Econométrie, 4ème édition américaine : Traduction Par Bernier B., Col. Ouvertures Economiques, De Boeck, Bruxelles.

    variables explicatives continues. Pour ce fait, on choisit une caractéristique de tendance centrale1 comme critère. Ainsi un odds ratio différent de 1 signifie qu'il y a association entre les deux variables, un odds ratio égal à 1 signifie que les deux variables ne sont pas en liaison. Le odds ratio est définis à partir de rapport entre deux odds, lesquels sont définis ainsi qu'il suit :

    ( )

    VDSF X

    = =

    1/ 1

    i

    ( )

    VDSF X

    = =

    1/ 1

    i

    Odds1

    P r

    1-P r

    p ( )

    = =

    Odds 2

    1/ 0

    VDSF X

    r i

    1 1/ 0

    - = =

    p VDSF X

    r ( )

    i

    Ainsi le odds ratio peut être donné de la façon suivante :

    Oddsratio

    =

    Pr Pr

    ( ) ( ( ) )

    VDSF X P VDSF X

    = = - = =

    1/ 1 / 1 1/ 1

    i r i

    ( ) ( ( ) )

    VDSF X P VDSF X

    = = - = =

    1/ 0 / 1 1/ 0

    i r i

    Après calcul, on trouve des résultats qui aboutissent à la conclusion selon laquelle toutes les variables ont une association avec la variable d'étude. Ces résultats sont présentés dans le tableau qui suit :

    Tableau 6: Odds ratio des variable explicatives

    Variables

    Odds Ratio

    VITT

    1,045228

    VISC

    1,08157

    VIPH

    0,6391031

    VIBA

    1,095292

    VIBO

    1,570872

    VIOU

    1,352204

    Pub

    1,217637

    Source : INSD, nos estimations

    Comme on le voit dans le tableau, même si certaines variables explicatives ne sont pas statistiquement significatives au risque de cinq pour cent, elles auraient des liens avec la variable d'étude. C'est-à-dire qu'il y a effectivement une association entre chacune des variables choisies et la décision de l'entreprise de fournir ou de ne pas fournir sa DSF. L'on constate que les entreprises pharmaceutiques ont une propension plus grande à ne pas déposer leurs DSF toute chose égale par ailleurs. Tandis que les entreprises offrant le service ou les entreprise commerciales (variable VISC) ont une propension plus grande à répondre favorable à l'étude.

    La première étape de mise en oeuvre de la méthode de repondération consistait à prédire les probabilités de réponse aussi bien pour les répondantes que pour les non répondantes. L'on devait se rassurer que ces probabilités pouvaient être acceptées (pouvaient refléter les données). Ce souci a nécessité des tests et des diagnostics. A présent, on va ordonner ces chances de réponse et on les regroupera en classe de réponses homogènes.

    1 La moyenne lorsque la variable suit une distribution normale et dans le cas échéant on conseille la médiane. La variable dichotomique prend zéro si la valeur de la variable concernée est inférieure à la caractéristique sinon elle prend un.

    b.4 Groupes de réponses

    Dans cette section l'idée motrice est de trouver un regroupement des unités en des classes. Ce regroupement se fait de telle sorte que les classes puissent être pertinentes pour l'analyse. De plus ces classes doivent être basées sur les probabilités prédites plus haut. Il s'agit donc de construire des groupes à partir des probabilités qu'on a prédites avec le modèle utilisé dans la section précédente. Pour notre part nous utiliserons cinq classes de réponses. Ces classes sont définies à partir des quintiles de la probabilité de réponse. En effet, d'après Laurent Donzé - enseignant à l'université de Fribourg (Suisse) - il est préférable lors de construction de groupe de réponses homogènes de choisir un nombre de classe limité. Pour cela il propose de "former cinq à six classes à partir des probabilités estimées, en prenant par exemple les quintiles1 ".

    Nous avons constitué nos groupes de réponse homogènes sur les quintiles des probabilités que nous avons estimées pour les unités qui constituent la banque d'informations. Mais ces groupes ne respectent pas toutes les hypothèses de groupes homogènes. En effet, il existait deux classes qui ont la même probabilité de réponse2. Or une des hypothèses est qu'à l'intérieur des classes on ait des probabilités identiques de réponses; cette probabilité doit être différente selon les classes. Nous avons donc utilisé quatre classes de réponse au lieu de cinq. Ces groupes sont consignés dans le tableau qui suit :

    Tableau 7: Caractéristique de groupe de réponse homogène pour la repondération

    N° de groupe

    Probabilités

    Observations manquantes

    Observations non Manquantes

    Observations totales

    1

    0,5654

    49

    48

    97

    2

    0,6296

    41

    56

    97

    3

    0,6376

    36

    61

    97

    4

    0,6817

    31

    67

    98

     

    Total

    157

    232

    389

    Source: INSD, nos estimations

    On constate que les probabilités estimées de réponses varient avec les classes ce qui signifie que les chances de réponses sont différentes d'une classe à une autre. C'est à l'intérieur de ces groupes que nous allons procéder à la repondération qui donne lieu à l'estimation de la production, de la consommation intermédiaire, de l'impôt sur production et de la rémunération des salariés des entreprises.

    1 Donzé L. (2003) - Théorie et pratique des enquêtes : analyse de données d'une enquête complexe, Université de Fribourg, Fribourg, Suisse.

    2 Se référer à l'annexe 4 du document.

    Chapitre 3. : ESTIMATION DES DSF DES ENTREPRISES DU SECTEUR MODERNE.

    Dans ce chapitre, il sera question pour nous d'estimer la production et la consommation intermédiaire (Première partie). En suite on procède à l'estimation de la rémunération versée aux salariés par les entreprises et l'impôt sur la production. Ce qui fera l'objet de la seconde partie du chapitre.

    I. Estimation de la production et de la CI

    Le statisticien dans sa quête de l'information, cherche à fournir aux dirigeants et aux opérateurs économiques des informations leur permettant de décider face à une politique donnée et à un objectif précis. A l'issue d'une collecte on met en pratique plusieurs techniques. Ces techniques ont pour but de corriger les éventuelles incohérences qui pourraient affecter la banque d'informations. A cet effet, elles permettent de donner des estimations "plus réalistes" (qui ne seraient pas biaisées) des grandeurs. Ainsi, en comptabilité nationale l'accent est beaucoup plus mis sur les grandeurs économiques. C'est ainsi que nous allons estimer le total de la production du secteur et celui de la consommation intermédiaire. Car en comptabilité nationale, on s'intéresse plus aux agrégats lors de l'établissement des comptes, plutôt qu'aux données individuelles. En sus le type de non-réponse permet d'estimer plus facilement le total que d'imputer une variable à chaque unité non répondante.

    1. Estimation de la production

    Ici, il s'agit d'estimer le total de la production à l'aide de l'ajustement au poids. Cet ajustement a été possible grâce à la constitution de groupes de réponses homogènes. On suppose donc qu'à l'intérieur des groupes les unités ont le même taux de réponse (probabilité estimée de réponse) et leur poids sera calculé en fonction de ce nouveau taux de réponse. Ces poids seront ensuite utilisés dans l'estimation de total d'une grandeur considérée. De façon formelle, nous avons:

    Pour chaque élément de l'échantillon, un coefficient d'ajustement est calculé. Ce coefficient est proportionnel à son poids et inversement proportionnel à la probabilité de réponse du groupe auquel il appartient. Ainsi le coefficient, est calculé selon la formule qui suit :

    Pds

    Pdsajusté i

    i

    = avec appartenant à la classe c.

    i ?

    Pc

    Pdsajustéi représente le poids ajusté de l'unité i pour la repondération (coefficient d'ajustement). La variable Pdsi représente le poids de l'unité avant l'ajustement. Et le

    dénominateur désigne la probabilité estimée de réponse dans la classe c. Il est important de signaler que lorsque le sondage n'aurait pas défini de poids pour les unités, on peut prendre l'inverse de probabilité. Il s'agit en effet, d'affecter un poids à chaque unité. Ce poids serait égal à "l'inverse de la probabilité estimée de réponse de la classe à la quelle appartient l'unité

    statistique "1. C'est ce poids ainsi défini qui sera considéré comme le poids ajusté pour la repondération.

    En utilisant ce résultat, on calcule la production totale qui cette fois-ci tiendra compte de la non-réponse et de son effet sur l'estimation. La production totale est donc estimée par la formule qui suit:

    Pdt = ? Pdsajusté Pdt

    i * i

    i

    Après calcul on trouve comme production totale estimée la valeur suivante : 772 497,573 millions de F CFA. Ce qui signifie qu'avec la prise en compte de données manquantes la production du secteur moderne s'élève à plus de sept cent soixante dix milliards de FCFA.

    Quand à la moyenne de la production nous la calculerons par l'estimateur d'Horowitz et Thomson. Cet estimateur est donné par la formule ainsi qu'elle suit :

    = ?

    n

    PdtPdt

    c *

    n

    c

    c

    Avec Pdtc désignant la production moyenne des répondants d'une classe c donnée. On conserve les notations précédentes. Cette moyenne vaut : 1 286,3 12 millions de FCFA.

    2. Estimation de la consommation intermédiaire

    Par consommation intermédiaire, nous entendons tous ce qui a été utilisé par l'unité de production concernée dans son processus de production. Cette définition prendra donc en compte tous les frais nécessaires qui reviennent à l'entreprise pour se procurer de l'intrant de production. C'est cette définition qui a permis le calcul de la CI.

    Pour l'estimation de la consommation intermédiaire, il nous a semblé important de donner le total estimé. Comme pour la production, on a utilisé la même formule de calcul de l'estimateur du total et de celui de la moyenne. Pour le calcul, il suffit de remplacer dans les formules ci-dessus les productions par les consommations intermédiaires.

    La mise en pratique de ces formules permet d'avoir des résultats suivants. Pour la consommation intermédiaire totale, on a une estimation qui s'élève à 508 064,642 millions de F CFA. La moyenne vaut 842,663 millions de FCFA. Cette valeur permet aussi d'estimer la valeur ajoutée de ce secteur qui regroupe divers types d'entreprises. Il suffit simplement de faire une différence entre la production et la consommation intermédiaire pour obtenir la VA estimée.

    II. Estimation de la rémunération des salariés et de l'impôt sur production

    Dans cette partie, conformément à la demande du service d'accueil, nous allons estimer la rémunération que les unités élémentaires de décision du secteur moderne ont accordée à leur personnel pour l'année 2001. Sera suivie de cette estimation, celle de l'impôt sur productions des entreprises. A l'image de la partie précédente, cette partie comportera deux sous parties. Chacune est consacrée à une estimation précise.

    1 Donzé L. (2003) - Théorie et pratique des enquêtes : analyse de données d'une enquête complexe, Université de Fribourg, Fribourg, Suisse

    1. Estimation de la RS

    La rémunération des salariés correspond au traitement que les entreprises ont versé à leur personnel en contre partie des services que ce denier leur fournisse. Elle comprend en outre le salaire brute, les indemnités accordée par l'entreprise au personnel, les congés payés, les cotisatio ns sociales payées par l'entreprise pour le personnel auprès d'un service de sécurité sociale. Il s'agit donc d'un concept qui va au-delà du salaire. C'est cette définition qui a retenu notre attention. A l'aide de celle-ci on a pu établir une évaluation des RS pour les entreprises répondantes. Pour estimer le total de RS du secteur, il faut donc faire une estimation du total.

    Cette estimation du total, comme les deux précédentes, sera faite à partir de la méthode de repondération telle qu'explicitée plus haut. Après estimation on trouve pour le secteur moderne une RS de 92 185,782 millions de F CFA. Ce qui signifie que pour leur fonctionnement, les unités de production ont du versé une somme de plus de 92 milliards de FCFA à leur personnel en compensation du service que ce dernier leur apporte. Sans pour autant connaître avec l'exactitude la répartition de ce montant entre les secteurs institutionnels, on pourra établir un équilibre ressources emplois de RS lorsqu'on connaît les emplois des autres secteurs et la ressource des ménages. Car l'essentiel n'est pas de savoir quel montant le ménage aura reçu de tel ou tel autre secteur.

    On cherche plutôt à faire un ERE de l'opération en question (rémunération des salariés). Ainsi pour les 92 185,782 millions de nos francs que le secteur moderne a dépensé en rémunérant ses salariés, une partie est versée au ménage, une autre partie serait probablement versée au reste du monde. Il n'est toutefois pas nécessaire de savoir combien ce secteur a offert au reste du monde (ou au ménage) pour s'offrir son service.

    Il sera aussi intéressant de savoir en moyenne combien les entreprises dépenseront pour rémunérer leurs salariés. Cette moyenne est estimée avec la même formule que les deux précédentes dans la partie une de ce chapitre. On a donc une moyenne de RS pour l'année 2001 qui s'élève à 154,721 106 de F CFA.

    2. Estimation de l'impôt sur production

    Dans cette sous section, il s'agit d'appliquer la repondération pour avoir l'impôt sur production. Nous allons estimer le total de l'impôt que les entreprises du secteur moderne payeront sur leur production. En effet, cet impôt est important dans l'établissement des comptes nationaux de façon général. Il en est aussi important pour les comptes des sociétés non financières en particulier.

    A l'image des autres estimations susmentionnées, on utilise les probabilités prédites de réponses pour faire l'estimation du total de l'impôt sur production de l'ensemble des entreprises du secteur concerné. Ainsi, on trouve comme impôt estimé une valeur de 20 077,93373 millions de F CFA.

    Les entreprises payent en moyenne (pour l'année 2001) un impôt sur production de 33,554935 1 millions de FCFA. Ces estimations permettront ainsi d'élaborer (ou de faciliter l'élaboration) des comptes des entreprises concernée, et partant ceux de la nation.

    Recommandation

    RECOMMANDATIONS

    Au cours de notre étude, il nous a été demandé de proposer une méthode au service de la comptabilité nationale du Burkina Faso. Cette méthode doit permettre de faire une estimation des grandeurs économiques qui prendrait en compte les éventuelles non réponses à l'issue de la collecte. Après analyse exploratoire des sources de données dont nous disposions, il nous a paru nécessaire de proposer la méthode de repondération. Car cette méthode se montre intéressante avec les non réponses globales (totales). Dit autrement, c'est une méthode qui s'applique mieux aux données manquantes, lorsque ce manque est dû à la non-réponse totale.

    Pour l'illustration de cette méthode nous avons utilisé la base de données issue de la collecte des déclarations statistiques et fiscales 2001. Outre cette base nous avons appliqué la méthode proposée à deux bases d'informations. Ces bases sont aussi des résultantes des collectes que le service a entreprises au cours des années 1999 et 2000

    A cet effet, nous proposons au service de veiller à l'application de la méthode de repondération pour compenser les manques de données de cette nature (non-réponse totale).

    Concernant la collecte de DSF, nous recommandons une attention particulière aux entreprises répondant aux caractéristiques pour lesquelles les Odds ratio sont inférieurs à l'unité. Car ces entreprises ont des chances importantes de ne pas donner de DSF. Pour des années à venir, nous suggérons de prendre en compte l'âge des entreprises. Cette prise en compte sera possible dès lors qu'on demande aux entreprises de mentionner leurs dates de création sur leurs DSF. Ainsi on pourra s'intéresser à savoir si ce sont les entreprises les moins jeunes qui ont tendances à ne pas faire de déclarations.

    Nous pensons qu'il est préférable qu'une entreprise n'aie qu'un identifiant unique quelque soit la localité. Cet identifiant doit lui est être propre. Car cela permettra de faciliter le contrôle de cohérence et aussi d'éviter les doublons. Pour cela, on peut numéroter les localités par un ordre précis. De même, on identifie les communes au sein d'une localité; ensuite les entreprises auront un numéro par ordre croissant dans la commune. Pour une entreprise, il suffit de faire une concaténation de ces trois nombre pour avoir l'identifiant de l'entreprise.

    Conclusion

    CONCLUSION

    Basée sur la collecte des DSF que l'INSD du Burkina Faso a entreprise - à travers son service de comptabilité nationale - au cours de trois années antérieures (1999, 2000 et 2001), cette étude avait pour but de déterminer le type de non réponse des entreprises à la collecte. En d'autre terme quel type de non réponse introduirait les entreprises du secteur moderne non DSF dans la base d'informations dont on dispose. Après cette détermination de type de non réponse, il fallait proposer une méthode de traitement de ces carences d'informations par une technique statistique. Après des études descriptives et des estimations des chances de réponse via les techniques d'économétrie, on aboutit aux résultats suivants :

    Premièrement, les non réponses qui se présentent dans les différentes bases de données sont des non réponses totales

    Deuxièmement, la régression logit a permis de clarifier les relations qui pourraient exister entre les variables explicatives retenues et la probabilité pour les entreprises de fournir les DSF. Certaines se sont montrées influentes sur cette chance de collecter les DSF des entreprises. Tans disque d'autres auraient simplement un lien avec cette chance sans pour autant l'influencer. Ainsi, toutes les variables explicatives auraient un lien avec la décision de participer ou non à la collecte. Quoique certaines d'entre elles ne soient pas statistiquement significatives au seuil théorique que nous nous sommes fixés. En effet, les Odds Ratio sont différents de l'unité pour chaque variable explicative. Cette différence des Odds Ratio avec l'unité s'opère pour les trois années. Les données estimées par le modèle reflétant la réalité (test de Hosmer-Lemeshow), nous avons construit des groupes de réponses homogènes.

    Ces groupes ont permis de calculer les poids ajutés des unités ayant accepté de fournir leurs DSF. Ainsi, on a pu construire quatre groupes de réponses pour l'année 2001, cinq pour l'année 2000. Et enfin six groupes ont pu être distingués pour l'année 1999. Ce sont ces groupes qui ont ainsi permis de faire des estimations des moyennes et des totaux des différentes grandeurs. Ainsi, conformément à la demande du service d'accueil nous avons fait des estimations des totaux des grandeurs de comptabilité nationale.

    Cette étude a donc permis d'estimer les grandeurs en tenant compte des taux de réponses lors de la collecte. Les caractéristiques de ces grandeurs, comme toute autre grandeur des bases utilisées, peuvent être estimées en utilisant les formules d'estimations qui conviennent.

    Annexes

    Annexe1 : Etat de non-réponse et constitution de

    l'échantillon.

    Tableau 8: Etat de non-réponses selon le statut des entreprises

     

    Disponibilité de DSF

    Total

    DSF existe

    DSF n'existe
    pas

    Statut des entreprises Privée Effectif

    220

    151

    371

    Taux de
    réponse

    59,3%

    40,7%

    100,0%

    Publique Effectif

    12

    6

    18

    Taux de
    réponse

    66,7%

    33,3%

    100,0%

    Total Effectif

    232

    157

    389

    Taux de

     
     
     

    réponse

    59,6%

    40,4%

    100,0%

    Source : INSD, nos calculs

    Graphique 2: Répartition de l'échantillon selon la résidence des entreprises

    BAN FO RA

    BOBO

    KDG

    Ouaga

    Source; INSD, nos estimations.

    Tableau 9: Répartition des entreprises selon leur vocation

     

    Fréquence

    Pourcentage

    Valide Entreprise

    Pharmaceutique

    Entreprise de Service

    ou Commerce

    Industrie

    Transport ou Transit Total

    94

    233

    46 16 389

    24,2
    59,9

    11,8
    4,1
    100,0

    Source : INSD, nos calculs.

    Annexe 2 : Test de classification de donnée et

    d'autocorélation

    Tableau 10: Table de prédiction du modèle1

    Logistic model for VDSF
    True

    Classified |

    D

    ~D

    |

    Total

    +

     
     
     

    +

     

    +

    |

    221

    148

    |

    369

    -

    |

    11

    9

    |

    20

     

    +

     
     

    +

     

    Total | 232 157 | 389

    Classified + if predicted Pr(D) >=0,5
    True D defined as VDSF ~= 0

    Sensitivity Pr( +| D) 95,26%

    Specificity Pr( -|~D) 5,73%

    Positive predictive value Pr( D| +) 59,89%
    Negative predictive value Pr(~D| -) 4 5,00%

    False + rate for true ~D Pr( +|~D) 94,27%

    False - rate for true D Pr( -| D) 4,74%
    False + rate for classified + Pr(~D| +) 40,11%
    False - rate for classified - Pr( D| -) 5 5,00%

    Correctly classified 59,13%

    Source: INSD, nos calculs et estimations

    1 Dans ce tableau, D désigne que VDSF=1, le signe "+" désigne VDSF estimé =1 tandis que VDSF estimé=0 est désigné par le signe " -".

    Annexe 3 : test d'adéquation du modèle

    Tableau 11: Test de Hosmer-Lemeshow de bon calibrage du modèle

     

    Quantile of Risk

    VDSF=0

    VDSF=1

    Total

    H-L

    Groupes

    Low

    High

    Observé

    Prédit

    Observé

    Prédit

     

    Value

    1

    0,4346

    0,5097

    18

    19,5415

    20

    18,4585

    38

    0,25034

    2

    0,5097

    0,5097

    20

    19,1229

    19

    19,8771

    39

    0,07894

    3

    0,5097

    0,5876

    17

    17,5671

    22

    21,4329

    39

    0,03332

    4

    0,5876

    0,6037

    18

    15,5374

    21

    23,4626

    39

    0,64879

    5

    0,6037

    0,6296

    18

    14,9998

    21

    24,0002

    39

    0,97515

    6

    0,6296

    0,6376

    12

    14,2323

    27

    24,7677

    39

    0,55131

    7

    0,6376

    0,6376

    13

    14,1352

    26

    24,8648

    39

    0,14299

    8

    0,6376

    0,6376

    14

    14,1352

    25

    24,8648

    39

    0,00203

    9

    0,6376

    0,6376

    11

    14,1352

    28

    24,8648

    39

    1,0907

    10

    0,6376

    0,6817

    16

    13,5935

    23

    25,4065

    39

    0,65396

     
     

    Total

    157

    157

    232

    232

    389

    4,42751

    H-L Statistic: 4,4275 Prob. Chi-2(8) 0,8166

    Andrews Statistic: 5,835 Prob. Chi-2(10) 0,8289

    Source : INSD, nos calculs et estimations

    Annexe 4 : caractéristique de groupes de réponse

    construits

    Tableau 12: Quintiles de probabilité de réponse

    N° de Groupe

    Probabilités

    Nombre de non répondantes

    Nombre de répondantes

    Observations totales

    1

    0,5097

    40

    37

    77

    2

    0,6037

    35

    43

    78

    3

    0,6376

    29

    49

    78

    4

    0,6376

    24

    54

    78

    5

    0,6817

    29

    49

    78

     

    Total

    157

    232

    389

    Source : INSD, nos estimations

    Annexe5 : Résultats de l'estimation pour l'année 2000

    Tableau 13: Résultat de l'estimation de probabilité de réponse de l'année 2000.

    VDSF

    Coefficient

    Ecart type

    Statistique

    P-value

    Intervalle de confiance

     
     
     
     
     

    Borne Inférieure

    Borne supérieure

    VIOU

    0,2187589

    0,6951519

    0,31

    0,753

    -1,143714

    1,581232

    VIBO

    0,2370171

    0,7279133

    0,33

    0,745

    -1,189667

    1,663701

    VIKD

    -0,3519532

    1,14967

    -2,31

    0,045

    -1,605264

    -0,201358

    VIPH

    0,1486894

    0,5138915

    2,49

    0,002

    0,0585195

    2,515898

    VISC

    -0,2257785

    0,4039783

    -2,06

    0,017

    -2,17561

    -0,166004

    VIIN

    -0,4914565

    0,5594179

    -0,88

    0,38

    -1,587895

    0,6049824

    Pub

    0,34226

    0,3983209

    2,14

    0,039

    0,4384345

    2,152955

    Constante

    0,025991

    0,7719421

    0,03

    0,973

    -1,486988

    1,53897

    R2 count

    = 53,10%

    Source : INSD, nos estimations

    Tableau 14: Table de prédiction du modèle pour la base de 2000.

    True

    Classified | D ~D | Total

    + +

    + | 162 145 | 307

    - | 14 18 | 32

    + +

    Total | 176 163 | 339

    Classified + if predicted Pr(D) >=0,5
    True D defined as VDSF~= 0

    Sensitivity Pr( +| D) 92,05%

    Specificity Pr( - |~D) 11,04%

    Positive predictive value Pr( D| +) 52,77,%

    Negative predictive value Pr(~D| -) 5 6,25%

    False + rate for true ~D Pr( +|~D) 88,96%

    False - rate for true D Pr( -| D) 7,95%

    False + rate for classified + Pr(~D| +) 47,23%
    False - rate for classified - Pr( D| -) 43,75%

    Correctly classified 53,10%

    Source: INSD, nos estimations

    Tableau 15: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 2000.

     

    Quantile of Risk

    VDSF=0

    VDSF=1

    Total

    H-L

    Groupes

    Low

    High

    Observé

    Prédit

    Observé

    Prédit

     

    Value

    1

    0,3655

    0,5047

    19

    18,7421

    14

    14,2579

    33

    0,00821

    2

    0,5047

    0,5047

    17

    16,8387

    17

    17,1613

    34

    0,00306

    3

    0,5047

    0,5047

    14

    16,8387

    20

    17,1613

    34

    0,94814

    4

    0,5047

    0,5047

    20

    16,8387

    14

    17,1613

    34

    1,17581

    5

    0,5047

    0,5047

    19

    16,8387

    15

    17,1613

    34

    0,54958

    6

    0,5047

    0,5047

    19

    16,8387

    15

    17,1613

    34

    0,54958

    7

    0,5047

    0,5093

    14

    16,7229

    20

    17,2771

    34

    0,87249

    8

    0,5093

    0,5609

    12

    15,803

    22

    18,197

    34

    1,70995

    9

    0,5609

    0,5971

    15

    14,0705

    19

    19,9295

    34

    0,10475

    10

    0,5971

    0,6427

    14

    13,4677

    20

    20,5323

    34

    0,03483

     
     

    Total

    163

    163

    176

    176

    339

    5,95641

    H-L Statistic: 5,9564 Prob. Chi-2(8) 0,6521

    Andrews Statistic: 8,5668 Prob. Chi-2 (10) 0,5737

    Source : INSD, nos estimations

    La p-value associée à ce test de Hosmer-Lemeshow est supérieure au seuil théorique que nous nous sommes fixés. On peut donne conclure à un bon reflet de la réalité par le modèle. C'est-à-dire que le modèle est bien calibré. On donne ci-dessous les groupes de réponse homogène.

    Tableau 16: Caractéristique de groupes (probabilité estimée) de réponse de 2000.

    N° de groupes

    Probabilité estimée

    Nombre de non répondante

    Nombre de répondantes

    Observations totales

    1

    0,5047

    111

    100

    211

    2

    0,5093

    17

    24

    41

    3

    0,5609

    7

    14

    21

    4

    0,5971

    21

    30

    51

    5

    0,6427

    7

    8

    15

     
     
     
     
     
     

    Total

    163

    176

    339

    Source : INSD, nos estimations

    Ces classes (groupes) ont servi dans les estimations des grandeurs de comptabilité nationale pour l'année 2000. Comme se fut le cas pour l'année 2001 dans le dernier chapitre du document.

    Tableau 17: Odds Ratio des variables explicatives de l'année 2000.

    Variables explicatives

    VIOU

    VIBO

    VIKD

    VIPH

    VISC

    VIIN

    Pub

    Odds Ratio

    1,244531

    1,267463

    0,7033131

    1,160313

    0,7978948

    0,6117348

    1,408126

    Source : INSD, nos estimations

    Annexe 6 : Résultats de l'estimation pour l'année

    1999.

    Tableau 18: Résultat de l'estimation de probabilité de réponse de l'année 1999

    VDSF

    Coefficient

    Ecart type

    statistiques

    P-value

    Intervalle de confiance

     
     
     
     
     

    Borne inférieure

    Borne Supérieure

    VIOU

    0,9516174

    0,840293

    1,13

    0,257

    -0,6953265

    2,598561

    VIBO

    0,7322836

    0,87846

    2,83

    0,005

    0,9894663

    3,454034

    VIKD

    -0,5342036

    1,21781

    -2,44

    0,041

    -2,921068

    -0,052661

    VIPH

    -3,105719

    1,107519

    -2,8

    0,005

    -5,276417

    -0,9350208

    VISC

    -1,712079

    1,058649

    -1,62

    0,106

    -3,786993

    0,3628352

    VITT

    -0,2071229

    1,482653

    -0,14

    0,889

    -3,113069

    2,698824

    Pub

    0,6049261

    0,4838371

    1,25

    0,211

    -0,3433772

    1,553229

    Constante

    1,712079

    1,336939

    2,28

    0,02

    0,9082724

    4,33243

    R2 count =

    73,25%

    Source : INSD, nos estimations

    Tableau 19; Table de prédiction du modèle de la base 1999

    True

    Classified | D ~D | Total

    + +

    + | 156 53 | 209

    - | 12 22 | 34

    + ---+

    Total | 168 75 | 243

    Classified + if predicted Pr(D) >=0,5
    True D defined as VDSF ~= 0

    Sensitivity Pr( +| D) 92,8 6%

    Specificity Pr( -|~D) 29,33%

    Positive predictive value Pr( D| +) 74, 64%

    Negative predictive value Pr(~D| -) 64,71%

    False + rate for true ~D Pr( +|~D) 70,67%

    False - rate for true D Pr( -| D) 7,14%

    False + rate for classified + Pr(~D| +) 25,3 6%
    False - rate for classified - Pr( D| -) 35,29%

    Correctly classified 73,25%

    Source : INSD, nos estimations

    Tableau 20: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 1999.

    N° Groupes

    Quantile of Risk

    VDSF=0

    VDSF=1

    Total

    H-L

     

    Low

    High

    Observé

    Prédit

    Observé

    Prédit

     

    Value

    1

    0,3404

    0,3913

    16

    14,9799

    8

    9,02011

    24

    0,18484

    2

    0,3913

    0,6753

    11

    12,1749

    13

    11,8251

    24

    0,23012

    3

    0,6753

    0,6753

    7

    7,79265

    17

    16,2073

    24

    0,11939

    4

    0,6753

    0,7214

    6

    7,2408

    19

    17,7592

    25

    0,29932

    5

    0,7214

    0,7214

    9

    6,68543

    15

    17,3146

    24

    1,11073

    6

    0,7214

    0,7214

    7

    6,68543

    17

    17,3146

    24

    0,02052

    7

    0,7214

    0,7214

    9

    6,96399

    16

    18,036

    25

    0,82509

    8

    0,7214

    0,792

    2

    6,54425

    22

    17,4557

    24

    4,33848

    9

    0,792

    0,9035

    6

    4,17304

    18

    19,827

    24

    0,96819

    10

    0,9035

    0,9633

    2

    1,75959

    23

    23,2404

    25

    0,03533

     
     

    Total

    75

    75

    168

    168

    243

    8,13201

    H-L Statistic:

    8,132

    Prob, Chi-2(8) 0,4207

    Andrews Statistic:

    17,5701

    Prob, Chi-2(10) 0,0627

    Source: INSD, nos estimations

    Tableau 21: Caractéristique de groupes (probabilité estimée) de réponse de 1999.

    N° Groupes

    Probabilité

    Nombre de non répondantes

    Nombre de répondantes

    Observations totales

    1

    0,3913

    22

    11

    33

    2

    0,6753

    15

    30

    45

    3

    0,7214

    30

    84

    114

    4

    0,7920

    1

    4

    5

    5

    0,9035

    6

    17

    23

    6

    0,9633

    1

    22

    23

     

    Total

    75

    168

    243

    Source: INSD, nos estimations

    Tableau 22: Odds Ratio des variables explicative de l'année 1999.

    Variables explicatives

    VIOU

    VIBO

    VIKD

    VIPH

    VISC

    VITT

    Pub

    Odds Ratio

    2,589895

    2,079825

    0,5861359

    0,0447923

    0,1804902

    0,8129197

    1,831117

    Source: INSD, nos estimations

    Annexe 7: Résultats de test de Marasculo1

    $$ Comparaison des proportions de "type" pour la modalité "DSF existe" de disponibilité DSF

    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~

    Différence abs Valeur Seuil critique

    Signif( 0,05)?

    P_val

    P entre - P entre =

    0,431

    0,115

    Diff

    0,000

    P entre - P indus =

    0,082

    0,095

    Egales

    0,12 10

    P entre - P trans =

    0,159

    0,083

    Diff

    0,000

    P entre - P indus =

    0,513

    0,107

    Diff

    0,000

    P entre - P trans =

    0,591

    0,096

    Diff

    0,000

    P indus - P trans =

    0,078

    0,070

    Diff

    0,024

    1 sur

    6 Proportions sont égales

     

    $$ Comparaison des proportions de "type" pour la modalité "DSF n'existe" de disponibilité DSF

    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

    Difference abs Valeur

    Seuil critique

    Signif(.05)?

    P_val

    P entre - P entre =

    0,248

    0,151

    Diff

    0,000

    P entre - P indus =

    0,185

    0,124

    Diff

    0,001

    P entre - P trans =

    0,261

    0,111

    Diff

    0,000

    P entre - P indus =

    0,433

    0,132

    Diff

    0,000

    P entre - P trans =

    0,5 10

    0,119

    Diff

    0,000

    P indus - P trans =

    0,076

    0,083

    Egales

    0,085

    1 sur 6 Proportions sont égales

    1 La commande utilisée a été développée sous un logiciel de la place par Chitou Bassirou Ph. D enseignant à permanent l'ENSEA

    Bibliographie

    REFERENCES BIBLIOGRAPHIQUES

    Gujarati Damodar N. (2004) - Econométrie, 4e édition américaine: Traduction Par Bernier B., Col. Ouvertures Economiques, De Boeck, Bruxelles.

    Donzé L. (2003) - Théorie et pratique des enquêtes : analyse de données d'une enquête complexe, Université de Fribourg, Fribourg, Suisse.

    Hurlin C. (2003) - Econométrie des variables qualitatives: modèles à variables endogènes qualitatives, Université d'Orléans, Orléans, France.

    INSD (Burkina Faso) - (2003) - Note méthodologique sur l'élaboration des comptes à l'aide du module ERETES, Document de travail, Ouagadougou.

    Jacqemin-Gadda H. (2003) - Analyse de données longitudinales avec des données manquantes, INSERMU, Bordeaux, France. Document disponible en ligne www.bordeaux.inserm.fr

    Luminet D. (2003) - L'enquête sur les Forces de travail: calibrage et autres développements, Institut National de la Statistique éditeur, Louvain.

    Valliant R. (2003) - Application de nouvelles techniques statistiques, Statistique Canada, Ottawa, Document disponible en ligne www.statcan.ca

    Bernier J et al. (2002) - traitement des données manquantes: une étude de cas, Société statistique du Canada, Ottawa.

    Bialès M. et al. (2002) - Notions fondamentales de l'économie, Col. Notions fondamentales, Foucher, Paris.

    La revue Prescrire (2002) - tenir comptes de données manquantes dans les essais cliniques, Tome 2 N° 225, inconnu.

    AFRISTAT (Rép. MALI) - (2001) - Guide méthodologique pour l'élaboration des comptes nationaux dans les Etats membres d'AFRISTAT, Document de travail, Bamako.

    Tood R. W. (2001) - Flexible matching imputation: combining hot-deck imputation with model-based methodology, American Statistical Association, U. S bureau of census, Washington.

    BRION P. et CLAIRIN R. (1997) - Manuel de sondages : Applications aux pays en développement, INSEE et CPED, Paris.

    Séruzier M. (1996) - Construire les comptes de la nation selon le SCN 1993, Col. Economie et statistiques avancées, ECONOMICA, Paris.

    ONU et al. (1995) - Système de Comptabilité Nationale 1993 (SCN 1993), Manuel préparé par un groupe de travail intersecrétariat sur la comptabilité nationale, Washington.

    Heckly C. (1990) - Eléments d'économie pratique, Harmattan, Paris.

    Gourieroux C. (1989) - Econométrie des variables qualitatives, Col. Economie et Statistiques avancées, ECONOMICA, Paris.

    Rubin D.B. (1987) - Multiple imputation for nonresponse in surveys, Wiley, New-

    York.

    TABLE DES MATIÈRES

    Dédicace et remerciements 2

    Sigles et abréviations 3

    Sommaire. 4

    Liste des tableaux 5

    Liste des graphique. 5

    Avant-propos 6

    Présentation de la structure 7

    Introduction 9

    Chapitre 0. Concepts et définitions 10

    I. Comptabilité nationale 10

    1. Définition 10

    2. Objet 10

    3. Les comptes 11

    II. Secteur moderne DSF et secteur moderne non DSF 11

    III. Les sources de données 12

    Chapitre 1. Généralités et problématique de l'étude 14

    I. Contexte et problématique de l'étude 14

    II. Cadre théorique 14

    1. Non-réponse totale 15

    2. Non-réponse partielle 16

    3. Les mécanismes de génération des données manquantes 16

    4. Traitement de la non-réponse. 17

    4.1. Méthode de repondération 18

    Mise en application 18

    4.2. Méthode d'imputation. 20

    a. Généralité sur l'imputation 20

    b. Technique d'imputation 20

    Chapitre 2. Méthodologie d'estimation des déclarations manquantes 24

    I. Méthode utilisée par l 'INSD 25

    II. Critique de la méthode présentée 26

    III. Proposition de méthode 27

    1. Analyse exploratoire. 27

    2. Proposition de méthode de repondération 30

    a. Justification 30

    b. Spécification de la méthode 31

    b.1 Estimations des probabilités de réponses 31

    b.2 Diagnostics du modèle 34

    b.3 Odds ratio 36

    b.4 Groupes de réponses 38

    Chapitre 3. : Estimation des DSF des entreprises du secteur moderne. 39

    I. Estimation de la production et de la CI 39

    1. Estimation de la production 39

    2. Estimation de la consommation intermédiaire 40

    II. Estimation de la rémunération des salariés et de l'impôt sur production 40

    1. Estimation de la RS 41

    2. Estimation de l'impôt sur production 41

    Recommandations 42

    Conclusion. 43

    Annexes 44

    Annexe1 : Etat de non-réponse et constitution de l'échantillon. 45

    Annexe 2 : Test de classification de donnée et d'autocorélation 47

    Annexe 3 : test d'adéquation du modèle 48

    Annexe 4 : caractéristique de groupes de réponse construits 49

    Annexe5 : Résultats de l'estimation pour l'année 2000 50

    Annexe 6 : Résultats de l'estimation pour l'année 1999 52

    Annexe 7: Résultats de test de Marasculo 54

    Références bibliographiques 55

    Table des matières 56






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Enrichissons-nous de nos différences mutuelles "   Paul Valery