4. Traitement de la non-réponse
Après un aperçu sur les mécanismes de
non-réponse nous aborderons dans cette sous section les méthodes
de traitement que prévoit la théorie statistique en cas de
présence de données manquantes. On note qu'il existe plusieurs
méthodes de traitement de données manquantes. Ces méthodes
s'appliquent selon la nature du processus et parfois compte tenu de nombre
d'observation voire de l'existence de variables auxiliaires.
Parmi les méthodes de traitement de non-réponse,
on dénombre deux qui sont plus faciles à mettre en oeuvre.
Cependant, elles ne sont pas les plus robustes. Il est apparu dans les services
statistiques des Etats en développement de ne rien faire face aux
données manquantes. Cette solution est aussi une méthode, elle
consiste à travailler avec la base sans se soucier des
non-réponses.
La non prise en compte de données manquantes est peu
commode pour un statisticien. D'abord, il se trouve face à une base qui
n'est pas présentable (incomplète); ensuite les moyennes et les
variances sont calculées sur toute la population en assimilant les
données manquantes à zéro. Enfin, ces estimateurs sont
alors influencés par les individus n'ayant pas répondu au risque
de rendre incohérents, les résultats assortis des analyses. En
effet, elle accroît le biais des estimations lorsque les non
répondants se distinguent des répondants dans leurs comportements
par rapport aux variables d'étude.
Une autre solution aussi facile à appliquer est la
suppression des individus pour lesquels il manque au moins une valeur d'une
variable de la base. La méthode de suppression permet d'utiliser un
fichier complet. Plus avantageuse que la première citée, cette
solution donne des
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu18.png)
estimateurs de l'échantillon retenu sans biais si la
non-réponse ne dépend d'aucune variable d'intérêt.
Mais ces estimateurs peuvent ne pas refléter la réalité.
Car ils sont alors des fonctions des valeurs obtenues pour les
répondants qui ont fourni des données complètes
uniquement. Ce qui conduit au rejet de cas de non-réponse partielle et
entraîne une perte considérable d'information empêchant
ainsi l'utilisation du poids que le sondage aurait accordé aux
unités statistiques. Et le fait que la taille de l'échantillon se
trouve réduite, elle peut conduire à augmenter la variance des
estimateurs.
4.1. Méthode de repondération
C'est une méthode de redressement de données en
présence de non-réponse. Elle est utilisée, en
général, pour compenser la non-réponse totale. La
repondération vise à ajuster les poids de répondants en
vue de compenser la perte d'information due aux non répondants. En
d'autres termes c'est une méthode consistant essentiellement à
augmenter le poids de sondage de répondants afin de compenser les non
répondants. Cette méthode a cependant des principes et des
critères d'application. Il faut que la non-réponse soit totale,
qu'on ne dispose pas d'informations auxiliaires et que le mécanisme de
réponse soit homogène dans la population
Mise en application
Avant de procéder à l'ajustement de poids des
répondants, on effectue une classification des unités
statistiques en j classes. Ces j classes regroupent tous les individus de
j
l'échantillon, les répondants comme les non
répondants, de telle sorte qu'on ait
U = où s s s
i
i= 1
désigne l'échantillon et les si la
classe i de l'échantillon avec i=1, 2, ..., j. Cependant, on doit
s'assurer pour ces groupes que la variable d'intérêt n'a pas
d'influence sur la décision de répondre ou de ne pas
répondre. La constitution des classes doit être pertinente pour
l'analyse qu'on envisage mener. Par exemple, pour la production des
entreprises, on ne fera pas un regroupement par ordre alphabétique des
sigles ni des noms. On fera plutôt une catégorisation basée
sur le chiffre d'affaires ou sur la taille de celles-ci ou sur tout autre
critère pertinent.
Ayant les classes on pourra ainsi calculer le poids des
unités répondantes après ajustement pour la
non-réponse qui vaut:
Où Pc et wi
désignent respectivement le taux de réponse dans la classe c et
le poids de l'individus i avant l'ajustement.
On peut calculer l'estimateur par repondération en
considérant les c classes, comme
suit :
? ? ?
Y n y n w *
c i ri i i
= ? = ? .
où
i s i s
? ?
c c
Avec yri qui désigne la moyenne des
répondants dans la classe i. On démontre que le
biais de non-réponse est une espérance
conditionnelle de l'échantillon total et qu'il vaut zéro pour le
mécanisme de non-réponse uniforme à l'intérieur des
classes. En effet, le biais s'écrit selon l'expression suivante :
- 1
? ? j
B Y s E Y Y s P w P P y y
( / ) ( / ) ( )( )
= - = ? ? - -
i i
c i k k k i
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu19.png)
Où Pi désigne la moyenne
pondérée, par le poids avant l'ajustement, des taux de
réponses de la classe i. Et yi
désigne la moyenne de la variable dans la classe
considérée et vaut :
? w y
k k
c
k s
?
yi
? .
w k
k s
? c
Lorsque l'expression du biais est nulle, on peut se retrouver
avec des classes à l'intérieur desquelles la repondération
serait uniforme c'est-à-dire que la probabilité de
répondre pour un individu serait identique à celle des autres
individus de la classe. Il s'agit de groupes homogènes. En effet, on
dira qu'il s'agit de groupes homogènes si pour tout l'échantillon
et toute classe c on a:
??? ??
|
P i r s i s
( / )
? = = Ö ? ?
i s c c
/
P i j r s P i r s P j r s i j s
( & / ) ( / ) ( / )
? = = ? ? ? ? ?
ij s /
|
L'objectif est donc la construction de groupes d'individus
statistiques qui soient homogènes par rapport à la
probabilité de répondre afin d'éliminer ou tout au moins
de réduire le biais de la non-réponse. De façon pratique
on désire construire des groupes de sorte qu'on puisse décrire
autant que faire se peut le mécanisme de non-réponse.
Les classes des repondérations peuvent être
créées à partir de différentes méthodes dont
celle des "scores". Cette méthode consiste dans un premier temps
à prédire les probabilités de répondre pour toutes
les unités de l'échantillon à l'aide d'un modèle de
régression approprié (logistique, probit, probabilité
linéaire ou autre) tout en prenant le soin de bien choisir les facteurs
explicatifs. La deuxième étape est celle d'ordonnancement des
probabilités estimées en ordre croissant. La troisième
consiste à l'utilisation d'analyse par
?
groupe pour regrouper les unités ayant des
Pi similaires. Les classes étant constituées
la
dernière étape s'agirait tout simplement de
calculer à l'intérieur de chaque classe les poids ajustés
pour la non-réponse; ainsi on aura procédé à la
repondération à l'intérieur de chaque classe.
L'efficacité de cette méthode a été
démontrée en 2001 par D. Haziza et ses collaborateurs dans une
étude menée au Canada. Cette méthode a l'avantage de
rendre efficaces les estimateurs de grandeurs notamment la moyenne et le total.
La repondération par la non-réponse totale peut être le
moyen le plus simple de compenser la carence de certaines données
d'enquête.
Pour tenir compte de la non accessibilité du sondage
à certaines unités, soit parce qu'elles sont inadmissibles dans
une base de sondage ou parce qu'elles sont non répondantes lors de
l'enquête, on emploie des multiples formes d'ajustements (multiples
méthodes de repondération). Considérons toujours notre
population cible dont les unités sont regroupées en j
classes homogènes. L'estimateur du total s'écrira de la
façon suivante, après ajustement
au poids :
?
T w y
= ?
*
ci ci
ci s s
? ?
ad na
Où :
y' i et y c idésignent
respectivement une unité de la classe c et une valeur liée
à cette unité ci.
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu20.png)
' sad et sna
désignent respectivement des répondants admissibles à
l'échantillon et l'ensemble des unités connues comme non
admissibles.
La repondération permet, avec l'utilisation judicieuse
des données, de compenser l'effet de la non-réponse totale en
formant des classes de repondération. Elle permet aussi d'avoir les
valeurs estimées des agrégats comme le total et la moyenne.
Cependant, elle devient plus compliquée à mettre en oeuvre dans
les cas des non-réponses partielles. Car il faudra procéder
à des repondérations qui seraient probablement différentes
pour chaque variable concernée. Pour cette raison, on lui
préfère d'autres méthodes plus appropriées comme
celles dites d'imputation.
4.2. Méthode d'imputation
a. Généralité sur
l'imputation
Loin d'être une nouvelle méthode, l'imputation
est une technique assez utilisée dans les traitements des
non-réponses. C'est une technique de redressement des estimateurs en
présence de non-réponse partielle, comme le soulignaient Little
et Schenker (1995). Le recours à l'imputation pour remplacer des
données manquantes à certaines questions est monnaie courante
dans bien des enquêtes. La non-réponse partielle peut introduire
des biais d'estimation ; il faut donc des traitements conséquents. On y
remédie par une méthode dite d'imputation qui consiste à
substituer aux données manquantes des valeurs calculées ou
tirées de la base de données. Ceci facilite l'analyse de micros
données. L'imputation permet d'estimer des agrégats de population
comme les moyennes ou les totaux sans faire d'ajustements aux poids qui
auraient été différents pour chaque variable.
L'imputation est une famille de méthodes de traitement
de non-réponse partielle. Pour sa bonne mise en oeuvre, il est important
de recenser et d'utiliser au maximum toutes les sources de données
disponibles lors de l'imputation. La mise en oeuvre de ses procédures
peut être basée sur les modèles implicites ou explicites.
Il est parfois souhaitable de combiner ses deux méthodes. Les
modèles implicites, par opposition aux modèles explicites qui
sont en général basés sur une théorie statistique,
sont basés sur les procédures permettant de résoudre de
façon pratique les problèmes de structures de données. Ces
sont des modèles qui sont souvent de type non paramétrique. Les
procédures "hot-deck" reposées sur une modélisation
implicite en constituent un exemple.
Les modèles, qu'ils soient implicites ou explicites,
peuvent aussi être regroupés sous la bannière de
modèle informatif ou non informatif. Le modèle est dit informatif
lorsqu'une
valeur Xk d'un non répondant est
systématiquement différente de celle d'un répondant
en dépit de l'égalité entre les valeurs
X1 ,X2,..., Xk - 1 de la
variable. Par contre, on parlera de
modèle non informatif si on accepte que même si un
répondant et un non répondant ont un comportement commun par
rapport aux valeurs X1 , X2,..., Xk
- 1 leurs valeurs Xk ne peuvent
être égale stochastiquement. Ces modèles
peuvent être utilisés comme un départ pour les
procédures d'imputation.
b. Technique d'imputation Le plus proche
voisin
Parmi les méthodes les plus utilisées, on a
celle dite du "plus proche voisin". C'est une méthode qui consiste
à trouver pour l'individu qui n'a pas répondu un donneur
potentiel qui puisse lui être semblable le plus statistiquement possible.
Il s'agit de donner une valeur artificielle à l'individu n'ayant pas
répondu à la question qui lui aurait été
posée. Cette valeur artificielle proviendra d'une unité dont les
caractéristiques sont plus proches de l'unité ayant
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu21.png)
introduit le biais de données manquantes. Pour l'imputer
on peut utiliser le formalisme suivant :
y i * = y k /j?
sr;(i,j)? classex
C'est-à-dire qu'on choisit l'individu donneur de telle
sorte que la distance d(x i ;x
j ) soit la plus petite possible, x étant la
variable auxiliaire. Où *
yi et yj
désignent respectivement la valeur imputée de la variable pour
l'individu i et la valeur observée de la même variable
pour l'individu donneur j. Et sr désigne
l'échantillon des répondants.
Il s'agit donc d'élaborer un critère quelconque,
à partir des caractéristiques qu'on a déterminées,
pour montrer et choisir lequel des individus répondants ressemble le
plus à celui pour lequel on ne détient pas l'information. Le plus
semblable des éléments tient lieu de donneur et est
considéré de ce fait comme le voisin le plus proche.
Imputation par moyenne ou par ratio
On compte aussi parmi les méthodes d'imputation,
l'imputation par moyenne et celle par ratio. Ces deux méthodes sont
basées sur l'affectation d'une valeur aux observations
incomplètes d'une variable. En ce qui concerne l'imputation par la
moyenne, sa mise en oeuvre ne nécessite pas que l'on dispose des
variables auxiliaires qui seraient pertinentes pour l'analyse de la variable
d'intérêt. Car elle consiste à remplacer les données
manquantes de la variable considérée par la moyenne des valeurs
données par les répondants. De façon analytique lorsqu'un
élément ne répond pas à la question qui lui est
posée, c'est à dire ne donne pas de valeur à la variable
d'étude, on applique la formule de la moyenne pour lui imputer une
valeur.
.
* 1
y y
i j
= ?
n ? r j s r
Cette valeur moyenne pour l'ensemble de réponses obtenues
est utilisée pour remplacer chacune de variables manquantes.
La méthode par ratio utilise à la fois la
moyenne de la variable d'intérêt pour les répondant et les
variables auxiliaires. Elle consiste à imputer une même valeur
pour toutes les unités non répondantes. C'est-à-dire pour
une variable donnée toute les observations manquantes auront un
remplaçant commun pour compenser la perte de donnée. Le
formalisme peut se présenter comme suit:
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu22.png)
* r
y
y x
=
i i
xr
Où yr , xr et x
i désignent respectivement la moyenne de la variable
d'intérêt, de la variable auxiliaire pertinente pour
l'étude et la valeur de cette variable pour l'individu i
Imputation multiple
Jusqu'ici nous avons seulement, pour la correction de
non-réponse partielle, explicité le cas d'imputation unique.
C'est-à-dire pour chaque valeur manquante imputer une seule valeur. Une
autre technique est de procéder à un type d'imputation
appelé imputation multiple. La technique d'imputation multiple
a été principalement développée par Rubin. Elle
remplace chaque variable manquante par au moins deux valeurs tirées
d'une distribution pour les valeurs manquantes sous l'hypothèse que l'on
postule à propos de la non-réponse. On obtient donc comme
résultat de l'imputation au moins deux bases. Chacune des bases
étant analysée
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu23.png)
selon une même méthode, on combine les analyses afin
de refléter la variabilité supplémentaire que peuvent
entraîner les données manquantes.
Du point de vue théorique on peut assimiler cette
méthode d'imputation multiple à une approche bayesienne. Lorsque
le nombre d'imputations est élevé, les estimateurs seront plus
précis. Pour qu'une procédure d'imputation multiple soit
appropriée, il faut qu'elle incorpore la variabilité
adéquate parmi les v ensembles d'imputations.
La procédure "Approximate Bayesian Boostrap" (ABB) est une
des procédures appropriées. Elle peut être décrite
comme suit:
Soit un groupe de n unités de même valeur
X1 , X2,..., Xk - 1 où
l'on trouve pour la valeur Xk, nsr
répondants. Avec n et nsr qui
désignent respectivement la taille de la
population cible et celle de l'échantillon de
répondants. Les non répondants sont naturellement de:
n sr = n- nsr.
On tire dans l'ensemble de répondants les n
valeurs possibles de Xk avec remise et de
façon aléatoire, et cela pour chacun des
v ensembles d'imputations. Après ce tirage on impute les
valeurs manquantes en procédant à un tirage aléatoire avec
remise de l'ensemble des n
possibles plutôt que dans l'échantillon de
répondants. Ce tirage de nsr génère entre
les imputations une variabilité appropriée. La supposition
d'un groupe de n unités ayant les
mêmes valeurs X 1 ,X2,...,
Xk-1 permet de classer les répondants,
comme les non répondants
dans un même ensemble homogène comme nous l'avons
explicité dans la méthode de repondération.
Le principe est d'attribuer à une donnée
manquante une valeur observée chez un répondant. Il s'agirait
donc de trouver pour un receveur les potentiels donneurs parmi les
répondants. Une façon plus pratique est de faire des classes
homogènes comme nous l'avons explicité plus haut. On donnera
à un non répondant la valeur d'un répondant appartenant au
même groupe.
La procédure ABB est une méthode de type
hot-deck à qui on incorpore les techniques de Boostrap. Car le hot-deck
consiste aussi à imputer une valeur à l'observation qui fait
défaut selon une technique que l'on cherche à mettre en
oeuvre.
Bien que l'imputation améliore la qualité de
données finales par le fait qu'elle permet de compenser les
réponses manquantes, invalides ou incohérentes, il convient de
veiller à choisir la méthode d'imputation appropriée. En
effet, il existe une multitude de techniques d'imputation dont chacune aboutit
à une estimation particulière de la variance et à une
formule différente de celle des autres. De plus, certaines de ces
méthodes ne sont pas sans effet sur les liens qui existent entre les
variables. C'est-à-dire qu'il existerait des méthodes
d'imputation qui ne préserveraient pas les relations entre les variables
de l'étude ou, pourraient fausser les distributions sous-jacentes.
De façon générale on peut classer les
méthodes d'imputation parmi les groupes suivants :
V' Les méthodes déductives : elles utilisent les
informations des autres questions pour avoir des données déduites
susceptibles de remplacer les données manquantes;
V' Les méthodes "cold-deck" : on utilise des informations
d'une autre enquête pour compenser les non répondants
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu24.png)
V' Les méthodes hot-deck: dans ces cas on donne la
valeur d'un individu répondant (le donneur) à la valeur manquante
selon une procédure qu'on se fixe. C'est donc une méthode qui
recourt à d'autres enregistrements pour répondre à la
question qui doit faire l'objet d'une imputation. Il existe une multitude de
procédures connues que l'on peut mettre en pratique. On a parmi ces
procédures le hot-deck aléatoire, le hot-deck séquentiel
hiérarchisé et le hot-deck métrique.
V' Il y a aussi des méthodes dites de prévision,
elles consistent à procéder à une régression
adéquate. Les résultats du modèle de régression
sont ensuite utilisés pour faire une prévision.
![](Le-traitement-des-donnees-manquantes-pour-letablissement-des-comptes-economiqu25.png)
|