Annexe A : Quelques notions en
économétrie des données de
survie
On rencontre des variables de durée dans de nombreux
cas. A l'origine, les modèles ont été
développés pour étudier la durée de vie mais
d'autres applications ont été mises en oeuvre, notamment dans le
domaine de la santé. Dans le cas de notre étude, la variable de
durée mise en étude est la durée de passage de
l'état de non paludéen à celui d'infecté.
Précisément, il s'agit du temps qui s'écoule entre
l'inclusion d'un enfant dans la cohorte et le moment où il s'infecte du
paludisme. Cette variable a la particularité d'être strictement
positive et souffre de problème de censure. En effet, l'arrêt de
la collecte après une certaine durée (112 jours dans le cas de
notre étude) fait que certaines durées commencés n'ont pas
eu le temps de se terminer et sont donc censurées. On parle alors de
censure à droite. Dans ce cas, on affecte une valeur minimale (112
jours) à ces durées observées de manière
incomplète.
Les outils et méthodes statistiques de ce types de
données leurs sont propres, on parle souvent d'analyse de survie ou de
modèle de durée. Les objectifs principaux de cette analyse sont
de modéliser, d'estimer et expliquer la loi décrivant la
durée qui s'écoule entre deux évènements. Dans ce
chapitre, nous présentons de façon brève quelques outils
et méthodes statistiques auxquels nous avons eu recours. Ce chapitre est
entièrement sauf mention explicite du contraire inspiré des
polycopiés respectivement de Didier Nganawara1 et de
Jean-David Fermanian2
1. Notes de cours d'analyse des biographies dispensé
à l'IFORD
2. Cours Modèle de durée de vie, ENSAE
3ième année
SANDIE Arsène Brunelle c~IFORD
2013-2014 B
Annexe A
Analyse descriptive en analyse de survie
Quelques notations
Nous désignerons par T, la variable
aléatoire de durée. Sa fonction de répartition est
définie par la probabilité que cette durée soit
inférieure à une valeur donnée t :
F(t) = P(T < t), t E R+
Cette fonction est croissante et représente la
probabilité pour un enfant de s'infecter avant le temps t. La
densité de la durée est donnée par:
f(t) = dF(t)
dt = uim 14tP(t <T <t +
At), At ? 0
Elle représente, l'intensité d'occurrence d'une
durée exactement égale à t. A partir de ces
définitions, nous appelons fonction de survie et on note 8(t),
la probabilité qu'une durée soit supérieure à un
temps t donné, elle est définie par:
8(t) = P(T > t) = 1 - F(t)
De façon précise, elle donne la
probabilité pour qu'un enfant ne soit pas infecté du paludisme
avant le temps t. Il s'agit de la part des enfants qui jusqu'à
la date t, sont encore indemnes du paludisme. La fonction de hazard
noté h(t), représente la probabilité pour qu'un
enfant s'infecte du paludisme après une date t, sachant que cet
enfant n'a pas été malade avant cette date t. On montre
que cette fonction est: h(t) = f(t)
s(t) . On démontre qu'il existe des relations entre
F(t), f(t), h(t) et 8(t). Dans la pratique,
le problème de l'analyse de survie repose sur l'estimation de
8(t). Le plus souvent, soit on suppose que T suit une loi
connue (Exponentiel, Weibull, Gamma, etc.) et dans ce cas on se résume
à une estimation paramétrique; soit on a aucune idée de la
loi de T dans ce cas on fait recours aux estimations non
paramétriques de Kaplan-Meier pour estimer 8(t). Dans le cas de
notre étude, c'est ce dernier type d'estimation que nous avons
utilisé.
Estimation de Courbe Kaplan-Meier
Kaplan et Meier ont proposé des méthodes
d'estimations des fonctions de survie, ils distinguaient deux cas : le cas
où les données de durées sont complètes et le cas
des durées censurées.
SANDIE Arsène Brunelle c~IFORD
2013-2014 C
|