1.3 Modèle lorsque plus de deux génotypes
sont observés
Considérons maintenant que n génotypes sont
observés et que les fréquences alléliques dans la
population sont connues. Nous avons n(71) couples de
génotypes. Dans la suite du chapitre, l'unité statistique,
très fréquemment utilisé, sera le couple et c = 1, . . . ,
C désignera l'indice du couple parmis les n(n - 1)/2 = C couples
disponibles. Ainsi si c = 1 le couple considéré est le couple (1,
2) si c = C le couple considéré est le couple (n - 1, n).
Considérons tout d'abord le cas où les
observations portent sur le génotype à un locus. Soient
IBSc le mode d'IBS en un locus du couple c, IBDc
le mode d'IBD du couple, Äc le vecteur des
probabilités d'IBD du couple c. Nous avons déjà
vu que
9
L (Äc; IBSc) =
|
X i=1
|
P (IBSj,c|IBDi,c) Äi,c, où j ? {1, . . . , 9}.
|
L(Ä; IBS) =
|
11C c=1
|
11L l=1
|
9 X
i=1
|
P (IBSlj,c|IBDi,c) Äi,c où j ?
{1, . . . , 9}.
|
En notant, A le vecteur des probabilité d'IBD entre
tous les couples, une généralisation directe consisterait
à considérer l'ensemble des couples simultanément. Mais
cela conduirait à évaluer la probabilité suivante
P (IBS1, IBS2, . . . , IBSC|IBD) (1.2)
où IBD est le vecteur des modes d'identité par
descendance de l'ensemble des couples. Mais la difficulté réside
dans le fait que cette probabilité n'a généralement pas
une expression connue. D'autres solutions doivent être envisagées.
Ainsi, en notant IBSlc le mode d'IBS au locus l du couple
c; le modèle de Milligan pour C = n(n - 1)/2 couples est donné
par
sont indépendants. Le problème posé par
ce modèle vient du fait que les couples de génotypes ne sont pas
indépendants et donc la vraisemblance de Ä ne correspond pas
simplement au produit des vraisemblances de ses composantes Äc,
c = 1, . . . , C. Mais cette solution qui consiste à employer le
modèle de Milligan pour C couples et à considérer le
produit des vraisemblances des vecteurs des probabilités d'IBD des
allèles de chacun des couples d'individus s'insère, comme nous le
verrons dans la suite, dans le cadre théorique du modèle de la
vraisemblance composite par paires.
1.3.1 La vraisemblance composite
Les méthodes par vraisemblance sont largement
utilisées en inférence statistique paramétrique en raison
des bonnes propriétés asymptotiques de l'estimateur du maximum de
vraisemblance. Cependant, dans certains cas, il est difficile d'écrire
ou de calculer la vraisemblance. En effet, dans certaines applications, la
fonction de vraisemblance ne peut être calculée à cause de
la présence d'un important volume de données
corrélées ou d'un modèle statistique avec une structure
fortement hiérarchique. Une manière de contourner ces
difficultés est de remplacer la vraisemblance par une fonction
paramétrique plus facile à déterminer et c'est l'objet de
la vraisemblance composite qui permet de réduire la complexité
numérique des procédures d'optimisation même en
présence de données fortement corrélées ou d'un
modèle à structure hiérarchique (Varin et Vidoni, 2005).
La méthode de la vraisemblance composite qui appartient à une
classe plus large de modèles, qui est celle de la pseudo-vraisemblance,
consiste à calculer l'expression d'une combinaison de vraisemblances
relatives à une petite partie des données (Lindsay, 1988). Le
terme de pseudo-vraisemblance a été initialement introduit par
Besag (1974) et Lindsay (1988) a préféré plutôt
employer le terme vraisemblance composite en justifiant son choix par le fait
que ce nom décrit mieux la méthode de construction
considérée. L'idée de la vraisemblance composite est de ne
s'intéresser qu'à une partie de la vraisemblance complète.
En effet, nous pouvons décomposer, pour un modèle
paramétrique, la vraisemblance complète en un produit de
vraisemblances et ne considérer pour l'inférence statistique
qu'une partie de ces vraisemblances qui est relativement plus simple à
calculer. La définition générale de la vraisemblance
composite est donnée par Varin et Vidoni (2005).
Definition 2 Soit {f(Y ; ö), Y E 3), ö E Ö} un
modèle statistique paramé- trique avec 3) c Rn,
Ö c Rd, n = 1 et d = 1. Considérons un
ensemble d'événements {A : A E F, i E I} of F est une
u-algèbre de 3) et I c N.
Une vraisemblance composite est définie par:
Lcl( ; Y ) = fi f(Y E Ai; )w%,
i?I
avec f(Y E Ai;è) = f({Yj E Y : Yj E Ai}; ), où Y =
(Y1,Y2,...,Yn) et {wi,i E I} est un ensemble de pondérations
appropriées. La log-vraisemblance composite associée est
£cl( ; Y ) = log Lcl( ; Y ).
Une vraisemblance composite est un produit
pondéré de vraisemblances relatives à un ensemble
d'événements mesurables. La densité f(Y ; )
considérée dans cette définition peut, en effet,
être vu comme une densité conditionnelle ou une densité
marginale et chaque composante de la vraisemblance composite est
proportionnelle à une densité conditionnelle ou marginale. En
particulier, le modèle de la vraisemblance standard peut être vue
comme un cas particulier du modèle de la vraisemblance composite : en
effet, pour un ensemble d'événements indépendants,
l'expression de la vraisemblance standard est exactement égale à
celle de la vraisemblance composite avec des poids égaux à 1
Nous noterons, par la suite la fonction, de densité de
probabilité d'une variable aléatoire Y par fY (Y ; ) où un
vecteur de paramètres. Supposons que Y s'écrive comme Y = (Y1,
Y2) ainsi que = ( 1, 2). La vraisemblance complète est égale
à :
L( ; Y ) = fY1(Y1; )fY2|Y1(Y2; |Y1), (1.3)
et la log-vraisemblance complète £( ; y) = log{fY (Y
; )} est donnée par :
|
|
£( ; Y ) =
|
log{fY2|Y1(Y2; |Y1)} + log{fY1(Y1;
|
)}
|
(1.4)
|
|
=
|
£C( ;Y1) + £M( ;Y2)
|
|
(1.5)
|
où £C(
|
; Y1) est dénommée log-vraisemblance
conditionnelle et £M(
|
; Y2) log-
|
vraisemblance marginale.
Les méthodes d'estimation par maximum de vraisemblance
composite peuvent être réparties en 2 classes différentes :
les méthodes de vraisemblance composite par omission et celles de la
vraisemblance composite par sélection.
La vraisemblance composite par omission Elle consiste à
négliger les termes qui rendent délicat le calcul de la
vraisemblance complète. La vraisemblance composite par omission revient
à négliger la vraisemblance marginale dans l'expression de la
vraisemblance complète (équation 1.3). Ainsi, il s'agit
içi d'omettre certaines composantes de la vraisemblance complète,
en l'occurrence les vraisemblances marginales, pour ne retenir que les
vraisemblances
conditionnelles. Nous pouvons citer parmi les modèles de
vraisemblance composite obtenus par omission :
- le modèle de la pseudo-vraisemblance de Besag (1974)
appliqué à l'analyse de données spatiales (produit des
distributions conditionnelles d'un vecteur aléatoire Yi sachant tous les
autres points voisins)
Lcl(ö; y) = 11n
fYi|Y(-i)(Yi; ö|Y(-i))ùi,
i=1
oil Y(-i) est le vecteur des observations sans sa
ième composante et ùi = 0 ;
- la vraisemblance partielle de Cox (1975) ; considérons
un vecteur aléatoire Y transformé en une séquence
(X1, S1,. . . , Xm, Sm), la vraisemblance
peut s'écrire :
m m
Lcl(ö;Y ) = 11
fXi|X(i-1),S(i-1)(Xi;
ö|X(i-1), S(i-1)) 11
fSi|X(i),S(i-1)(Sj; ö|X(i),
S(i-1))
i=1 i=1
oil X(i) = (X1, . . . , Xi), S(i) =
(S1, . . . , Si) et m un réel ; le second membre du produit est
appelé la vraisemblance partielle basée sur S dans la
séquence {Xi, Si} ;
- la vraisemblance d'ordre m de (Azzalini, 1983) donnée
par
Lcl(ö; Y ) = fY1(Y1; ö)
|
11n i=2
|
fYi|Y i-1
i-1 (Yi; ö|Y i-1
i-m),
|
|
oil Y i-1
i-m= (Yi-m, . . . , Yi-1) et m ? {1, . . . , n - 1}; la
log-vraisemblance
est dans ce cas approchée par une somme de
log-vraisemblances conditionnelles aux m dernières observations.
Ces différents exemples ont en commun le fait de
considérer les lois conditionnelles afin d'éliminer le facteur
à l'origine de la complexité des expressions de la vraisemblance.
La vraisemblance partielle de Cox (1975) est très utile lorsque son
expression est beaucoup plus simple que celle de la vraisemblance
complète, ce qui est le cas par exemple quand elle n'est fonction que du
paramètre d'intérêt et non du paramètre de
nuisance.
La vraisemblance composite par sélection La
vraisemblance compo- site par sélection consiste à construire
les lois marginales d'un sous-ensemble
d'observations. Il peut s'agir par exemple d'écrire le
produit des lois marginales (la vraisemblance simple, singlewise likelihood),
le produit des lois jointes des couples (vraisemblance par paires, pairwise
likelihood) ou le produit des lois des triplets d'observations (vraisemblance
par triplet, tripletwise likelihood) qui sont basées respectivement sur
les événements marginaux, des couples et des triplets
d'observations. Nous aurons ainsi pour n observations
y1,...,yn :
- la vraisemblance par paires Lcl(ö; Y ) =
11n fYi,Yj(Yi, Yj; ö)ùij
i>j=1
- la vraisemblance par triplet Lcl(ö;Y) = 11
i>j>k=1
|
fYi,Yj,Yk(Yi,Yj,Yk;ö)ùijk
|
oil (ùij) et (ùijk) sont
des systèmes de pondération, positifs ou nuls. Aussi, il est
possible de considérer par exemple une combinaison de la vraisemblance
par paires et de vraisemblance simple ; ce qui correspondrait à la
méthode de la pseudo-vraisemblance de Cox et Reid (2004).
La log-vraisemblance composite,tcl(ö; Y ), est
donc une somme de logvraisemblances d'événements conditionnels ou
marginaux qui peuvent être calculées (Lindsay, 1988).
Estimation des paramètres du modèle En reprenant
les notations de la définition 2, l'estimateur du maximum de
vraisemblance composite est défini par :
àöcl = argmax
öEÖ
|
`cl(ö; Y )
|
et est solution de l'équation :
Vecl(ö; Y ) = E ùiV log{f(y ? Ai; ö)} = 0,
iEI
àöcl
appelée, fonction score composite
De plus, Varin et Vidoni (2005) démontrent le
théorème suivant :
Théorème 1 L'estimateur du maximum de la
vraisemblance composite du paramètre ö est consistant, a une
distribution asymptotique gaussienne de moyenne ö et de matrice
de variance-covariance
H(ö)-1J(ö)[H(ö)-1]1 :
àöcl ?N{ö,
H(ö)-1J(ö)[H(ö)-1]1},
L
avec H(ö) = Ef(y;ö0){V2tcl(ö; y)},
J(ö) = V{Vicl(ö; y)} et où ö0, le vrai
paramètre, appartient à l'intérieur de Ö.
|