Chapitre 1
Modélisation de l'apparentement :
prise en compte de l'information
spatiale
1.1 Introduction
L'objectif de ce chapitre est de développer un
modèle statistique pour l'estimation de l'apparentement en prenant en
compte l'information spatiale. La première partie décrit le
modèle pour l'estimation de l'apparentement par maximum de vraisemblance
lorsque les génotypes de deux individus sont observés et les
fréquences alléliques sont connues. Nous étudierons
ensuite le cas oil plus de deux individus sont observés et nous verrons
que l'approche de Milligan s'insère dans un cadre plus large qui est
celui de la vraisemblance composite. La vraisemblance composite ainsi que les
propriétés de l'estimateur du maximum de vraisemblance composite
seront ensuite présenté. Nous décrirons enfin le
modèle spatial hiérarchique pour l'apparentement. Nous avons
choisi, dans ce modèle, de considérer la distance spatiale entre
les individus comme une covariable mais d'autres covariables comme le site
expérimental ou la région pourraient aussi être
envisagées.
1.2 Modèle de Milligan pour l'apparentement :
approche par maximum de vraisemblance
Considérons que les observations portent sur le
génotype d'un couple d'individus donné et que la distribution des
fréquences alléliques est connue. Soit IBS ? {IBS1, IBS2, . . . ,
IBS9} le mode d'IBS observé en un locus et
A = (A1, . . . , A9) le vecteur des probabilités d'IBD du
couple d'individus. La vraisemblance est égale à :
9
L(A; IBS) =
|
X i=1
|
P(IBSj|IBDi)Ai,, j ? {1, . . . , 9}. (1.1)
|
Les probabilités conditionnelles P(IBSj|IBDi) sont des
fonctions polynômiales des fréquences alléliques et sont
données au tableau 1.1. Pour L locus indépendants, la
vraisemblance est simplement donnée par le produit des vraisemblances
1.1 :
L(A; IBS) = 11L 9
P(IBSlj|IBDi)Ai, j ? {1, . . . , 9}
l=1 i=1
oil IBSl désigne le mode d'IBS
observé au locus l. Notons bien que la probabilité d'IBD, A, est
indépendante du locus considéré. En effet, le degré
d'apparentement entre deux individus, qui est déterminé par la
donnée des probabilités d'IBD A, est indépendant du locus
considéré bien que chaque locus soit caractérisé
par les fréquences alléliques à ce locus.
|
|
|
|
|
|
Mode d'IBD IBDj
|
|
|
|
Mode d'IBS
|
Etat allélique
|
IBD1
|
IBD2
|
IBD3
|
IBD4
|
IBD5
|
IBD6
|
IBD7
|
IBD8
|
IBD9
|
IBS1
|
AiAi, AiAi
|
fi
|
f2
i
|
f2
i
|
f3
i
|
f2
i
|
f3
i
|
f2
i
|
f3
i
|
f4
i
|
IBS2
|
AiAi, AjAj
|
0
|
fifj
|
0
|
fif2
j
|
0
|
f2 i fj
|
0
|
0
|
f2 i f2
j
|
IBS3
|
AiAi, AiAj
|
0
|
0
|
fifj
|
2f2i fj
|
0
|
0
|
0
|
f2i fj
|
2f3i fj
|
IBS4
|
AiAi, AjAk
|
0
|
0
|
0
|
2fifjfk
|
0
|
0
|
0
|
0
|
2f2i fjfk
|
IBS5
|
AiAj, AiAi
|
0
|
0
|
0
|
0
|
fifj
|
2f2i fj
|
0
|
f2i fj
|
2f3i fj
|
IBS6
|
AjAk, AiAi
|
0
|
0
|
0
|
0
|
0
|
2fifjfk
|
0
|
0
|
2f2i fjfk
|
IBS7
|
AiAj, AiAj
|
0
|
0
|
0
|
0
|
0
|
0
|
2fifj
|
fifj(fi + fj)
|
4f2i f2j
|
IBS8
|
AiAj, AiAk
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
fifjfk
|
4f2i fjfk
|
IBS9
|
AiAj, AkAl
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
4fifjfkfl
|
TAB. 1.1 - Probabilités d'observer le mode d'IBS
sachant le mode d'IBD ; fk est la fréquence de l'allèle Ak et des
allèles avec des indices différents sont distincts.
1.2.1 Estimation des paramètres
L'estimateur du maximum de vraisemblance Aà
de A est obtenu en maximisant la fonction de vraisemblance dans l'espace des
paramètres de dimension 8 en raison de la contrainte sur les
paramètres P9j=1 Aj = 1. Si nous supposons que les individus sont non
consanguins il n'est pas possible que les
individus aient reçus en un locus deux copies du
même allèle parental et ainsi un couple d'individus donné
ne peut avoir à locus qu'une unique possibilité d'avoir 2, 1 ou
aucun allèle(s) IBD et ces cas correspondent respectivement aux modes
d'IBD IBD7, IBD8 et IBD9 (voir figure 3). L'estimateur du maximum de
vraisemblance sera obtenu par optimisation de la fonction de log-vraisemblance
sur l'espace des paramètres (L7, L8, L9) qui est de dimension 2 en
raison de la contrainte P9 i=7 Li = 1. Comme le plus souvent il n'est pas
possible d'obtenir une solution analytique, la procédure d'optimisation
proposée par Milligan (2003) est basée sur une conversion de la
méthode du simplex qui est une technique d'optimisation numérique
avec contraintes (Press et al., 1992).
|