Méthode des moments de Wang
Considérons que les observations portent sur le
génotype à un locus d'une paire d'individus diploïdes non
consanguins. Nous avons vu que dans une population composée d'individus
diploïdes non consanguins, un couple d'individus donné peut n'avoir
aucun allèle IBD (mode IBD9), avoir un unique allèle IBD (mode
IBD8) ou deux allèles IBD (mode IBD7) en un locus. Le coefficient
d'apparentement1 est donné par l'expression :
(7)
2
Ä8
r = 2è = Ä7 +
La méthode d'estimation de l'apparentement de Wang
(2002) est basée sur le calcul d'un indice de similarité, I,
entre les deux individus. Celui-ci correspond à la proportion moyenne
d'allèles présent chez un individus choisi comme
référant qui sont IBS aux allèles de l'autre individu. Le
choix du référant n'influence pas la valeur de l'indice. Wang
définit quatre catégories selon le degrés de
similarité entre les 2 individus :
- la catégorie 1 correspond au cas où l'individu
2 a ses deux allèles IBS avec l'individu 1. Cela correspond aux couples
de génotype de la forme AiAi - AiAi et AiAj - AiAj et I =
1;
la catégorie 2 correspond au cas où 3 des 4
allèles du couple sont IBS. Les couples de génotype sont de la
forme AiAi - AiAj et I = 3/4;
- la catégorie 3 correspond aux cas où les
individus ont en commun un seul allèle IBS. Les couple de
génotype sont de la forme AiAj - AiAk et I = 1/2;
1Il y a une certaine confusion terminologique dans
la littérature scientifique : en anglais è est souvent
appelé !!coefficient of coancestry!! et r est plutôt appelé
!!coefficient of relatedness!!
- enfin la catégorie 4 inclue les cas oil les deux
individus n'ont aucun allèle IBS en commun. Les couples de
généotype sont de la forme AiA3 -AkAl et I = 0.
Wang donne alors l'expression des probabilités
d'occurrence de chacune des catégories, notées Ps, s =
1, . . . , 4, en fonction de L7 et L8 et des fréquences
alléliques de la population. Dans cette approche, Wang se place
initialement dans le cas d'un seul locus. Dans le cas mono-locus, Wang
distingue encore 2 cas, le cas de locus bi-allélique et le cas de locus
multi-alléliques.
Dans le cas d'un locus à 2 allèles, la
catégorie 3 n'est pas observable. Il faut résoudre un
système de 3 équations (dont 2 indépendantes) à 2
inconnues pour obtenir l'estimation de L7 et L8 : il suffit donc de
résoudre seulement 2 des 3 équations. L'estimation de
l'apparentement dans ce cas est donnée par:
rà =
4 àP1 + 3
àP2 - 2(1 + a2) , (8)
2(1 - a2)
oil a2 = > 3 p2 j et p3 la fréquence de
l'allèle A3 dans la population. Comme un couple d'individus à un
locus donné ne peut appartenir qu'à une unique catégorie,
soit àP1 = 1 et àP2 = 0 soit
àP1 = 0 et àP2 = 1.
Pour un locus multi-allélique, nous nous retrouvons
confronté à un système de 4 équations à 2
inconnues dont 3 équations indépendantes. Il y a donc plus
d'équations indépendantes que de paramètres et les
solutions du système d'équations varient selon le couple
d'équations considéré. Il n'y a donc pas d'unicité
des solutions du système d'équations. Une solution est d'utiliser
la méthode des moindres carrés pondérés pour
estimer les paramètres. Le principe de la méthode des moindres
carrés pondérés consiste à procéder à
une transformation linéaire des observations de telle sorte que les
conditions du théorème de Gauss-Markov soient respectées.
Pour cela, chaque observation sera pondérée par sa variance
résiduelle. Cependant les poids optimaux nécessaires à la
mise en oeuvre de cette méthode dépendent de la matrice de
variance-covariance des résidus qui est fonction des paramètres
inconnus L7 et L8. La solution, pour estimer les poids optimaux,
proposée par Wang est de supposer que L7 et L8 sont nuls; en absence
d'information, Wang suppose donc les individus indépendants. Dans un
deuxième temps, il propose d'utiliser la méthode des moindres
carrés pondérés pour obtenir les estimations de L7 et de
L8 et en déduire l'estimation de r.
Par la suite, Wang discute du cas de plusieurs loci. Comme, la
variabilité de chacun des locus peut être forte, il explique
qu'une simple moyenne non pondérée des Pà et
des a (cf equation 8) sur l'ensemble des locus peut ne pas être efficace
et pertinente. Il teste alors différentes pondérations. Parmi
elle, il en choisit une qui apparaît être la plus adaptée au
plus grand nombre de
xv
situations qu'il rencontre.
Les valeurs prises par l'estimateur de l'apparentement de Wang
(2002) sont quelquefois en dehors de l'intervalle de définition du
coefficient de parenté, c'est à dire [0; 1]. Cette remarque est
aussi valable pour les valeurs données par d'autres estimateurs obtenus
par la méthode des moments comme ceux de Ritland (1996b) et de Lynch et
Ritland (1999). Ceci reflète l'importance de la variabilité
résiduelle des estimateurs basés sur la méthode des
moments (Thomas, 2005). Par exemple, lorsque les individus
considérés ne sont pas apparentés, près de la
moitié des valeurs estimées données par la méthode
de Wang (2002) sont négatives tandis que les estimations obtenues par la
méthode du maximum de vraisemblance sont toujours comprises dans
l'intervalle de définition du paramètre inconnu. Lorsque les
valeurs estimées sont en dehors de l'intervalle de définition du
paramètre elles ne peuvent pas être interprétées
comme des probabilités d'IBD. Il est possible d'imposer une contrainte
pour que l'estimation reste dans l'intervalle de définition du
paramètre mais ceci induit par contre un biais (Milligan, 2003; Thomas,
2005). L'importance de ce biais dépend du mode réel de
parenté des individus.
L'estimateur de l'apparentement de Wang (2002) est sans biais
lorsque les fréquences alléliques sont supposées connues.
Le biais reste faible lorsque les fréquences alléliques sont
estimées en utilisant un autre échantillon et ceci a
été vérifié par différentes simulations
(différentes fréquences alléliques, différents
nombres de loci et degrés de parenté).
L'expression analytique de la variance de l'estimateur de
l'apparentement de Wang n'est pas connue. Ainsi, c'est seulement par simulation
que la variance de l'estimateur peut être estimée. Wang a
comparé, par simulation, le comportement de l'estimateur qu'il propose
à d'autres estimateurs fondés sur les méthodes des moments
Lynch et Ritland (1999); Queller et Goodnight (1989). Lorsque les
fréquences alléliques sont supposées connues la variance
moyenne des erreurs d'échantillonnage en un locus est
indépendante du nombre de locus considéré pour tous les
estimateurs à l'exception de celui de Lynch et Ritland (1999). Il faut
noter que les estimateurs de Queller et Goodnight (1989), Ritland (1996b) et
Lynch et Ritland (1999) sont indéfinis pour certaines fréquences
alléliques (les dénominateurs étant nuls). Lorsque les
fréquences alléliques sont estimées, les variances des
estimateurs de l'apparentement de Wang (2002) et de Queller et Goodnight (1989)
sont plus faibles que celles de Lynch et Ritland (1999) et ne varient presque
pas en fonction de la taille de l'échantillon (nombre de locus) et du
type d'apparentement considéré.
`(<) =
|
XL l=1
|
{ X9 }
êiP (IBSl )
log j|IBDi , j ? {1,...,9}
i=7
|
|