1.4 Prise en compte de l'information spatiale
L'une des hypothèses fortes du travail réside
dans le fait que deux individus ont d'autant plus de chance d'avoir des
allèles IBD qu'ils sont spatialement proches.
Nous proposons, dans la suite, un modèle
hiérarchique bayésien pour l'apparentement en prenant en compte
l'information spatiale. L'intérêt de la modélisation
hiérarchique bayésienne est que cette approche permet de scinder
un problème complexe en une certaine série de problèmes
relativement plus simples à traiter (Wikle, 2003). Le principe de la
modélisation hiérarchique est basé sur le simple fait que
la loi jointe d'un certain nombre de variables aléatoires peut toujours
être décomposée en un produit de lois conditionnelles
(Wikle, 2003). Par exemple si on considère 3 variables aléatoires
X, Y Z, la distribution jointe de ces variables est
ðX,Y,Z(X, Y, Z) = ðX|Y,Z(X|Y, Z)ðY |Z(Y
|Z)ðZ(Z).
Cette formule constitue le noeud de la modélisation
hiérarchique. La modélisation d'un processus complexe ayant une
loi jointe qui est difficile à spécifier peut ainsi être
faite avec un modèle hiérarchique comportant au moins trois
niveaux de base (Wikle, 2003) :
1. niveau des données Y : ce niveau permet
d'expliciter la loi des observations conditionnellement à un process
latent et à un ensemble de paramètres ö1. Cela permet donc
d'expliciter la vraisemblance;
2. niveau du processus ç : ce niveau permet de stipuler
la loi du processus latent conditionnellement à un second ensemble de
paramètres ö2
3. niveau des paramètres ö : ce niveau permet de
décrire en terme de loi de probabilité, les connaissances a
priori que l'on a des paramètres, ö1 et ö2, définis
dans les deux premiers niveaux .
Dans le cadre Bayésien, nous nous intéressons
à la distribution jointe a posteriori du processus latent et des
paramètres sachant les données. D'après le
théorème de Bayes :
ðç,ö1,ö2|Y (ç, ö1, ö2|Y ) ?
ðY |ç,ö1(Y |ç,
ö1)ðç|ö2(ç|ö2)ðö1,ö2(ö1,ö2)
1.4.1 Version hiérarchique bayésienne du
modèle de Milligan
Le modèle de Milligan peut être décrit de
manière hiérarchique bayésienne.
Definition 4 Soit IBS = (IBS1, . . . ,
IBSL) le vecteur aléatoire du mode d'IBS pour L Locus
indépendants. Soit IBD = (IBD1, . . . , IBDL), le
vecteur aléatoire latent du mode d'IBD pour les L loci. Le modèle
hiérarchique bayésien de l'apparentement est donné par les
équations suivantes :
- niveau des données
ðIBS|IBD(IBS|IBD) = 11L
ðIBSl|IBDl(IBSl|IBDl) (1.7)
l=1
où ðIBSl|IBDl(IBSl|IBDl) désigne
une loi multinomiale M (1; pl 1,. . .
,pl9), pli sont les
probabilités d'IBS sachant le mode d'IBD au locus l donnés
dans le tableau 1.1. Ce premier niveau décrit l'indépendance
conditionnelle des modes d'IBS sachant les modes d'IBD.
- niveau du processus
ðIBD|Ä(IBD|A) = 11L
ðIBDl|Ä(IBDl|A) (1.8)
l=1
où ðIBDl|Ä(IBDl|A) est une loi
multinomial M (1, A1, . . . , A9). Ce deuxième niveau
reflète l'indépendance entre locus.
- niveau des paramètres
ðÄ(A) = D (u1, . . . , u9) (1.9)
où D est une loi de dirichlet et les u = u1, . . . , u9
sont donnés.
Dans l'approche bayésienne, un vecteur latente, mode
d'IBD, IBD = (IBD1,...,IBDL), est introduit et
dépend du locus.
La généralisation que nous proposons va consister
à modéliser différemment, le vecteur latent du mode
d'IBD.
Hypothèses Nous supposons que les individus de la
population ne sont pas consanguins, c'est à dire que leurs parents ne
sont pas apparentés. Ainsi, les modes d'IBD possibles des allèles
de 2 individus sont réduits uniquement aux 3 cas suivants :
- les individus n'ont aucun allèle IBD, ils sont IBD9 ;
c'est le cas s'ils n'ont par exemple aucun parent en commun
les individus ont 1 allèle IBD, ils sont IBD8 ; ceci
n'est possible que s'ils ont au moins un parent en commun (même
père ou même mère)
- les individus ont 2 allèles IBD, ils sont IBD7 ; ceci
n'est possible que lorsqu'ils ont deux parents en commun
Ce qui est important avec cette hypothèse, c'est qu'un
couple de génotypes donné ne présente donc qu'une seule
possibilité d'avoir aucun allèle, un allèle ou deux
allèles identiques par descendance (cf Figure 3). Cette hypothèse
nous permet de définir une structure d'ordre qui est relative à
la similarité
des allèles d'un couple d'individus. Avec
l'hypothèse que la similarité allélique de deux individus
est ordonnée et si nous supposons que le mode d'IBD suit une loi
multinomiale, nous proposons de modéliser le mode d'IBD avec un GLM
probit ordinal, décrit en terme de variable latente gaussienne (voir
(McCullagh et Nelder, 1989, Chapitre 5)).
Modèle spatial hiérarchique bayésien Nous
proposons un premier modèle spatial hiérarchique. Nous ne
présentons pas ici la loi a priori des paramètres, uniquement les
deux premiers niveaux de la modélisation hiérarchique :
- niveau des données
ðIBS|IBD(IBS|IBD) =
|
YC c=1
|
YL l=1
|
ðIBS|IBD(IBSl c|IBDl
c)
|
oil ðIBSlc|IBDlc(IBSl c|IBDl
c) est une loi multinomiale M(1,pl
1,pl 2, . . . ,pl 9) avec les
pl i, i = 1, . . . , 9 des fonctions polynômiales
des fréquences alléliques au locus l = 1, .. . , L donné
au Tableau 1.1. Ce premier niveau décrit l'indépendance
conditionnelle des modes d'IBS entre individus et entre locus sachant les modes
d'IBD.
niveau du processus
P (IBDl i,c|ak-1, ak,ç~ = P (Zl c ?]ak-1,
ak]|ç) , i = 7,8,9 ðZlc|ç(Zl c|ç) = N
[hç(dc),1]
oil les ak sont des seuils tels que ak-1 < ak et soient
égaux à -8, 0, a ou +8}. Comme la variable IBD est ordinale
à trois modalités, seul un seuil, nommé aussi a, est
inconnu.
Une première approche consiste à
modéliser hç(dc) comme une fonction
linéaire de la distance,
hç(dc) = ii + udc
avec ç = (ii, u) un vecteur de paramètres
inconnus. Le problème posé par ce modèle est que comme la
distance spatiale est la seule variable explicative dans l'expression de la
moyenne de la variable latente et donc la seule variable permettant de
distinguer les couples entre eux, nous risquons de la conserver dans le
modèle même si en réalité elle n'est pas
significativement discriminante. Nous proposons une autre approche de
modélisation qui consiste à introduire une couche
supplémentaire dans le modèle hiérarchique
bayésien. Cette couche correspond à un effet du couple
considéré et cet effet dépend de la distance entre les
individus constituant le couple. Le modèle spatial hiérarchique
bayésien pour l'apparentement est donné par la définition
suivante.
Définition 5 (Modèle spatial hiérarchique
pour l'apparentement) Soient (g1, . . . , gn), le
génotype de n individus issus d'une population non con-sanguine
et observés sur L locus indépendants. Soit c =
1, ...,C les C couples associés aux n individus. Soient I BDc
= (I BDc1, . . . , I BDcL) le
vecteur aléatoire des modes d'IBD du couple c au L
oùIBDlc est une variable aléatoire ordinale
à trois modalités. On note IBD le vecteur des modes d'IBD
pour tous les couples à tous les loci. Soient IBSc =
(IBS1 c,. . . , I BSS) le vecteur des modes
d'IBD du couple c aux différents locus L et IBS le vecteur des
modes d'IBS pour tous les couples à tous les loci. Soit d = (d1, .
. . , dC) le vecteur des distances géographiques
observées entre les couples. Le modèle spatial
hiérarchique bayésien de l'apparentement est donnés par
les équations (1.10), (1.11), (1.12) et (1.13)
ðIBS|IBD(IBS|IBD) = 11C
11L
ðIBSl|IBDl(IBSlc|IBDlc)
(1.10)
c=1 l=1
où ðIBSl|IBDl(IBSlc|IBDlc) est une loi
multinomial M(1,pl 1,pl 2,. . .
,pl9) avec les pli, i = 1,
. . . , 9 sont des fonctions polynômiales des fréquences
alléliques au locus l = 1, . . . , L qui sont donnés au
Tableau 1.1. Ce premier niveau décrit l'indépendance
conditionnelle des modes d'IBS entre individus et entre locus sachant
les modes d'IBD des couple d'individus à tous les locus. De
plus, Il existe un vecteur Z aléatoire latent gaussien, de longeur
L × C, tel que
P (IBDL|ák-1, ák, çc)
= P (Zlc ?] ák-1, ák]
|çc) , i = 7, 8, 9 (1.11)
avec
ðZlc|çc(Zlc|çc)
= N (çc, 1) (1.12)
et où les ák sont des seuils tels que
ák-1 < ák et soient égaux à -8, 0, á ou
+8}. Comme la variable IBD est ordinale à trois modalités, seul
un seuil, nommé aussi á, est inconnu.
ð(çc|u,í,
ó2ç) = N(u + ídc,
ó2ç) (1.13)
où ç = (u, í,
ó2ç) est un vecteur de paramètres
inconnus.
En particulier
e--(z-71.)2dz,
P(/BA,c177c) --
P(I BDl9,c|çc) =
c)2dz
et P(IBD,l7 = 1 e-v12ð
f0 8
,c c .0.71- f á (z-çc)2dz. v12
/r0 e--
(z-71 1
|