Chapitre 3
Estimation des paramètres
génétiques en milieu naturel
L'objectif dans ce chapitre est de proposer des
méthodes d'estimation des paramètres génétiques en
milieu naturel. Comme nous avons choisi de nous placer dans un cadre
bayésien, nous rappelons tout d'abord les outils nécessaires pour
l'inférence statistique bayésienne, notamment les méthodes
de Monte Carlo et les méthodes de Monte Carlo par Chaînes de
Markov (MCMC). Nous proposons ensuite trois algorithmes pour l'estimation de
l'apparentement en milieu naturel. Les 2 premiers algorithmes sont des
algorithmes de Metropolis-Hastings et la différence entre ces
algorithmes est principalement liée au choix de la loi de proposition.
Nous présentons ensuite un algorithme pour estimer à la fois
l'apparentement et l'héritabilité lorsque le pedigree n'est pas
connu.
3.1 L'inférence statistique bayésienne et
les méthodes de Monte Carlo par Chaînes de Markov
Les méthodes statistiques fréquentistes
considèrent les paramètres comme des quantités fixes alors
que les méthodes statistiques bayésiennes considérent les
paramètres comme des variables aléatoires. La différence
principale entre l'approche bayésienne et l'approche classique dite
fréquentiste est que la première propose une loi de
probabilité sur les paramètres (Robert, 1992). Les
paramètres ne sont donc plus considérés comme des
quantités fixes mais comme des variables aléatoires dont nous
avons une connaissance plus ou moins exacte. Cette connaissance est traduite
par le choix d'une distribu-
tion a priori sur les paramètres. On appelle
modèle statistique bayésien la donnée
d'un modèle statistique paramétré ayant pour fonction de
densité fY |ö(Y |ö) et d'une loi a priori sur les
paramètres notée ðö(ö) qui admet pour fonction de
densité fö(ö) (Robert, 1992). La loi a posteriori de ö
est obtenue par utilisation de la version continue de la formule de Bayes
(1763) :
fY |ö(Y |ö)fö(ö)
fö|Y (ö|Y ) =
f fY|ö(Y |ö)45(ö)dö. (3.1)
La principale différence entre l'approche
bayésienne et l'approche dite classique ou fréquentiste
basée sur la vraisemblance est que la vraisemblance est, avec l'approche
bayésienne, modifiée en une loi a posteriori donnée par la
formule 3.1 et représente l'actualisation de l'information a priori,
donnée par la loi a priori ðö(ö), au vu de l'information
contenue dans les observations, fY |ö(Y |ö) (Robert, 1992; Marin et
Robert, 2007).
Le choix de la loi a priori reste un problème
délicat en statistique bayésienne. Lorsque des connaissances a
priori sur les données ou le modèle sont disponibles, elles
pourront ou devront être utilisées pour le choix de la loi a
priori (Marin et Robert, 2007). Cependant, il faut bien souligner que
l'introduction d'une loi ðö sur les paramètres ö divisent
depuis de nombreuses années les statisticiens (Robert, 1992; Efron,
2005). L'inférence statistique bayésienne est basée sur
les distributions a posteriori des paramètres du modèle. Ainsi
l'inférence bayésienne est réalisée
conditionnellement aux observations et l'analyse bayésienne donne un
sens probabiliste bien précis à ce conditionnement en attribuant
une loi de probabilité aux paramètres (Parent et Bernier, 2007).
Le problème est de calculer les caractéristiques a posteriori
des paramètres ö, de certaines fonctions des paramètres
h(ö) ou des espérances, sous la loi a posteriori, de ces fonctions
de la forme :
I h(ö)fö|Y (ö|Y )dö.
Il peut s'agir, par exemple, de la moyenne a posteriori qui est
donnée par l'espérance de ö sous la loi a posteriori
Eö|Y (ö|Y ) = f öfö|Y (ö|Y
)dö
Le plus souvent, le paramètre ö est un vecteur
multidimensionnel de dimension K, de la forme ö = (ö1, ö2, ... ,
öK) et le calcul du dénominateur dans l'expression de la loi a
posteriori (Equation 3.1) fait intervenir une intégrale multiple. Ce
calcul pose souvent problème. Il faut généralement
prendre en compte l'impossibilité de calculer cette
expression quand on réalise la phase d'inférence
bayésienne (Parent et Bernier, 2007). Nous distinguons deux classes de
méthodes d'inférence bayésienne : les méthodes de
calcul analytique et les méthodes numériques. Les méthodes
de calcul analytique englobent celles basées sur les distributions a
priori dites conjuguées. Une famille de lois a priori, notée
Hö est dite conjuguée si, pour toute loi a priori ðö E
Hö, la loi a posteriori ðö|Y (ö|Y ) appartient
également à Hö (Robert, 1992). Le passage des lois a priori
aux lois a posteriori se réduit alors simplement à un changement
de paramètres (Robert, 1992). L'emploi des méthodes analytiques
ne peut être envisagé que dans des cas particuliers. Or en
pratique, pour réaliser l'inférence bayésienne des
modèles à plusieurs paramètres, donc plus complexes, la
loi a priori est généralement de structure quelconque et donc la
commodité que représente le calcul des lois conjuguées
naturelles ne peut pas être exploitée (Parent et Bernier, 2007).
Des méthodes numériques doivent donc être envisagées
pour la réalisation effective de l'inférence bayésienne
des modèles multiparamètriques plus complexes (Parent et Bernier,
2007). Parmi les méthodes numériques, nous pouvons citer les
méthodes de Monte Carlo et les méthodes de Monte Carlo par
Chaînes de Markov (MCMC pour Markov Chain Monte Carlo). Ces
méthodes sont des méthodes algorithmiques qui sont maintenant
largement utilisées pour évaluer les densités a posteriori
ðö|Y (ö|Y ) des paramètres (Chib et Greenberg, 1995;
Parent et Bernier, 2007).
3.1.1 Les méthodes de Monte Carlo
Les méthodes de Monte Carlo ont été
développées à l'origine dans le domaine de la physique
pour approcher des expressions de la forme
fEY (h(Y )) = h(Y )fY (Y )du(Y ) < 8, (3.2) oil fY est la
densité de la variable aléatoire Y par rapport à la mesure
u et h une fonction mesurable quelconque. La méthode de Monte carlo
consiste à réaliser des simulations numériques de
variables aléatoires pour obtenir une approximation d'intégrales
qui converge avec le nombre de simulations. Ceci est justifié par la loi
forte des grands nombres (Marin et Robert, 2007). Nous avons d'après la
loi forte des grands nombres,
1 Ti
Xn i=1
h(Yi) p.s
-? EY (h(Y ))
En outre, si EY (h(Y )2) < 8, par l'emploi du
théorème central-limite, nous avons un résultat de
convergence asymptotique
vn ( 1n Eli h(Yi) - EY (h(Y )))
|
p.s
-? N(0, 1)
|
|
|
|
VY (h(Y ))
|
|
et nous pouvons construire un intervalle de confiance
asymptotique pour EY (h(Y )). Néanmoins, il n'est pas toujours possible
de simuler suivant la loi de Y , ðY . De plus, il peut s'avérer,
comme c'est le cas pour la simulation d'événements rares, que la
simulation suivant ðY n'est pas toujours optimale (Marin et Robert, 2007).
Lorsque la simulation selon la loi ðY n'est pas possible et en notant que
l'expression (3.2) peut aussi s'écrire d'une autre manière
comme
I
h(Y )fY (Y ) g(Y )du(Y ), g(Y )
où g est la densité d'une autre loi de probabilité dont le
support contient
celui de la loi associée à la densité fY
. Ainsi, un échantillon simulé selon la densité g permet
aussi d'approcher cette expression lorsque la fonction h(Y )fY (Y )/g(Y ) est
employée (Marin et Robert, 2007). Cette autre méthode de
Monte-Carlo est appelée méthode d'échantillonnage
préférentiel ou pondéré 1 : elle
consiste à simuler une suite Y1,. . . , Yn suivant la loi de
densité g et d'approcher EY (h(Y )) par
1 n
Xn i=1
h(Yi)f(Yi) (3.3)
g(Yi)
La loi g est appelée la loi d'importance et le rapport
fY (Yi)/g(Yi) est le poids d'importance associé à la variable
aléatoire Yi. D'après la loi forte des grands nombres
1 n
|
Xn i=1
|
h(Yi)f(Yi)
g(Yi)
|
ps ? I (h(Y ) 9(Y))
g(y) g(Y )du(Y ) = EY (h(Y ))
|
|