CHAPITRE 3. ÉTAT DE L' ART
probabiliste dont on connaît l'expression
mathématique. Les sites évoluent indépendamment les uns
des autres; Les sites évoluent selon la même loi. Les taux de
substitution ne changent pas au cours du temps le long d'une branche. Ils
peuvent varier entre branches.
3.2 Construction des arbres de gènes
Les arbres de gènes présentés dans la
littérature sont tous des approximations de la réalité car
la modélisation qui conduit à leur construction ne prend pas en
compte toute la structure des gènes. En particulier, les méthodes
de construction d'arbres de gènes actuelles ne prennent en compte qu'une
seule des protéines (généralement la plus longue) de
chaque gène. Une partie des informations contenues dans les gènes
est ainsi négligée.
3.2.1 Exemple de construction d'arbres de gènes -
Ensembl-Compara
Les arbres de gènes de la base de données
Ensembl sont construits suivant une méthode décrite dans [31]. La
figure 3.4 décrit cette méthode composée de sept
étapes pour la construction des arbres de gènes.
Nous détaillons ci-après le principe des sept
étapes de la méthode de Ensembl-Compara pour la construction des
arbres de gènes.
1. Définition des données de
protéines : Pour chaque gène codant dans une
espèce, considérer la plus longue protéine produite par le
gène.
2. Basic Local Alignment Search Tool Protein
(BLASTP)2 : Chaque protéine est interrogée
à l'aide de WU BLASTP contre la base de données de
protéines de chaque espèce, y compris celle de l'espèce
à laquelle la protéine appartient.
3. Construction du graphe : La relation
entre deux protéines est conservée si elle satisfait soit
à un meilleur partenaire réciproque par BLASTP ou à un
score de BLASTP supérieur à 0.33. On construit alors un graphe
dans lesquels, les noeuds correspondent aux protéines et les
arêtes aux relations conservées.
4. Regroupement : On extrait à partir
du graphe, les composantes connexes. Chaque composante connexe
représente une famille de gènes. Si une famille
2. BLASTP est un programme d'alignement de protéines
permettant, étant donnée une séquence protéique,
d'autres séquences similaires à elle dans une base de
données de séquences protéiques.
22
|