CHAPITRE 4. MÉTHODOLOGIE ET
IMPLÉMENTATION
Définition du jeu de donnée (génes
et séquences codantes)
|
NJ'
2 r Alignement multiple de toutes les séquences
codantes A l'aide de MACSE
Calcul d'une matrice de similarité â l'aide
de FsePA
|
Regroupement avec chevauchement des
--)
séquences codantes
|
C'oustructiou du groupe de
référence
Création des sous-arbres A l'aide de
TreeBest
|
Construction de l'arbre de gènes et de
protéines
|
31
FIGURE 4.5 -- Processus de construction d'arbre de gènes
à sept étapes
32
CHAPITRE 4. MÉTHODOLOGIE ET
IMPLÉMENTATION
retenons sa séquence codante, c'est-à-dire la
séquence d'ARNm qui a été traduite pour obtenir la
protéine.
4.2.2 Étape 2 : Alignement multiple de toutes les
séquences codantes
Afin de pouvoir avoir une mesure de similarité entre
les séquences codantes, nous procédons à un alignement
multiple des séquences. Pour ce faire, nous utilisons le programme MACSE
(Multiple Alignment of Coding SEquences Accounting for Frameshifts and Stop
Codons) [29], qui est actuellement l'unique programme d'alignement multiple de
séquences codantes prenant en compte les décalages de cadre de
lecture dans la traduction7 en protéine. Contrairement
à l'approche des méthodes actuelles de construction d'arbre de
gènes, nous avons choisi d'aligner les séquences codantes
plutôt que les protéines elles-mêmes, afin de tenir compte
des phénomènes de décalage de cadre de lecture qui
induisent des alignements erronés des séquences
protéiques.
4.2.3 Étape 3 : Calcul de la matrice de
similarité
Une fois les alignements effectués, nous calculons le
score de similarité de chaque paire de séquences. On obtient
comme résultat une matrice de similarité. Pour le calcul du score
de similarité, nous utilisons un schéma de score tenant compte
simultanément de l'échelle des nucléotides et celle des
protéines définies dans [20]. Le but est de tenir compte à
la fois des décalages de cadre de lecture, et des longueurs des
différences, entre les protéines, issues de ces décalages.
Les scores de similarités sont normalisés en les divisant par les
longueurs des alignements.
4.2.4 Étape 4 : Regroupement avec chevauchement des
séquences codantes
NB : il existe une bijection entre l'ensemble des
protéines et l'ensemble des séquences codantes. Par la suite on
utilisera le terme protéine par souci de simplification.
7. Les séquences codantes sont traduites en
protéines en considérant un cadre de lecture des triplets de
nucléotides consécutifs (codons) dans la séquence pour les
traduire en acides aminés. Le décalage du cadre de lecture
résulte d'un changement du positionnement du cadre de lecture d'un
nombre de nucléotides non multiple de 3 conduisant à un
changement de traduction des codons, et à des séquences
protéiques différentes.
33
|