ABSTRACT
Recent genome analyses have revealed the ability of eukaryotic
genes to produce multiple transcripts and proteins. This mechanism plays a
major role in the functional diversification of genes [1]. Still, current
reconstructions of gene family phylogenies are based on a single reference
protein per gene, thus neglecting all other alternative products of genes
[31].
The problem of reconstructing gene product evolution was first
introduced in [2], where a model and an algorithm for transcript phylogeny
reconstruction, given the gene tree and the gene exon structures, were
introduced. Here, we explore a different approach using reconciliation. Gene
trees reconciliation with species trees is used to infer the evolutionary
history of gene families [12]. We propose an extension of the framework of
reconciliation in order to reconstruct both the gene tree and the evolutionary
history of all the proteins produced by the genes of a gene family, given the
species tree. We propose a model of protein evolution involving two types of
evolutionary event called "protein creation" and "protein loss", in addition to
the classical speciation, gene duplication and gene loss events.
In this report, we introduce new reconciliation problems
derived from the protein evolutionary model. We present some preliminary
algorithmic results and a heuristic method for the joint reconstruction of gene
trees and proteins trees. We applied this algorithm to gene families of the
Ensembl database, showing that our framework allows to lower the reconciliation
cost of the reconstructed gene trees with species trees, as compared to the
corresponding Ensembl gene trees.
vi
Table des figures
2.1 Structure de la cellule chez les Eucaryotes 5
2.2 Illustration d'une molécule d'ADN d'une cellule
d'eucaryote 6
2.3 Illustration des deux brins de l'ADN et de la relation de
complémen-
tarité des différentes bases 7
2.4 Chaque chromosome contient plusieurs gènes. 7
2.5 Épissage alternatif d'un gène chez les
eucaryotes 8
2.6 Code génétique 9
2.7 Exemple de deux séquences de nucléotides
à aligner 11
2.8 Résultat d'alignement possible des deux
séquences 11
2.9 Exemple d'alignement multiple de neuf séquences
protéiques. Les colonnes d'acides aminés conservés dans
l'alignement sont surlignées en
vert et bleu. Crédit : wikipedia. 11 2.10 Arbre
d'espèce enraciné, montrant les trois domaines de vivant :
bactéries, archées et eucaryotes, reliant les trois branches
d'organismes
au dernier ancêtre universel (le tronc noir en bas de
l'arbre) 12
2.11 Arbre d'espèces 13
2.12 Arbre de gènes non étiqueté 14
2.13 Résultat de la réconciliation de l'arbre de
gène 2.14 avec l'arbre d'es-
pèce 2.11 14 2.14 Arbre de gènes
étiquetés extrait de la réconciliation de l'arbre de
gène
dans l'arbre d'espèce 15
3.1 Application de UPGMA 18
3.2 Matrice et graphe additif 19
3.3 Enraciner un arbre à l'aide d'un outgroup. 19
3.4 Méthode de Ensembl-Compara pour la construction des
arbres de gènes 22
3.5 Produit de l'épissage alternatif 24
vii
TABLE DES FIGURES
4.1 Arbre de protéines étiqueté avec les
événements de spéciation, dupli-
cation, création et perte 26
4.2 Exemple de réconciliation d'arbres de protéines
avec arbre de gènes 28
4.3 Arbre de gènes étiqueté 29
4.4 arbre d'espèces 29
4.5 Processus de construction d'arbre de gènes à
sept étapes 31
4.6 Extrait d'arbre de protéines 34
4.7 Les trois principales catégories d'algorithmes
utilisées pour le regrou-
pement des séquences de protéines 35 4.8
Illustration présentant la différence entre le regroupement avec
che-
vauchement et le regroupement sans chevauchement 36 4.9
Exemple d'application de l'algorithme de regroupement avec chevauchement sur
sept protéines de cinq gènes. Les cinq gènes sont p1, p2
et p4 ayant chacun une protéine, et p3 et p5 ayant chacun deux
protéines. 37 4.10 Application de l'algorithme
glouton de fusion de 6 arbres. Les arbres sont greffés à l'arbre
de référence par des créations matérialisées
sur
la figure par des triangles au fond noir. 42
5.1 Arbre de gènes de la famille MAG obtenu avec notre
méthode . . . 44
5.2 Arbre de gène de la famille MAG obtenu de Ensembl
45
5.3 Arbre de gène de la famille FAM86 obtenu de notre
modèle 46
5.4 Arbre de gène de la famille FAM86 obtenu de Ensembl
47
viii
|