Glossaire
ADN Acide Désoxyribonucléique.
API Application Programming Interface. ARN Acide
Ribonucléique.
BLAST Basic Local Alignment Search Tool.
CoBIUS Complexité Biologique &
Informatique de l'Université de Sherbrooke. FTP File Transfer
Protocol.
MACSE Multiple Alignment of Coding SEquences. MUSCLE Multiple
Sequence Alignment by log-Expectation.
NJ Neighbour joining.
TreeBest Tree Building guided by Species
Tree.
UPGMA Unweighted Pair Group Method with Arithmetic Mean.
1
CHAPITRE UN
INTRODUCTION
L'aboutissement du projet d'annotation du génome humain
en 2003 a permis aux scientifiques de mieux comprendre les processus
biologiques qui se déroulent dans les cellules des êtres vivants
au travers de l'Acide Désoxyribonucléique (ADN). Cet ADN est
l'entité qui contient toutes les informations régissant le
développement, le fonctionnement et la reproduction des êtres
vivants. Ces nouvelles connaissances ont eu le mérite de susciter un
regain d'attention de la part du public et des chercheurs.
L'ADN est composé de gènes, supports de
l'information, qui sont la base de la structure et du fonctionnement des
génomes. Il est donc naturel que nous nous intéressions tout
particulièrement à ce programme génétique qui
détermine notre fonctionnement.
Une bonne caractérisation et compréhension du
fonctionnement des gènes sera d'un apport considérable dans des
domaines tels que l'industrie pharmaceutique ou encore des traitements contre
les cancers. Les recherches dans ces domaines constituent une tâche
collective faisant appel à des collaborations multidisciplinaires.
De nombreux travaux en bio-informatique ont été
réalisés dans le but de proposer des modèles
d'évolution des gènes, tenant de diverses caractéristiques
séquentielles ou structurales des gènes. Ce mémoire se
focalise principalement à l'analyse des limites de ces modèles et
propose un nouveau modèle d'évolution basé sur
l'expression des gènes, suivi d'un algorithme pour la reconstruction de
l'histoire évolutive des gènes.
Ce mémoire qui décrit des approches
computationnelles pour résoudre une problématique issue des
sciences de la vie aura la particularité de marquer des temps
d'arrêt pour introduire les notions biologiques sous-jacentes.
2
CHAPITRE 1. INTRODUCTION
1.1 Problématique
Chez les eucaryotes1, il est maintenant reconnu que
chaque gène de l'ADN d'une espèce peut produire plusieurs
protéines et que les gènes des organismes eucaryotes peuvent
être classés en familles de gènes homologues 2.
La problématique soulevée par ce mémoire est de
définir un modèle d'évolution et un algorithme
associé pour reconstruire l'histoire évolutive d'une famille de
gènes (un ensemble de gènes homologues) en prenant en compte
toutes les protéines issues de chacun de ces gènes.
Cette approche diffère de celle des méthodes actuelles qui ne
considèrent qu'une seule protéine par gène, conduisant
ainsi souvent à des arbres (phylogénies) de gènes
erronés.
|