Glossaire
A
Acide désoxyribonucléique
(ADN)
Support biochimique de l'information génétique
chez tous les êtres vivants (à l'exception de quelques virus qui
utilisent l'ARN). Principal composant des chromosomes, l'ADN se présente
le plus souvent sous forme de deux longs filaments (ou chaînes)
torsadés l'un dans l'autre pour former une structure en double
hélice. Chacune de ces chaînes est un polymère formé
de l'assemblage de quatre nucléotides différents,
désignés par l'initiale de la base azotée qui entre dans
leur composition : A (Adénine), C (Cytosine), G (Guanine) et T
(Thymine).
Acide ribonucléique (ARN)
Dans les cellules, on distingue plusieurs types d'ARN suivant
leur fonction. Les trois types principaux sont : les ARN messagers, les ARN de
transfert et les ARN ribosomaux. L'ARN est un acide nucléique
constitué d'une seule chaîne de nucléotides, de structure
analogue à celle de l'ADN. Il existe cependant des différences
chimiques entre ces deux acides nucléiques qui donnent à l'ARN
certaines propriétés particulières. L'ARN est produit par
transcription de l'ADN.
ACP
L'analyse en composantes principales (ACP) est une
méthode mathématique d'analyse des données qui consiste
à rechercher les directions de l'espace qui représentent le mieux
les corrélations entre n variables aléatoires
Acyclique (graphe)
Un graphe acyclique est un graphe ne contenant aucun cycle.
Agrégation (données)
Le mot agrégation désigne l'action
d'agréger, de regrouper des éléments.
Alignement Global / Local
L'alignement de séquences (ou alignement
séquentiel) est une manière de disposer les composantes
nucléotides ou acides aminés) des ADN, des ARN, ou des
séquences primaires de protéines pour identifier les zones de
concordance qui traduisent des similarités ou dissemblances de nature
historique. Il existe l'alignement global, c'est-à-dire entre les deux
séquences sur toute leur longueur (FASTA) et local, entre une
séquence et une partie de l'autre séquence (BLAST).
Annotation
L'annotation d'un génome consiste à traiter
l'information brute contenue dans la séquence dans le but :
1. de prédire, le contenu en gènes, la position
des gènes à l'intérieur d'un génome ainsi que leur
organisation, des séquences promotrices, etc. Dans ce cas, on parle
d'annotation structurale.
2. de prédire la fonction potentielle de ces
gènes. Dans ce cas on parle d'annotation fonctionnelle.
Antigènes
Un antigène est une macromolécule naturelle ou
synthétique, reconnue par des anticorps ou des cellules du
système immunitaire et capable d'engendrer une réponse
immunitaire.
Arbre de décision
Modèle issu des techniques d'intelligence artificielle.
Son principe est de chercher à diviser une population en 2 (arbres
binaires) ou plus (arbres n-aires) de sorte que ces sous-populations soient
aussi différentes entre elles que possibles, et homogènes du
point de vue de la répartition de la variable cible.
Apprentissage (échantillon
d')
Partie des données servant à l'évaluation
des différents paramètres d'un modèle (en anglais,
"training").
Athérosclérose
Le vieillissement normal des artères et artérioles
se nomme artériosclérose.
Auto-immunes (maladies)
Les maladies auto-immunes sont dues à une
hyperactivité du système immunitaire à l'encontre de
substances ou de tissus qui sont normalement présents dans
l'organisme.
Automate cellulaire
Un automate cellulaire consiste en une grille
régulière de « cellules » contenant chacune un «
état » choisi parmi un ensemble fini et qui peut évoluer au
cours du temps. L'état d'une cellule au temps t+1 est fonction de
l'état au temps t d'un nombre fini de cellules appelé son «
voisinage ». À chaque nouvelle unité de temps, les
mêmes règles sont appliquées simultanément à
toutes les cellules de la grille, produisant une nouvelle «
génération » de cellules dépendant entièrement
de la génération précédente.
Annexe A
B
Bio-informatique
La Bio-informatique est constituée par l'ensemble des
concepts et des techniques nécessaires à l'interprétation
de l'information génétique (séquences) et structurale.
C'est le décryptage de la « bio-information ». La
bio-informatique est donc une branche théorique de la biologie.
Biologie moléculaire
La biologie moléculaire est une discipline scientifique au
croisement de la génétique, de la biochimie et de la physique,
dont l'objet est la compréhension des mécanismes de
fonctionnement de la cellule au niveau moléculaire.
BLAST
BLAST (acronyme de basic local alignment search tool) est une
méthode de recherche heuristique utilisée en bio-informatique
permettant de trouver les régions similaires entre deux ou plusieurs
séquences de nucléotides ou d'acides aminés.
C
Candidat (gène)
L'approche gène candidat consiste à supposer
l'implication d'un gène dans un quelconque effet à priori, et
l'étude vise à confirmer cette implication a posteriori.
Cas-témoins (étude)
Etude rétrospective entre deux groupes, l'un
présentant une maladie (cas) et l'autre, indemne (témoins).
Chromosome
Unité physique de matériel
génétique correspondant à une molécule continue
d'ADN. Les cellules bactériennes n'en comportent qu'un. Ils sont
doués du pouvoir d'autoreproduction.
Classification ascendante hiérarchique
(CAH)
Méthode de création de typologies qui
agrège, à chaque étape, les individus ou les groupes
d'individus les plus proches. Les emboîtements successifs se poursuivent
ainsi jusqu'à agréger toute la population. On choisit ensuite la
partition (ensemble de classes ainsi constituées) qui propose le
meilleur rapport homogénéité interne des groupes /
hétérogénéité des groupes entre eux.
Classification automatique
On appelle classification automatique la catégorisation
algorithmique d'objets. Celle-ci consiste à attribuer une classe ou
catégorie à chaque objet (ou individu) à classer, en se
basant sur des données statistiques.
Coeliaque (maladie)
La maladie coeliaque est une maladie auto-immune,
caractérisée par une atteinte de tout ou partie des
villosités recouvrant l'intestin grêle.
Co-régulé
(gène)
Gènes liés l'un à l'autre.
Code génétique
Système de correspondance permettant de traduire une
séquence d'acide nucléique en protéine.
Cohorte
Ensemble d'individus étudiés sur une
période de temps donnée. Une cohorte permet de suivre de
manière longitudinale les comportements de la population observée
ainsi que sa réaction à un ou plusieurs événements
donnés.
Continue (variable)
Se dit d'une variable qui peut prendre une "infinité"
de valeurs (par opposition à discrète) par exemple, un
réel. Un âge, une somme d'argent, un coefficient de bonus/malus
sont souvent considérés comme continus. Synonyme :
quantitatif.
Corrélation
Mesure de la liaison entre deux variables. On parle de
corrélation entre une cause et son effet, ou entre deux variables qui
apportent la même information.
CROHN (maladie)
La maladie de Crohn est une maladie inflammatoire chronique
intestinale (MICI) de l'ensemble du tube digestif.
Annexe A
D
Data Mining (outils de)
Aussi connu sous le nom de KDD (Knowledge Discovery Data), les
outils de data mining permettent d'extraire de la connaissance des
données en découvrant des modèles, des règles dans
le volume d'information.
Data mining
Le terme anglais «datamining» évoque le
travail de «mineur de fond» pour extraire les données
pertinentes noyées dans de gros volumes de données. Ensemble de
techniques héritées de la statistique "classique", de la
statistique bayésienne et de l'intelligence artificielle, qui permet
l'étude de grands volumes de données. Ces techniques sont
soutenues en général par une méthode de travail qui pose
les étapes de l'étude DataMining.
Déduction / induction
En logique, la déduction procède de la
conception que les moyens ne sont pas plus importants que la fin (conclusion),
par opposition à l'induction logique qui consiste à former des
représentations générales à partir de faits
particuliers.
Dichotomique (Variable)
Variable qui peut opérer une division de
l'échantillon en deux parties.
Discrète / Continue
(variable)
Se dit d'une variable qui ne prend qu'un nombre limité
et connu d'avance de modalités (valeurs distinctes), par opposition
à continue. Une situation familiale, un sexe, ou à une
catégorie socio-professionnelle sont des variables discrètes.
Synonyme : qualitative.
Distance
En mathématiques, une distance est une application qui
formalise l'idée intuitive de distance, c'est-à-dire la longueur
qui sépare deux points.
Données biologiques ( cohorte
)
Ce sont les des dosages systématiques
réalisés (la biochimie, NFS numération de formule sanguine
et analyse d'urine).
Données cliniques ( cohorte )
Les données cliniques, se divisent en examens cliniques
systématiques (taille, poids, pression artérielle, ....), et en
examens cliniques spécifiques (échographie,.....).
Données
génétiques
Les données relatives au génome (ADN, ..).
E
Élaguer
Consiste à supprimer d'un problème des valeurs de
variables ne pouvant pas prendre part à une solution.
Épi-génétique
(maladie)
Le terme épigénétique définit les
modifications transmissibles et réversibles de l'expression des
gènes ne s'accompagnant pas de changements des séquences
nucléotidiques.
Epidémiologie
Etude des différents facteurs qui interviennent dans
l'apparition et l'évolution des maladies.
Eucaryotes / procaryotes
L'ensemble des organismes vivants peut être
classé en trois grands groupes : les eucaryotes (L'Homme, ainsi que les
animaux, les plantes et les champignons), les eubactéries, les
archaebactéries. Les cellules des eucaryotes possèdent un noyau.
Les eubactéries et les archaebactéries ne possèdent pas de
vrai noyau.
F
FASTA
C'est une méthode de recherche heuristique
utilisée en bio-informatique permettant de trouver les régions
similaires entre deux ou plusieurs séquences de nucléotides ou
d'acides aminés. Ce programme permet de retrouver rapidement dans des
bases de données, les séquences ayant des zones de similitude
avec une séquence donnée (introduite par l'utilisateur).
Annexe A
Fonctionnelle (génomique)
Étude de la fonction des gènes par analyse de leur
séquence et de leurs produits d'expression : les ARNm (transcriptome) et
les protéines (protéome).
G
Gène
Fragment d'ADN portant les informations nécessaires
à la fabrication d'une ou plusieurs protéine(s). Un gène
comprend la séquence en nucléotide qui peut varier de quelques
centaines, à plus d'un million de nucléotides.
Génétique (algorithme)
Un algorithme génétique est un algorithme lent,
représentant les modèles comme des gènes et des
opérateurs génétiques et les faisant évoluer soit
par mutation (un gène au hasard est remplacé), soit par
cross-over (la place de deux sous-arbres est échangée).
Génome
Ensemble de l'information génétique d'un organisme
(matériel génétique présent dans chacune des
cellules d'un individu, patrimoine héréditaire d'un individu).
Une copie du génome est présente dans chacune de ses cellules. Le
génome est transmis de génération en
génération.
Génomique
Étude des génomes. Son objectif est de
séquencer l'ADN d'un organisme et de localiser sur celui-ci tous les
gènes qu'il porte, puis de caractériser leurs fonctions.
Génotype
Ensemble des caractères génétiques d'un
individu. Son expression conduit au phénotype.
H
HMM
Un modèle de Markov caché (MMC) -- en anglais
Hidden Markov Models (HMM) (ou plus correctement, mais moins employé
automate de Markov à états cachés) est un modèle
statistique dans lequel le système modélisé est
supposé être un processus Markovien de paramètres inconnus.
Les modèles de Markov cachés sont massivement utilisés
notamment en reconnaissance de formes, en intelligence artificielle ou encore
en traitement automatique du langage naturel.
I
Induction
Méthode consistant à tirer une conclusion d'une
série de faits. Cette conclusion ne sera jamais sûre à 100
%. L'induction en revanche génère du sens en passant des faits
à la loi, du particulier au général.
M
Marqueur génétique
En cartographie génétique, séquence d'ADN
particulière utilisée pour "baliser" les chromosomes.
Modèle
Mécanique plus ou moins "boîte noire" qui,
à partir de données connues (input), calcule une réponse
(target) et la probabilité de réalisation de cette réponse
associée (score).
Moteur d'inférence
Partie d'un système expert qui effectue la
sélection et l'application des règles en vue de la
résolution d'un problème donné.
Motifs fréquents
Un caractère ou trait qui se répète
fréquemment.
Motifs séquentiels
Les motifs séquentiels permettent de traiter de gros
volumes de données et d'en extraire des règles incluant la
dimension temporelle
Mutation
Modification affectant l'ADN d'un gène. Cette
altération du matériel génétique d'une cellule ou
d'un virus entraîne une modification durable de certains
caractères du fait de la transmission héréditaire de ce
matériel de génération en génération.
Annexe A
N
Nucléotide
Motif structural de base des acides nucléiques,
formé de l'assemblage de plusieurs molécules : un sucre, un acide
phosphorique et une base azotée (dans le cas de l'ARN, cette base peut
être l'Adénine - A, la Cytosine - C, la Guanine - G ou l'Uracile -
U ; idem dans le cas de l'ADN, excepté que l'Uracile est remplacé
par la Thymine - T).
O
OR (Odds Ratio)
Un Odds ratio (OR), se définit comme le rapport des
chances qu'un évènement arrivant, par exemple une maladie,
à un groupe de personnes A, arrive également à un autre
groupe B.
Orphelines (pathologies)
Les maladies rares ou maladies orphelines sont des maladies qui
affectent moins de 0,05 % de la population (1 personne sur 2 000).
P
Pathogènes
/pathogénicité
Les agents infectieux sont un type d'agent pathogène,
responsables des maladies infectieuses.
PE / PPE
Familles de protéines.
Perceptron
Catégorie de réseaux de neurones robustes. Ils
diffèrent des autres réseaux (les RBF) par la fonction
d'activation des neurones, c'est à dire leur manière de
transformer les signaux d'entrée en signal de réponse.
Plasmide
Petite molécule circulaire d'ADN extrachromosomique
présente chez les bactéries, capable de se répliquer de
façon autonome, dans la cellule d'origine et dans une
cellule-hôte.
Polymorphismes
génétiques
Les polymorphismes génétiques s'expriment chez les
individus sous la forme de différents phénotypes.
Protéine
L'un des quatre matériaux de base de tout organisme, avec
les glucides, les lipides et les acides nucléiques. Les protéines
sont formées d'un enchaînement spécifique d'acides
aminés (de quelques dizaines à plusieurs centaines). Les
protéines remplissent différentes fonctions dans la cellule,
notamment des fonctions de structure et des fonctions enzymatiques.
Protéome / protéomique
Le protéome est l'ensemble des protéines produites
à partir du génome d'un organisme. La protéomique est
l'étude du protéome, dans le but de déterminer
l'activité, la fonction et les interactions des protéines.
Puce à ADN
Technologie employée dans l'étude du transcriptome
et basée sur la capacité des molécules d'ADN et d'ARN
à s'hybrider entre elles. De courtes séquences d'ADN connues sont
fixées sur des supports d'une surface de l'ordre du centimètre
carré : les puces.
Q
Qualitative / Quantitative
(variable)
Une variable qualitative est une variable pour laquelle la
valeur mesurée sur chaque individu (parfois qualifiée de
catégorie ou de modalité) ne représente pas une
quantité. Une variable est dite quantitative lorsque la valeur
mesurée sur chaque individu représente une quantité.
R
Raisonnement à partir de cas / Case Based
Reasoning
Un système CBR dispose d'une base de cas. Chaque cas
possède une description et une solution. Pour utiliser ces informations,
un moteur est aussi présent. Celui-ci va retrouver les cas similaires au
problème posé. Après analyse, le moteur fournit une
solution adaptée qui doit être validée. Enfin le moteur
ajoute le problème et sa solution dans la base de cas.
Annexe A
Règles séquentielles
C'est une règle d'association incluant le facteur
temporel.
Renforcement (apprentissage)
L'apprentissage par renforcement fait référence
à une classe de problèmes d'apprentissage automatique, dont le
but est d'apprendre, à partir d'expériences, ce qu'il convient de
faire en différentes situations, de façon à optimiser une
récompense numérique au cours du temps.
RR (Risque relatif),
Le risque relatif (RR) est une mesure statistique souvent
utilisée en épidémiologie, mesurant le risque de survenue
d'un événement entre deux groupes.
S
Segmentation (ou Typologie)
Découpage d'une population en fonction d'un ou
plusieurs critères (géographiques, sociodémographiques,
comportementaux...). Les groupes ainsi constitués aussi homogènes
et différents entre eux que possibles, peuvent être choisis comme
autant de cibles à atteindre à l'aide d'un marketing mix
spécifique.
Séquençage
(génome)
Analyse du génome, consistant à
déterminer la succession de toutes les bases qui composent l'ADN d'un
organisme. Ce séquençage n'est réalisé ou en cours
de réalisation que pour un nombre limité d'espèces :
quelques bactéries, une levure, un insecte (la drosophile) et l'homme.
Le séquençage ne permet pas la détermination de la
fonction des protéines codées par l'ADN.
Séquenceurs automatiques
Un séquenceur de gènes (ou « séquenceur
») est un appareil capable d'automatiser l'opération de
séquençage de l'ADN.
Séquences répétées
directes
Séquences identiques ou quasi identiques, présentes
en plusieurs copies dans la même molécule d'ADN.
Séquences répétées en
tandem
Séquences répétées directes
adjacentes.
Souche (bactérie)
Une population d'une espèce pouvant engendrée
une population fille c'est-à-dire les ancêtres d'une population,
par exemple des souches de bactéries pathogènes,
Supervisé / non supervisé
(méthode)
L'apprentissage supervisé est une technique
d'apprentissage automatique où l'on cherche à produire
automatiquement des règles à partir d'une base de données
d'apprentissage contenant des exemples de cas déjà
traités. L'apprentissage non-supervisé est une méthode
d'apprentissage automatique. Cette méthode se distingue de
l'apprentissage supervisé par le fait qu'il n'y a pas de sortie a
priori.
Streptococcus
Les Streptococcus ou streptocoques sont des bactéries.
On retrouve des streptocoques un petit peu partout dans la nature. Certains
vivent sur la peau et les muqueuses de l'homme : leur présence est
normale.
Syndrome métabolique
Le syndrome métabolique (ou syndrome X)
désigné par les acronymes SMet (pour syndrome métabolique)
ou MetS (pour Metabolic syndrome chez les anglophones) désigne
l'association d'une série de problèmes de santé ayant en
commun un mauvais métabolisme corporel.
T
Transfert horizontal / vertical
Le Transfert horizontal de gènes (ou HGT pour
Horizontal Gene Tranfer en anglais), est un processus dans lequel un organisme
intègre du matériel génétique provenant d'un autre
organisme sans en être le descendant. Par opposition, le transfert
vertical se produit lorsque l'organisme reçoit du matériel
génétique à partir de son ancêtre.
Introduction générale - 1 -
|