WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Glossaire

A

Acide désoxyribonucléique (ADN)

Support biochimique de l'information génétique chez tous les êtres vivants (à l'exception de quelques virus qui utilisent l'ARN). Principal composant des chromosomes, l'ADN se présente le plus souvent sous forme de deux longs filaments (ou chaînes) torsadés l'un dans l'autre pour former une structure en double hélice. Chacune de ces chaînes est un polymère formé de l'assemblage de quatre nucléotides différents, désignés par l'initiale de la base azotée qui entre dans leur composition : A (Adénine), C (Cytosine), G (Guanine) et T (Thymine).

Acide ribonucléique (ARN)

Dans les cellules, on distingue plusieurs types d'ARN suivant leur fonction. Les trois types principaux sont : les ARN messagers, les ARN de transfert et les ARN ribosomaux. L'ARN est un acide nucléique constitué d'une seule chaîne de nucléotides, de structure analogue à celle de l'ADN. Il existe cependant des différences chimiques entre ces deux acides nucléiques qui donnent à l'ARN certaines propriétés particulières. L'ARN est produit par transcription de l'ADN.

ACP

L'analyse en composantes principales (ACP) est une méthode mathématique d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent le mieux les corrélations entre n variables aléatoires

Acyclique (graphe)

Un graphe acyclique est un graphe ne contenant aucun cycle.

Agrégation (données)

Le mot agrégation désigne l'action d'agréger, de regrouper des éléments.

Alignement Global / Local

L'alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de protéines pour identifier les zones de concordance qui traduisent des similarités ou dissemblances de nature historique. Il existe l'alignement global, c'est-à-dire entre les deux séquences sur toute leur longueur (FASTA) et local, entre une séquence et une partie de l'autre séquence (BLAST).

Annotation

L'annotation d'un génome consiste à traiter l'information brute contenue dans la séquence dans le but :

1. de prédire, le contenu en gènes, la position des gènes à l'intérieur d'un génome ainsi que leur organisation, des séquences promotrices, etc. Dans ce cas, on parle d'annotation structurale.

2. de prédire la fonction potentielle de ces gènes. Dans ce cas on parle d'annotation fonctionnelle.

Antigènes

Un antigène est une macromolécule naturelle ou synthétique, reconnue par des anticorps ou des cellules du système immunitaire et capable d'engendrer une réponse immunitaire.

Arbre de décision

Modèle issu des techniques d'intelligence artificielle. Son principe est de chercher à diviser une population en 2 (arbres binaires) ou plus (arbres n-aires) de sorte que ces sous-populations soient aussi différentes entre elles que possibles, et homogènes du point de vue de la répartition de la variable cible.

Apprentissage (échantillon d')

Partie des données servant à l'évaluation des différents paramètres d'un modèle (en anglais, "training").

Athérosclérose

Le vieillissement normal des artères et artérioles se nomme artériosclérose.

Auto-immunes (maladies)

Les maladies auto-immunes sont dues à une hyperactivité du système immunitaire à l'encontre de substances ou de tissus qui sont normalement présents dans l'organisme.

Automate cellulaire

Un automate cellulaire consiste en une grille régulière de « cellules » contenant chacune un « état » choisi parmi un ensemble fini et qui peut évoluer au cours du temps. L'état d'une cellule au temps t+1 est fonction de l'état au temps t d'un nombre fini de cellules appelé son « voisinage ». À chaque nouvelle unité de temps, les mêmes règles sont appliquées simultanément à toutes les cellules de la grille, produisant une nouvelle « génération » de cellules dépendant entièrement de la génération précédente.

Annexe A

B

Bio-informatique

La Bio-informatique est constituée par l'ensemble des concepts et des techniques nécessaires à l'interprétation de l'information génétique (séquences) et structurale. C'est le décryptage de la « bio-information ». La bio-informatique est donc une branche théorique de la biologie.

Biologie moléculaire

La biologie moléculaire est une discipline scientifique au croisement de la génétique, de la biochimie et de la physique, dont l'objet est la compréhension des mécanismes de fonctionnement de la cellule au niveau moléculaire.

BLAST

BLAST (acronyme de basic local alignment search tool) est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés.

C

Candidat (gène)

L'approche gène candidat consiste à supposer l'implication d'un gène dans un quelconque effet à priori, et l'étude vise à confirmer cette implication a posteriori.

Cas-témoins (étude)

Etude rétrospective entre deux groupes, l'un présentant une maladie (cas) et l'autre, indemne (témoins).

Chromosome

Unité physique de matériel génétique correspondant à une molécule continue d'ADN. Les cellules bactériennes n'en comportent qu'un. Ils sont doués du pouvoir d'autoreproduction.

Classification ascendante hiérarchique (CAH)

Méthode de création de typologies qui agrège, à chaque étape, les individus ou les groupes d'individus les plus proches. Les emboîtements successifs se poursuivent ainsi jusqu'à agréger toute la population. On choisit ensuite la partition (ensemble de classes ainsi constituées) qui propose le meilleur rapport homogénéité interne des groupes / hétérogénéité des groupes entre eux.

Classification automatique

On appelle classification automatique la catégorisation algorithmique d'objets. Celle-ci consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se basant sur des données statistiques.

Coeliaque (maladie)

La maladie coeliaque est une maladie auto-immune, caractérisée par une atteinte de tout ou partie des villosités recouvrant l'intestin grêle.

Co-régulé (gène)

Gènes liés l'un à l'autre.

Code génétique

Système de correspondance permettant de traduire une séquence d'acide nucléique en protéine.

Cohorte

Ensemble d'individus étudiés sur une période de temps donnée. Une cohorte permet de suivre de manière longitudinale les comportements de la population observée ainsi que sa réaction à un ou plusieurs événements donnés.

Continue (variable)

Se dit d'une variable qui peut prendre une "infinité" de valeurs (par opposition à discrète) par exemple, un réel. Un âge, une somme d'argent, un coefficient de bonus/malus sont souvent considérés comme continus. Synonyme : quantitatif.

Corrélation

Mesure de la liaison entre deux variables. On parle de corrélation entre une cause et son effet, ou entre deux variables qui apportent la même information.

CROHN (maladie)

La maladie de Crohn est une maladie inflammatoire chronique intestinale (MICI) de l'ensemble du tube digestif.

Annexe A

D

Data Mining (outils de)

Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d'extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d'information.

Data mining

Le terme anglais «datamining» évoque le travail de «mineur de fond» pour extraire les données pertinentes noyées dans de gros volumes de données. Ensemble de techniques héritées de la statistique "classique", de la statistique bayésienne et de l'intelligence artificielle, qui permet l'étude de grands volumes de données. Ces techniques sont soutenues en général par une méthode de travail qui pose les étapes de l'étude DataMining.

Déduction / induction

En logique, la déduction procède de la conception que les moyens ne sont pas plus importants que la fin (conclusion), par opposition à l'induction logique qui consiste à former des représentations générales à partir de faits particuliers.

Dichotomique (Variable)

Variable qui peut opérer une division de l'échantillon en deux parties.

Discrète / Continue (variable)

Se dit d'une variable qui ne prend qu'un nombre limité et connu d'avance de modalités (valeurs distinctes), par opposition à continue. Une situation familiale, un sexe, ou à une catégorie socio-professionnelle sont des variables discrètes. Synonyme : qualitative.

Distance

En mathématiques, une distance est une application qui formalise l'idée intuitive de distance, c'est-à-dire la longueur qui sépare deux points.

Données biologiques ( cohorte )

Ce sont les des dosages systématiques réalisés (la biochimie, NFS numération de formule sanguine et analyse d'urine).

Données cliniques ( cohorte )

Les données cliniques, se divisent en examens cliniques systématiques (taille, poids, pression artérielle, ....), et en examens cliniques spécifiques (échographie,.....).

Données génétiques

Les données relatives au génome (ADN, ..).

E

Élaguer

Consiste à supprimer d'un problème des valeurs de variables ne pouvant pas prendre part à une solution.

Épi-génétique (maladie)

Le terme épigénétique définit les modifications transmissibles et réversibles de l'expression des gènes ne s'accompagnant pas de changements des séquences nucléotidiques.

Epidémiologie

Etude des différents facteurs qui interviennent dans l'apparition et l'évolution des maladies.

Eucaryotes / procaryotes

L'ensemble des organismes vivants peut être classé en trois grands groupes : les eucaryotes (L'Homme, ainsi que les animaux, les plantes et les champignons), les eubactéries, les archaebactéries. Les cellules des eucaryotes possèdent un noyau. Les eubactéries et les archaebactéries ne possèdent pas de vrai noyau.

F

FASTA

C'est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés. Ce programme permet de retrouver rapidement dans des bases de données, les séquences ayant des zones de similitude avec une séquence donnée (introduite par l'utilisateur).

Annexe A

Fonctionnelle (génomique)

Étude de la fonction des gènes par analyse de leur séquence et de leurs produits d'expression : les ARNm (transcriptome) et les protéines (protéome).

G

Gène

Fragment d'ADN portant les informations nécessaires à la fabrication d'une ou plusieurs protéine(s). Un gène comprend la séquence en nucléotide qui peut varier de quelques centaines, à plus d'un million de nucléotides.

Génétique (algorithme)

Un algorithme génétique est un algorithme lent, représentant les modèles comme des gènes et des opérateurs génétiques et les faisant évoluer soit par mutation (un gène au hasard est remplacé), soit par cross-over (la place de deux sous-arbres est échangée).

Génome

Ensemble de l'information génétique d'un organisme (matériel génétique présent dans chacune des cellules d'un individu, patrimoine héréditaire d'un individu). Une copie du génome est présente dans chacune de ses cellules. Le génome est transmis de génération en génération.

Génomique

Étude des génomes. Son objectif est de séquencer l'ADN d'un organisme et de localiser sur celui-ci tous les gènes qu'il porte, puis de caractériser leurs fonctions.

Génotype

Ensemble des caractères génétiques d'un individu. Son expression conduit au phénotype.

H

HMM

Un modèle de Markov caché (MMC) -- en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel le système modélisé est supposé être un processus Markovien de paramètres inconnus. Les modèles de Markov cachés sont massivement utilisés notamment en reconnaissance de formes, en intelligence artificielle ou encore en traitement automatique du langage naturel.

I

Induction

Méthode consistant à tirer une conclusion d'une série de faits. Cette conclusion ne sera jamais sûre à 100 %. L'induction en revanche génère du sens en passant des faits à la loi, du particulier au général.

M

Marqueur génétique

En cartographie génétique, séquence d'ADN particulière utilisée pour "baliser" les chromosomes.

Modèle

Mécanique plus ou moins "boîte noire" qui, à partir de données connues (input), calcule une réponse (target) et la probabilité de réalisation de cette réponse associée (score).

Moteur d'inférence

Partie d'un système expert qui effectue la sélection et l'application des règles en vue de la résolution d'un problème donné.

Motifs fréquents

Un caractère ou trait qui se répète fréquemment.

Motifs séquentiels

Les motifs séquentiels permettent de traiter de gros volumes de données et d'en extraire des règles incluant la dimension temporelle

Mutation

Modification affectant l'ADN d'un gène. Cette altération du matériel génétique d'une cellule ou d'un virus entraîne une modification durable de certains caractères du fait de la transmission héréditaire de ce matériel de génération en génération.

Annexe A

N

Nucléotide

Motif structural de base des acides nucléiques, formé de l'assemblage de plusieurs molécules : un sucre, un acide phosphorique et une base azotée (dans le cas de l'ARN, cette base peut être l'Adénine - A, la Cytosine - C, la Guanine - G ou l'Uracile - U ; idem dans le cas de l'ADN, excepté que l'Uracile est remplacé par la Thymine - T).

O

OR (Odds Ratio)

Un Odds ratio (OR), se définit comme le rapport des chances qu'un évènement arrivant, par exemple une maladie, à un groupe de personnes A, arrive également à un autre groupe B.

Orphelines (pathologies)

Les maladies rares ou maladies orphelines sont des maladies qui affectent moins de 0,05 % de la population (1 personne sur 2 000).

P

Pathogènes /pathogénicité

Les agents infectieux sont un type d'agent pathogène, responsables des maladies infectieuses.

PE / PPE

Familles de protéines.

Perceptron

Catégorie de réseaux de neurones robustes. Ils diffèrent des autres réseaux (les RBF) par la fonction d'activation des neurones, c'est à dire leur manière de transformer les signaux d'entrée en signal de réponse.

Plasmide

Petite molécule circulaire d'ADN extrachromosomique présente chez les bactéries, capable de se répliquer de façon autonome, dans la cellule d'origine et dans une cellule-hôte.

Polymorphismes génétiques

Les polymorphismes génétiques s'expriment chez les individus sous la forme de différents phénotypes.

Protéine

L'un des quatre matériaux de base de tout organisme, avec les glucides, les lipides et les acides nucléiques. Les protéines sont formées d'un enchaînement spécifique d'acides aminés (de quelques dizaines à plusieurs centaines). Les protéines remplissent différentes fonctions dans la cellule, notamment des fonctions de structure et des fonctions enzymatiques.

Protéome / protéomique

Le protéome est l'ensemble des protéines produites à partir du génome d'un organisme. La protéomique est l'étude du protéome, dans le but de déterminer l'activité, la fonction et les interactions des protéines.

Puce à ADN

Technologie employée dans l'étude du transcriptome et basée sur la capacité des molécules d'ADN et d'ARN à s'hybrider entre elles. De courtes séquences d'ADN connues sont fixées sur des supports d'une surface de l'ordre du centimètre carré : les puces.

Q

Qualitative / Quantitative (variable)

Une variable qualitative est une variable pour laquelle la valeur mesurée sur chaque individu (parfois qualifiée de catégorie ou de modalité) ne représente pas une quantité. Une variable est dite quantitative lorsque la valeur mesurée sur chaque individu représente une quantité.

R

Raisonnement à partir de cas / Case Based Reasoning

Un système CBR dispose d'une base de cas. Chaque cas possède une description et une solution. Pour utiliser ces informations, un moteur est aussi présent. Celui-ci va retrouver les cas similaires au problème posé. Après analyse, le moteur fournit une solution adaptée qui doit être validée. Enfin le moteur ajoute le problème et sa solution dans la base de cas.

Annexe A

Règles séquentielles

C'est une règle d'association incluant le facteur temporel.

Renforcement (apprentissage)

L'apprentissage par renforcement fait référence à une classe de problèmes d'apprentissage automatique, dont le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, de façon à optimiser une récompense numérique au cours du temps.

RR (Risque relatif),

Le risque relatif (RR) est une mesure statistique souvent utilisée en épidémiologie, mesurant le risque de survenue d'un événement entre deux groupes.

S

Segmentation (ou Typologie)

Découpage d'une population en fonction d'un ou plusieurs critères (géographiques, sociodémographiques, comportementaux...). Les groupes ainsi constitués aussi homogènes et différents entre eux que possibles, peuvent être choisis comme autant de cibles à atteindre à l'aide d'un marketing mix spécifique.

Séquençage (génome)

Analyse du génome, consistant à déterminer la succession de toutes les bases qui composent l'ADN d'un organisme. Ce séquençage n'est réalisé ou en cours de réalisation que pour un nombre limité d'espèces : quelques bactéries, une levure, un insecte (la drosophile) et l'homme. Le séquençage ne permet pas la détermination de la fonction des protéines codées par l'ADN.

Séquenceurs automatiques

Un séquenceur de gènes (ou « séquenceur ») est un appareil capable d'automatiser l'opération de séquençage de l'ADN.

Séquences répétées directes

Séquences identiques ou quasi identiques, présentes en plusieurs copies dans la même molécule d'ADN.

Séquences répétées en tandem

Séquences répétées directes adjacentes.

Souche (bactérie)

Une population d'une espèce pouvant engendrée une population fille c'est-à-dire les ancêtres d'une population, par exemple des souches de bactéries pathogènes,

Supervisé / non supervisé (méthode)

L'apprentissage supervisé est une technique d'apprentissage automatique où l'on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage contenant des exemples de cas déjà traités. L'apprentissage non-supervisé est une méthode d'apprentissage automatique. Cette méthode se distingue de l'apprentissage supervisé par le fait qu'il n'y a pas de sortie a priori.

Streptococcus

Les Streptococcus ou streptocoques sont des bactéries. On retrouve des streptocoques un petit peu partout dans la nature. Certains vivent sur la peau et les muqueuses de l'homme : leur présence est normale.

Syndrome métabolique

Le syndrome métabolique (ou syndrome X) désigné par les acronymes SMet (pour syndrome métabolique) ou MetS (pour Metabolic syndrome chez les anglophones) désigne l'association d'une série de problèmes de santé ayant en commun un mauvais métabolisme corporel.

T

Transfert horizontal / vertical

Le Transfert horizontal de gènes (ou HGT pour Horizontal Gene Tranfer en anglais), est un processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. Par opposition, le transfert vertical se produit lorsque l'organisme reçoit du matériel génétique à partir de son ancêtre.

Introduction générale - 1 -

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein