WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre IV : Conception et expérimentation du système BIODM - 58 -

Les Figures 4.2, et 4.3 montrent (en flèche) sur quelques morceaux de fichiers, les descripteurs les plus importants dans la définition d'une séquence biologique.

1: aac

aminoglycoside 2-N-acetyltransferase [Mycobacterium Tuberculosis CDC1551]

Other Aliases: MT0275

Annotation: NC_002755.2 (314424..314969, complement) GeneID: 923198

4257: tRNA-Arg-4

tRNA [Mycobacterim Tuberculosis CDC1551]

Annotation: NC_002755.1 (4209177..4209249, complement)

GeneID: 922623

This record was discontinued.

Figure 4.2 : Morceaux de la séquence génomique du Mt CDC1551.

1: AAK44224

chromosomal replication initiator protein DnaA [Mycobacterium Tuberculosis CDC1551] gi|13879042|gb|AAK44224.1|[13879042]

2: AAK44225

DNA polymerase III, beta subunit [Mycobacterium Tuberculosis CDC1551] gi|13879043|gb|AAK44225.1|[13879043]

7880: NP_338144

virulence factor mce family protein [Mycobacterium Tuberculosis CDC1551] gi|15843107|ref|NP_338144.1|[15843107]

Figure 4.3 : Morceaux de séquence protéique du Mt CDC1551.

2ème étape : Transformation des données

La transformation des données, du format original vers un formalisme base de données (attribut, valeur), est faite à partir des descripteurs possibles dégagés auparavant. Cependant, les caractéristiques dégagées n'ont pas des valeurs binaires, ce qui nécessitera une opération de « binarisation » afin que les algorithmes d'extraction de règles puissent les traiter. Il y a évidemment de très nombreuses manières d'effectuer cette "binarisation", celle adoptée par notre processus est de vérifier la présence ou non du gène ou de la protéine dans les séquences en question. Ainsi, un gène présent sera noté "1" et absent par "0". On peut aussi proposer de choisir d'autres valeurs, néanmoins nous pouvons dire que cette étape de prétraitement est longue, complexe, et nécessite de

Chapitre IV : Conception et expérimentation du système BIODM - 59 -

faire de nombreux choix.

De plus, il est difficile de déterminer dans quelle mesure ces choix ont une influence sur le résultat des extractions de connaissances. Les traitements de cette étape sont décrits par le pseudo code suivant :

Algorithme : Transformation Début

Entrée : fichier des gènes nettoyé (fichier_gene_nettoyé)

Sortie : table des gènes (T_gene)

chaine ligne_courante

Lire (fichier_gene_nettoyé)

Tant que (NFF fichier_gene_nettoyé) faire

Cas de ( lig )

lig =1 : xcode=ligne_courante , lig=2

lig =2 : xgene=ligne_courante , lig=3

lig =3 : xsouche=ligne_courante , lig=1

Fin cas

ecrire_table(T_gene, xcode,xgene, xsouche)

Fin Tant que

Fermer_fichier(fichier_gene_nettoyé)

Fermer_table(T_gene)

Fin

3ème étape : Production et évaluation des règles d'association

Production. Cette phase concerne l'utilisation de l'algorithme d'extraction de motifs sur les données préparées pendant l'étape précédente. Dans cette phase, l'utilisateur doit définir les contraintes sur ces motifs et fixer les paramètres de l'algorithme i.e. support et confiance. Cette définition des contraintes est importante car souvent l'ensemble des motifs possibles est tellement grand qu'il n'est pas calculable, il faut donc le restreindre.

L'algorithme Apriori est alors utilisé pour rechercher les Itemsets. Ensuite un traitement approprié est effectué sur les Itemsets valables afin de trouver les règles d'association par une opération de combinaison.

Evaluation. La production des règles d'association peut donner des règles non intéressantes, il est donc nécessaire d'évaluer leurs qualités. Cette évaluation sera faite en utilisant la confiance et le support pour ne retenir que les règles dont le support et la confiance dépassent les seuils fixés par l'utilisateur.

Il existe aussi d'autres méthodes d'évaluation qui viennent renforcer le choix des règles produites. Ces méthodes utilisent des fonctions d'évaluations, elles ne sont pas abordées dans le cadre de cette étude.

A un autre niveau, l'évaluation du spécialiste est nécessaire. En effet, les algorithmes

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le don sans la technique n'est qu'une maladie"