Fouille de données biologiques. étude comparative et expérimentation.

par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre III : Modélisation booléenne des règles d'association - 53 -

· Inférence des règles en arrière : C'est le rôle du même CIE ; Pour induire les faits hypothèses

le module d'inférence utilise les mêmes fonctions de transition et mais en

permun ta t les deux matrices d'incidn e ces d'entrée et de sortie.

Les avang ta es de ce principe boon lée basé sur l'automate cellulaire peuvn e t être récapu it lés selon Benan mi a et Atmani (200 8) comme suit :

· La représenon tati de la connn aissa ce ainsi que son conô tr le sont simp, les sous forme de matrices binaires exigeant un prétraitement minimal ;

· La facilité de l'implémentation des fonctions de tranon siti et qui sont de basse
compx, le ité efficaces et robustes pour des valeurs extrêmes ;

· Les résultats sont simples pour être insérés et utilisés par un système expert ;

· La matrice d'incidence, RE, facilite la transfoon rmati de règles dans des expressions
équivn ale tes boo léenn, es qui nous permet d'utiliser l'algb è re de Boole élémentaire pour examiner d'autres simplification.s

Chapitre IV : Conception et expérimentation du système BIODM - 54 -

Chapitre IV.

Conception et expérimentation du système BIODM

Une étude préalable des caractéristiques des séquences biologiques était nécessaire afin de comprendre les mécanismes régissant la structure et le contenu des fichiers des séquences, et poser par la suite des hypothèses de travail quant aux données (séquences) utilisées. Cette étude a permis donc de dégager des éléments importants, tels que les attributs, les types de données utilisés, la taille, etc. Ces éléments aident à structurer les données nécessaires au futur système.

IV.1 Etude et choix des données biologiques pour expérimentation

Nous avons fait une étude des caractéristiques des séquences des souches du Mycobacterium Tuberculosis à travers les gènes et protéines associées. Cette étude a permis de cibler les données à importer (voir Tableau 0.2), de la banque de données NCBI, et qui pourraient réellement faire profiter notre expérimentation. Pour cela, nous avons utilisé les souches complètement annotées (voir Figure 0.2).

Ensuite, nous avons pris en considération non seulement les gènes mais aussi les protéines. Il s'agit en fait d'augmenter le gisement de données afin d'obtenir des connaissances diversifiées et potentiellement utiles au spécialiste du domaine.

1er aspect d'étude : les gènes

La pathogénicité s'exprime par les gènes responsables de l'invasion. Les gènes qui codent pour des toxines impliquées dans les transferts horizontaux (gènes de virulence), co-régulés, sur exprimés, ou sous exprimés sont autant de cibles potentiels pour étudier cet aspect. De ce fait, une étude de la structure du fichier des gènes a été faite afin de savoir les nettoyer pour ne garder que les données informatives et les exploiter, tels que le nom du gène, son identifiant, etc.

2eme aspect d'étude : les protéines

D'après la structure des protéines, il est constaté que beaucoup s'organisent en domaines ayant une structure et remplissant des fonctions diverses dont celles de la virulence ou la résistance à certains antibiotiques. Une étude des fichiers des protéines a été faite afin de déterminer les données élémentaires à prendre en considération dans notre processus d'ECD, à savoir le nom de la protéine, son code, sa localisation, etc.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Ceux qui rêvent de jour ont conscience de bien des choses qui échappent à ceux qui rêvent de nuit" Edgar Allan Poe