WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Perspectives

La solution que nous avons préconisée utilise Apriori couplé avec un post-traitement des règles d'association par une modélisation booléenne. La perspective que nous nous proposons est de tester le système avec d'autres algorithmes, tels qu'AIS et FP-Growth, afin de comparer les résultats du point de vue gain de temps. Ensuite on pourra aussi faire guider le processus de fouille par le spécialiste du domaine en introduisant par exemple ces préférence par un ou plusieurs paramètre qui seront pris en compte lors du processus de fouille, ceci afin de limiter la taille des résultats qui comme nous le savons est très volumineux. L'idée est de faire un processus d'ECD biologiques sous contrainte. Ce volet nous semble prometteur vu les travaux de recherches déjà faits avec ce concept.

Et finalement, nous pensons carrément à adapter la modélisation booléenne à l'algorithme Apriori, et proposer un automate cellulaire pour la fouille de données.

Références bibliographiques - 73 -

Références bibliographiques

[Abdelouhab et atmani., 2008]

Abdelouhab, F. _ Atmani, B.: Intégration automatique des données semi-structurées dans un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, 10 et 11 octobre 2008, Mohammadia - Maroc, pp. 109-120. (2008).

[Agrawal et al., 1993]

Agrawal, R. _ Swami, A. _ Imielinski, T.: Mining Association Rules Between Sets of Items in Large Databases. In Proceedings ACM SIGMOD International Conference on Management of Data, pp207, Washington DC (1993).

[Agrawal et Srikant., 1994]

Agrawal, R. _ Srikant, R.: Fast Algorithms for Mining Association Rules. In Proceedings of the 20th International Conference on Very Large Data Bases (VLDB'94), pp 487-499, Santiago, Chile (1994).

[Atmani et Beldjilali, 2007]

Atmani, B. _ Beldjilali, B.: Knowledge Discovery in Database : Induction Graph and Cellular Automaton. Computing and Informatics Journal, Vol. 26 N°2 171-197. (2007).

[Bahar et Chen, 2004]

Bahar, I. _ Chen, S.S.: Mining frequent patterns in protein structure: a study of protease family. Vol. 20 Suppl. 1, pages i1-i9 DOI: 10.1093/bioinformatics/bth912 (2004).

[Benabdeslem et al., 2007]

Benabdeslem, K. _ Lebbah, M. _ Aussem, A. _ Corbex. M.: Approche connexionniste pour l'extraction de profils cas-témoins du cancer du Nasopharynx à partir des données issues d'une étude épidémiologique", EGC 2007, RNTI, 2007 Volume E-9 N°2, Pages : 445-454 (2007).

[Benamina et Atmani, 2008]

Benamina, B. _ Atmani, B.: WCSS: un système cellulaire d'extraction et de gestion des connaissances, Troisième atelier sur les systèmes décisionnels, 10 et 11 octobre 2008, Mohammadia - Maroc, pp. 223234. (2008).

[Boutin et al., 2003]

Boutin, J.P. _ Spiegel, A. _ Michel, R. _ Ollivier, L.: Les mesures d'association en épidémiologie. Med Trop; 63 : 75-78 (2003).

[Broad]

Broad Institute.: http://www.broad.mit.edu

[Callas, 2009]

Calas, G.: Études des principaux algorithmes de data mining. SCIA EPITA (2009).

[Carbonelle et al., 2003]

Carbonnelle, B. _ Dailloux, M. _ Lebrun, L. _ Maugein, J. _ Pernot, C.: Cahier de formation en biologie médicale N°29 (2003).

[Chen et al., 2003]

Chen, H. _ Fuller, S.S. _ Friedman, C. _ Hersh, W.: Knowledge management, data mining, and text mining in medical informatics. Medical Informatics, volume 8, Springer US. (2003).

Références bibliographiques - 74 -

[Chervitz et al., 1999]

Chervitz, S.A. _ Hester, E.T., Ball, C. _ Dolinski, K. _ Dwight, S.S. _ Haris, M.A. _ Juvik, G. _ Malekian, A. _ Roberts, S. _ Roe T. _ Cafe, C., Shroeder, M. _ Sherlock, G. _ Weng, S. _ Zhu, Y. _ Cherry, J.M. _ Botstein, D.: Using the Sacharomyces genome databases (SGD) for analysis of protein similarities and structure ( Nucleic Acids Research, Vol 27 N° 1). (1999).

[Denison et al., 1998]

Denison, D.G. _ Mallick, B.K _ Smith. A. F. M.: A Bayesian CART algorithm. Biometrika, 85:363 377, 1998.

[Elloumi et Maddouri, 2002]

Elloumi, M. _ Maddouri, M.: A Data Mining Approach based on Machine Learning Techniques to Classify Biological Sequences, Knowledge Based Systems Journal, Vol. 15, Issue 4, Elsevier Publishing Co., Amsterdam, North-Holland (Publisher) : p217-223,(Mai 2002).

[Etienne, 2004]

Etienne, M.P.: Une approche statistique pour la détection de gènes impliqués dans les maladies multifactorielles. Actes de Jobim juin (2004).

[Fayyad et al., 1996]

Fayyad, U. _ Piatetsky-Shapiro, G. _ Smyth, P.: From Data Mining to Knowledge Discovery: An Overview. In Fayyad, U. _ Piatetsky- Shapiro, G. _ Amith, Smyth, P. _ and Uthurnsamy, R.: (eds.) Advances in Knowledge Discovery and Data Mining. MIT Press, 1-36, Cambridge (1996).

[Ferdinand et al., 2004]

Ferdinand, S. _ Valetudi, G. _ Sola, C. _ Rastogi, N. : Data mining of mycobacterium Tuberculosis complexe genotyping results using mycobacterial intersepted repetitive units validates the clonal structure of spolygotyping-defined families. Research in Microbiology 155(8): 647-654 (2004).

[Fleiishman et al, 2002]

Fleiishman, R.D. _ Alland, D. _ Eisen, J.A _ Carpenter, L. _ White, O. _ Petersen, J. _ Deboy, R. _ Dodson, R. _ Gwinn M. _ Haft, D. _ Hickey, E. _ Kolonay, J.F. _ Nelson, W.C. _ Umayam, L.A. _ Ermolayeva, M. _ Salzberg, S.L. _ Delcher, A. _ Utterback, T. _ Weidman, J. _ Khouri, H. _ Gill, J. _ Mikula, A. _ Bishai, W. _ Jacobs, W.R. _ Venter, J.C. _ Fraser, C.M.: Whole-Genome comparaison of Mycobacterium Tuberculosis clinical and laboratory stains. Journal of Bacteriology, October 2002, p. 5479-5490, Vol. 184, No. 19 (2002).

[Gaussier, 2009]

Gaussier, E. : Arbres de décision Notes de cours Université de Grenoble 1 - Lab. Informatique Grenbole

[Gibas et Jambeck, 2002]

Gibas, C. _ Jambeck, P.: Introduction à la bioinformatique. Oreilly, ISBN10 : 2-84177-144-X (2002).

[Goebel, et Gruenland, 1999]

Goebel, M. _ Gruenwald. L.: A survey of Data Mining and Knowledge Discovery Software Tools. ACM SIGKDD, Volume 1, Issue 1, page 20-33 (1999).

[Goethals et Van den Bussche, 2002]

Goethals, B. _ Van den Bussche, J.: Relational Association Rules: Getting WARMeR. Proceedings of the ESFExploratory Workshop on Pattern Detection and Discovery, pages 125-139, (2002).

[Han et Kamber, 1998]

Han, J. _ Kamber, M. : Data mining : Concepts and techniques. SIGMOD'98, Seattle, Washington. (1998).

Références bibliographiques - 75 -

[Han et al., 2000]

Han, J., Pei, J., Yin, Y. « Mining Frequent Patterns without Candidate Generation ». In Proceedings of

the 2000 ACM-SIGMOD Int'l Conf. On Management of Data, Dallas, Texas, USA, May (2000).

[Hergalant et al., 2002]

Hergalant, S. _ Aigle, B. _ Leblond, P. _ Mari, J.F. _ Decaris, B.: Fouille de données à l'aide de HMM : application à la détection de réitérations intragénomiques. JOBIM'02, p.269-273, (2002).

[Hergalant et al., 2005]

Hergalant, S. _ Aigle, B. _ Leblond, P. _ Mari, J.F.: Fouille de données du génome à l'aide de modèles de Markov cachées. EGC 2005, Paris, France, Atelier fouille de données complexes dans un processus d'extraction de connaissances, Jan 2005, p. 141 - 148. (2005).

[Hip et al., 2000]

Hipp, J. _ Güntzer, U. _ Nakhaeizadeh, G.: Algorithms for Association Rule Mining - A General Survey and Comparaison. In Proceedings, ACM SIGKDD 2000, Volume2, Issue 1, pp58-64 (2000).

[Labbe, 2007]

Labbe, A. : Introduction à l'épidémiologie génétique. Notes de cours, STT-66943. (2007).

[Larose, 2005]

Larose, D. T.: Discovering Knowledge in Data: An Introduction to Data Mining. ISBN 0-471-666572 Copyright C_ 2005 John Wiley & Sons, Inc. (2005).

[Maumus et al., 2005]

Maumus, S. _ A. Napoli, A. _ Szathmary, L., Visvikis-Siest. S.: Exploitation des données de la cohorte STANISLAS par des techniques de fouille de données numériques et symboliques utilisées seules ou en combinaison, in: Atelier Fouille de Données Complexes dans un Processus d'Extraction des Connaissances - EGC 2005, Paris, France, Feb 2005, p. 73-76. (2005).

[Mhamdi et al., 2006]

Mhamdi, F. _ Elloumi, M. _ Rakotomalala, R.: Extraction et Sélection des n-grammes pour le Classement de Protéines, in Atelier Extraction et Gestion des Connaissances Appliquées aux Données Biologiques, EGC-2006, Lille, pp.25-37, Janvier (2006).

[Ncbi]

National Center for Biotechnolgy Information.: http://www.ncbi.nlm.nih.gov.

[Oms]

Organisation Mondiale de la Santé.: http://www.who.int/fr/

[Preux, 2008]

Preux, Ph.: Fouille de données : Notes de cours. Université de Lille 3. (2008).

[Prum et Turi-Majoube, 2001]

Prum, B. _ Turi-Majoube, F.: Une approche statistique de l'analyse des génomes. SMF - Gazette - 89, Juillet (2001).

[Quinlan, 1986]

Quinlan, J.R.: Induction on decision trees. Machine Learning , vol. 1, pp. 81-106 (1986).

[Quinlan, 1993]

Quinlan, J.R. : C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993.

Références bibliographiques - 76 -

[Rakotomalal, 1997]

Rakotomalala, R.: Graphes d'induction. Thèse de DOCTORAT. Université Claude. Bernard - Lyon I. Décembre (1997).

[Remvikos, 2004]

Remvikos, Y.: Epidémiologie analytique : Etudes de cohortes. Med Trop pp 207-212. (2004).

[Sanger]

Sanger Institut.: http://www.sanger.ac.uk.

[Savasere et al., 1995]

Savasere, A. _ Omiecinski, E. _ Navathe, S.: An Efficient Algorithm for Mining Association Rules in Large Databases ». In Proceedings of the 21th conference on VLDB (VLDB'95), Zurich, Switzerland (1995).

[Tzanis et al., 2005]

Tzanis, G. _ Berberidie, C. _ Vlahavas, I.: Biological Data Mining. Encyclopedia of Database Technologies and Applications : 35-41. (2005).

[Wikipedia]

Wikipedia, http://www.fr.wikipedia.org.

[Wilkinson, 1992]

Wilkinson, L.: Tree Structured Data Analysis: AID, CHAID and CART. Sun Valley, ID, Sawtooth/SYSTAT Joint Software Conference (1992)

[Yokoyama et al., 2007]

Yokoyama, E. _ Kishida, K. _ Ishinohe, S.: Improved Molecular Epidemiological Analysis of Mycobacteriem Tuberculosis Strains Using Multi-Locus Variable Number of Tandem Repeats typing. Jpn. J. Infect. 60. (2007).

[Zaki et al., 2004]

Zaki, M.J _ Shinichi, M. _ Rigoutsos, I.: Workshop on data mining in bioinformatics. Report BioKDD04, SIGKDD Explorations. Volume 6,Issue 2 - Page 153-154 (2004).

[Zaki et al., 1997]

Zaki, M.J. _ Parthasarathy, S. _ Ogihara, M. _ Li, W. : New Algorithms for fast discovery of Association Rules. In Proceedings of the 3rd Int'l Conference on KDD and data mining (KDD'97), Newport Beach, California, (1997).

[Zuker, 2008]

Zucker, J.D.: Introduction à la fouille de données en bioinformatique. Cours master EID- P13. IRD UR GEODES. (2008).

Annexe B - 77 -

Souche du Mycobacterium Tuberculosis

 

Genome
sequencing
status

1: Mycobacteriem Tuberculosis '98-R604 INH-RIF-EM' [Broad Institute] Strain for comparative analysis

 

draft assembly

2: Mycobacterium tuberculosis 02_1987 [Broad Institute] Strain being sequenced for comparative analysis

 

draft assembly

3: Mycobacteriem Tuberculosis 210 [TIGR] Causative agent of tuberculosis

Size: 4 Mb; Chromosome: 1

 

in progress

4: Mycobacteriem Tuberculosis 94_M4241A [Broad Institute] Isolate from China

 

draft assembly

5: Mycobacteriem Tuberculosis C [Broad Institute] Drug-susceptible strain

 

draft assembly

6: Mycobacteriem Tuberculosis CDC1551 [TIGR]

Causative agent of tuberculosis. Size: 4 Mb; Chromosome: 1

 

complete

7: Mycobacteriem Tuberculosis EAS054 [Broad Institute] Sequenced for comparative analysis

 

draft assembly

8: Mycobacteriem Tuberculosis F11 [Broad Institute]

Predominant strain in South African epidemic Size: 4 Mb; Chromosome: 1

 

complete

9: Mycobacteriem Tuberculosis GM 1503 [Broad Institute] Strain used for comparative genome analysis.

 

draft assembly

10: Mycobacteriem Tuberculosis H37Ra [Beijing Genomics Institute] An attenuated strain used in mycobacterial virulence research

 

draft assembly

11: Mycobacteriem Tuberculosis H37Ra [Chinese National HGC, Shanghai/Fudan University, P.R. China, Shanghai/Johns Hopkins University, Department of Molecular Microbiology & Immunology, Bloomberg School of Public Health, USA, Baltimore]

An avirulent strain derived from its virulent parent strain H37 Size: 4 Mb; Chromosome: 1

complete

12: Mycobacteriem Tuberculosis H37Rv [Sanger Institute]

Causative agent of tuberculosis. Size: 4 Mb; Chromosome: 1

 

complete

13: Mycobacteriem Tuberculosis KZN 1435 [Broad Institute] Multidrug-resistant clinical isolate

 

draft assembly

14: Mycobacteriem Tuberculosis KZN 4207 [Broad Institute] Drug-susceptible clinical isolate

 

draft assembly

15: Mycobacteriem Tuberculosis KZN 605 [Broad Institute] Extensively drug-resistant clinical isolate

 

draft assembly

16: Mycobacteriem Tuberculosis T17 [Broad Institute] Strain will be sequenced for comparative genome analysis

 

draft assembly

17: Mycobacteriem Tuberculosis T85 [Broad Institute] Susceptible strain

 

draft assembly

18: Mycobacteriem Tuberculosis T92 [Broad Institute] Clinical isolate

 

draft assembly

19: Mycobacteriem Tuberculosis str. Haarlem [Broad Institute] A drug resistant strain found in crowded human populations

 

draft assembly

 

Tableau 0.1 : Les différentes souches du Mycobacterium Tuberculosis. [Source NCBI]1.

(*) Draft assembly = Projet(Contingent) d'assemblage

1 http://www.ncbi.nlm.nih.gov/Database/

http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2&type=0&name=Complete%20Bacteria

Annexe B - 78 -

Souche

Taille(nt)2

protéines

gènes

Date création

Date maj

Mt CDC1551

4403837

4189

4293

Oct 2 2001

Jul 18 2008

Mt F11

4424435

3941

3998

Jun 14 2007

Jul 25 2008

Mt H37Ra

4419977

4034

4084

Jun 6 2007

Jul 9 2008

Mt H37Rv

4411532

3989

4048

Sep 7 2001

Jul 18 2008

Tableau 0.2 : Tableaux informatif sur ls caractéristiques des souches du Mycobacterium
Tuberculosis complètement annotées. [Source NCBI]3.

 
 

Souches en cours d'annotation


·

Mt 10403-1

 


·

Mt 6404-1B


·

Mt 10403-10

 


·

Mt 6404-3B


·

Mt 10403-11

 


·

Mt 6404-A1


·

Mt 10403-4

 


·

Mt 7404-1


·

Mt 10403-7

 


·

Mt 7604-2


·

Mt 10403-8

 


·

Mt 7604-4


·

Mt 11105-2

 


·

Mt 7904-1


·

Mt 11105-3

 


·

Mt 7904-2


·

Mt 15304-1B

 


·

Mt 8104-1C


·

Mt 15304-3A

 


·

Mt 8104-2A


·

Mt 210

 


·

Mt subsp. tuberculosis

Tableau 1.3 : Les souches du Mycobacterium Tuberculosis en cours d'annotation.

[Source NCBI]

2 nt :nucléotide.

3 http://www.ncbi.nlm.nih.gov

précédent sommaire






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Je ne pense pas qu'un écrivain puisse avoir de profondes assises s'il n'a pas ressenti avec amertume les injustices de la société ou il vit"   Thomas Lanier dit Tennessie Williams