Fouille de données biologiques. étude comparative et expérimentation.par Abdelhak MANSOUL Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010 |
PerspectivesLa solution que nous avons préconisée utilise Apriori couplé avec un post-traitement des règles d'association par une modélisation booléenne. La perspective que nous nous proposons est de tester le système avec d'autres algorithmes, tels qu'AIS et FP-Growth, afin de comparer les résultats du point de vue gain de temps. Ensuite on pourra aussi faire guider le processus de fouille par le spécialiste du domaine en introduisant par exemple ces préférence par un ou plusieurs paramètre qui seront pris en compte lors du processus de fouille, ceci afin de limiter la taille des résultats qui comme nous le savons est très volumineux. L'idée est de faire un processus d'ECD biologiques sous contrainte. Ce volet nous semble prometteur vu les travaux de recherches déjà faits avec ce concept. Et finalement, nous pensons carrément à adapter la modélisation booléenne à l'algorithme Apriori, et proposer un automate cellulaire pour la fouille de données. Références bibliographiques - 73 - Références bibliographiques[Abdelouhab et atmani., 2008] Abdelouhab, F. _ Atmani, B.: Intégration automatique des données semi-structurées dans un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, 10 et 11 octobre 2008, Mohammadia - Maroc, pp. 109-120. (2008). [Agrawal et al., 1993] Agrawal, R. _ Swami, A. _ Imielinski, T.: Mining Association Rules Between Sets of Items in Large Databases. In Proceedings ACM SIGMOD International Conference on Management of Data, pp207, Washington DC (1993). [Agrawal et Srikant., 1994] Agrawal, R. _ Srikant, R.: Fast Algorithms for Mining Association Rules. In Proceedings of the 20th International Conference on Very Large Data Bases (VLDB'94), pp 487-499, Santiago, Chile (1994). [Atmani et Beldjilali, 2007] Atmani, B. _ Beldjilali, B.: Knowledge Discovery in Database : Induction Graph and Cellular Automaton. Computing and Informatics Journal, Vol. 26 N°2 171-197. (2007). [Bahar et Chen, 2004] Bahar, I. _ Chen, S.S.: Mining frequent patterns in protein structure: a study of protease family. Vol. 20 Suppl. 1, pages i1-i9 DOI: 10.1093/bioinformatics/bth912 (2004). [Benabdeslem et al., 2007] Benabdeslem, K. _ Lebbah, M. _ Aussem, A. _ Corbex. M.: Approche connexionniste pour l'extraction de profils cas-témoins du cancer du Nasopharynx à partir des données issues d'une étude épidémiologique", EGC 2007, RNTI, 2007 Volume E-9 N°2, Pages : 445-454 (2007). [Benamina et Atmani, 2008] Benamina, B. _ Atmani, B.: WCSS: un système cellulaire d'extraction et de gestion des connaissances, Troisième atelier sur les systèmes décisionnels, 10 et 11 octobre 2008, Mohammadia - Maroc, pp. 223234. (2008). [Boutin et al., 2003] Boutin, J.P. _ Spiegel, A. _ Michel, R. _ Ollivier, L.: Les mesures d'association en épidémiologie. Med Trop; 63 : 75-78 (2003). [Broad] Broad Institute.: http://www.broad.mit.edu [Callas, 2009] Calas, G.: Études des principaux algorithmes de data mining. SCIA EPITA (2009). [Carbonelle et al., 2003] Carbonnelle, B. _ Dailloux, M. _ Lebrun, L. _ Maugein, J. _ Pernot, C.: Cahier de formation en biologie médicale N°29 (2003). [Chen et al., 2003] Chen, H. _ Fuller, S.S. _ Friedman, C. _ Hersh, W.: Knowledge management, data mining, and text mining in medical informatics. Medical Informatics, volume 8, Springer US. (2003). Références bibliographiques - 74 - [Chervitz et al., 1999] Chervitz, S.A. _ Hester, E.T., Ball, C. _ Dolinski, K. _ Dwight, S.S. _ Haris, M.A. _ Juvik, G. _ Malekian, A. _ Roberts, S. _ Roe T. _ Cafe, C., Shroeder, M. _ Sherlock, G. _ Weng, S. _ Zhu, Y. _ Cherry, J.M. _ Botstein, D.: Using the Sacharomyces genome databases (SGD) for analysis of protein similarities and structure ( Nucleic Acids Research, Vol 27 N° 1). (1999). [Denison et al., 1998] Denison, D.G. _ Mallick, B.K _ Smith. A. F. M.: A Bayesian CART algorithm. Biometrika, 85:363 377, 1998. [Elloumi et Maddouri, 2002] Elloumi, M. _ Maddouri, M.: A Data Mining Approach based on Machine Learning Techniques to Classify Biological Sequences, Knowledge Based Systems Journal, Vol. 15, Issue 4, Elsevier Publishing Co., Amsterdam, North-Holland (Publisher) : p217-223,(Mai 2002). [Etienne, 2004] Etienne, M.P.: Une approche statistique pour la détection de gènes impliqués dans les maladies multifactorielles. Actes de Jobim juin (2004). [Fayyad et al., 1996] Fayyad, U. _ Piatetsky-Shapiro, G. _ Smyth, P.: From Data Mining to Knowledge Discovery: An Overview. In Fayyad, U. _ Piatetsky- Shapiro, G. _ Amith, Smyth, P. _ and Uthurnsamy, R.: (eds.) Advances in Knowledge Discovery and Data Mining. MIT Press, 1-36, Cambridge (1996). [Ferdinand et al., 2004] Ferdinand, S. _ Valetudi, G. _ Sola, C. _ Rastogi, N. : Data mining of mycobacterium Tuberculosis complexe genotyping results using mycobacterial intersepted repetitive units validates the clonal structure of spolygotyping-defined families. Research in Microbiology 155(8): 647-654 (2004). [Fleiishman et al, 2002] Fleiishman, R.D. _ Alland, D. _ Eisen, J.A _ Carpenter, L. _ White, O. _ Petersen, J. _ Deboy, R. _ Dodson, R. _ Gwinn M. _ Haft, D. _ Hickey, E. _ Kolonay, J.F. _ Nelson, W.C. _ Umayam, L.A. _ Ermolayeva, M. _ Salzberg, S.L. _ Delcher, A. _ Utterback, T. _ Weidman, J. _ Khouri, H. _ Gill, J. _ Mikula, A. _ Bishai, W. _ Jacobs, W.R. _ Venter, J.C. _ Fraser, C.M.: Whole-Genome comparaison of Mycobacterium Tuberculosis clinical and laboratory stains. Journal of Bacteriology, October 2002, p. 5479-5490, Vol. 184, No. 19 (2002). [Gaussier, 2009] Gaussier, E. : Arbres de décision Notes de cours Université de Grenoble 1 - Lab. Informatique Grenbole [Gibas et Jambeck, 2002] Gibas, C. _ Jambeck, P.: Introduction à la bioinformatique. Oreilly, ISBN10 : 2-84177-144-X (2002). [Goebel, et Gruenland, 1999] Goebel, M. _ Gruenwald. L.: A survey of Data Mining and Knowledge Discovery Software Tools. ACM SIGKDD, Volume 1, Issue 1, page 20-33 (1999). [Goethals et Van den Bussche, 2002] Goethals, B. _ Van den Bussche, J.: Relational Association Rules: Getting WARMeR. Proceedings of the ESFExploratory Workshop on Pattern Detection and Discovery, pages 125-139, (2002). [Han et Kamber, 1998] Han, J. _ Kamber, M. : Data mining : Concepts and techniques. SIGMOD'98, Seattle, Washington. (1998). Références bibliographiques - 75 - [Han et al., 2000] Han, J., Pei, J., Yin, Y. « Mining Frequent Patterns without Candidate Generation ». In Proceedings of the 2000 ACM-SIGMOD Int'l Conf. On Management of Data, Dallas, Texas, USA, May (2000). [Hergalant et al., 2002] Hergalant, S. _ Aigle, B. _ Leblond, P. _ Mari, J.F. _ Decaris, B.: Fouille de données à l'aide de HMM : application à la détection de réitérations intragénomiques. JOBIM'02, p.269-273, (2002). [Hergalant et al., 2005] Hergalant, S. _ Aigle, B. _ Leblond, P. _ Mari, J.F.: Fouille de données du génome à l'aide de modèles de Markov cachées. EGC 2005, Paris, France, Atelier fouille de données complexes dans un processus d'extraction de connaissances, Jan 2005, p. 141 - 148. (2005). [Hip et al., 2000] Hipp, J. _ Güntzer, U. _ Nakhaeizadeh, G.: Algorithms for Association Rule Mining - A General Survey and Comparaison. In Proceedings, ACM SIGKDD 2000, Volume2, Issue 1, pp58-64 (2000). [Labbe, 2007] Labbe, A. : Introduction à l'épidémiologie génétique. Notes de cours, STT-66943. (2007). [Larose, 2005] Larose, D. T.: Discovering Knowledge in Data: An Introduction to Data Mining. ISBN 0-471-666572 Copyright C_ 2005 John Wiley & Sons, Inc. (2005). [Maumus et al., 2005] Maumus, S. _ A. Napoli, A. _ Szathmary, L., Visvikis-Siest. S.: Exploitation des données de la cohorte STANISLAS par des techniques de fouille de données numériques et symboliques utilisées seules ou en combinaison, in: Atelier Fouille de Données Complexes dans un Processus d'Extraction des Connaissances - EGC 2005, Paris, France, Feb 2005, p. 73-76. (2005). [Mhamdi et al., 2006] Mhamdi, F. _ Elloumi, M. _ Rakotomalala, R.: Extraction et Sélection des n-grammes pour le Classement de Protéines, in Atelier Extraction et Gestion des Connaissances Appliquées aux Données Biologiques, EGC-2006, Lille, pp.25-37, Janvier (2006). [Ncbi] National Center for Biotechnolgy Information.: http://www.ncbi.nlm.nih.gov. [Oms] Organisation Mondiale de la Santé.: http://www.who.int/fr/ [Preux, 2008] Preux, Ph.: Fouille de données : Notes de cours. Université de Lille 3. (2008). [Prum et Turi-Majoube, 2001] Prum, B. _ Turi-Majoube, F.: Une approche statistique de l'analyse des génomes. SMF - Gazette - 89, Juillet (2001). [Quinlan, 1986] Quinlan, J.R.: Induction on decision trees. Machine Learning , vol. 1, pp. 81-106 (1986). [Quinlan, 1993] Quinlan, J.R. : C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993. Références bibliographiques - 76 - [Rakotomalal, 1997] Rakotomalala, R.: Graphes d'induction. Thèse de DOCTORAT. Université Claude. Bernard - Lyon I. Décembre (1997). [Remvikos, 2004] Remvikos, Y.: Epidémiologie analytique : Etudes de cohortes. Med Trop pp 207-212. (2004). [Sanger] Sanger Institut.: http://www.sanger.ac.uk. [Savasere et al., 1995] Savasere, A. _ Omiecinski, E. _ Navathe, S.: An Efficient Algorithm for Mining Association Rules in Large Databases ». In Proceedings of the 21th conference on VLDB (VLDB'95), Zurich, Switzerland (1995). [Tzanis et al., 2005] Tzanis, G. _ Berberidie, C. _ Vlahavas, I.: Biological Data Mining. Encyclopedia of Database Technologies and Applications : 35-41. (2005). [Wikipedia] Wikipedia, http://www.fr.wikipedia.org. [Wilkinson, 1992] Wilkinson, L.: Tree Structured Data Analysis: AID, CHAID and CART. Sun Valley, ID, Sawtooth/SYSTAT Joint Software Conference (1992) [Yokoyama et al., 2007] Yokoyama, E. _ Kishida, K. _ Ishinohe, S.: Improved Molecular Epidemiological Analysis of Mycobacteriem Tuberculosis Strains Using Multi-Locus Variable Number of Tandem Repeats typing. Jpn. J. Infect. 60. (2007). [Zaki et al., 2004] Zaki, M.J _ Shinichi, M. _ Rigoutsos, I.: Workshop on data mining in bioinformatics. Report BioKDD04, SIGKDD Explorations. Volume 6,Issue 2 - Page 153-154 (2004). [Zaki et al., 1997] Zaki, M.J. _ Parthasarathy, S. _ Ogihara, M. _ Li, W. : New Algorithms for fast discovery of Association Rules. In Proceedings of the 3rd Int'l Conference on KDD and data mining (KDD'97), Newport Beach, California, (1997). [Zuker, 2008] Zucker, J.D.: Introduction à la fouille de données en bioinformatique. Cours master EID- P13. IRD UR GEODES. (2008). Annexe B - 77 -
Tableau 0.1 : Les différentes souches du Mycobacterium Tuberculosis. [Source NCBI]1. (*) Draft assembly = Projet(Contingent) d'assemblage 1 http://www.ncbi.nlm.nih.gov/Database/ http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2&type=0&name=Complete%20Bacteria Annexe B - 78 -
Tableau 0.2 : Tableaux informatif sur ls
caractéristiques des souches du Mycobacterium
Tableau 1.3 : Les souches du Mycobacterium Tuberculosis en cours d'annotation. [Source NCBI] 2 nt :nucléotide. |
|