WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Impact de la structure de treillis dans le domaine de fouille de données et la représentation des connaissances.

( Télécharger le fichier original )
par Pascal Sungu Ngoy
Université de Lubumbashi - Diplôme de licence en sciences mathématiques et informatique 2014
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2 Chaîne d'extraction des connaissances

L'extraction des connaissances a pour principal objectif d'extraire dans des grands volumes de données « des éléments de connaissances non triviaux et nouveaux pouvant avoir un sens et un intérêt pour être réutilisés ». Elle est composée de plusieurs étapes (figure 4.1) dont la principale est la fouille de données.[1][17][20]

1. Phase de consolidation de données

La consolidation de données est une étape de l'extraction de connaissance qui consiste à collecter les données. Ces données n'ont pas toujours le même format et la même structure. On peut avoir des textes, des pages web, des images, etc. La phase de consolidation cible ainsi l'espace de données qui va être exploré.

43

Le specialiste du data mining agit un peu à l'image du géologue qui définit aussi des zones de prospection étant persuadé que certaines régions seront probablement vite abandonnées car elles ne recèlent ou ne contiennent aucun ou peu de minerais. Ainsi cette étape met en oeuvre des requêtes ad hoc ou appropriée afin de recueillir des données potentiellement utiles selon le point de vue du spécialiste.

A l'issue de la phase de consolidation, l'analyste est en possession d'un stock de données contenant potentiellement l'information ou la connaissance recher-chée.F1]F14]F11]

2. La phase de pré-traitement de données

Les données issues des entrepôts ne sont pas nécessairement toutes exploitables par des techniques de fouille de données parce que la plupart des techniques utilisées ne traitent que des tableaux de données numériques. Ces tableaux associent à un objet(en ligne) un ensemble de valeurs d'attributs(en colonne). Des vocabulaires peuvent se différencier selon les domaines : Un objet peut également être appelé enregistrement, individu, observation,... alors qu'un attribut peut se dénommer caracteristique, champ, descripteur, etc.

Le pré-traitement permet de présenter les données de manière adaptée à la méthode de fouille de données qu'on devra utiliser. Elle regroupe différentes étapes :

- Integration de données Cette étape consiste à regrouper et à uniformiser les données provenant de plusieurs sources.

- Le nettoyage : Cette étape s'occupe de la gestion des doublons ainsi que des erreurs de saisie.

- Le traitement des valeurs maquantes ou aberrantes

Certaines données peuvent être absentes ou encore absurdes et peuvent ainsi gêner l'analyse. Cette étape permet donc de définir certaines régles ou principes afin de gérer ou même remplacer ces données maquantes ou illogiques.

- L'enrichissement des données : Dépassé l'étape de traitement des valeurs maquantes, il peut s'averer que certains attributs ne figurent toujours pas parmi les informations recherchées. Ainsi vient l'étape d'enrichessement qui consiste à ajouter des nouveaux attributs par combinaison d'attributs existants. Notons cependant que le processus d'extraction des connaissances n'est pas linéaire car il arrive aussi que l'on revienne, après analyse, rechercher des nouvelles données.

- Traitement de données complexes : Toutes les étapes ou méthodes de pré-traitement citées ci-haut, opèrent sur des tableaux de données lignes/colonnes. Or il peut arriver que les données sous études ne soient pas structurées de cette manière là. Par exemple, en fouille de texte, nous pouvons disposer d'un ensemble de textes de longueurs variées que nous devons ramener sous forme tabulaire. L'une des techniques consiste à recenser l'ensemble des mots de tout le corpus et d'en calculer la fréquence de chacun d'eux. On obtiendra ainsi un tableau codé. Mais le codage des textes fait généralement appel à des procedures plus élaborées s'appuyant sur la linguistique ou l'ontologie du domaine.F14]F11]

3. Phase de fouille de données

La fouille de données concerne le data mining dans son sens restreint et se situe au coeur même de l'extraction des connaissances. Elle est définie comme étant

44

un processus qui utilise une variété de méthodes d'analyse de données afin d'extraire des informations intéressantes et appropriées à partir de données. La classification des méthodes de fouille de données dépend d'une part, du but poursuivi dans l'analyse et d'autre part, de la nature et de la quantité de données considérées. En conséquence, elles sont groupées en deux classes principales :

- Méthodes prédictives : Ces méthodes ont pour objectif de rechercher à partir de données disponibles un modèle explicatif ou prédictif entre, d'une part, un attribut particulier à prédire et de l'autre, des attributs prédictifs. Il s'agira donc de prédire de nouvelles informations à partir de données, ou plus précisément de prédire les valeurs d'un attribut en fonction des autres attributs.

- Méthodes descriptives : L'objectif de ces méthodes est de permettre à l'ana-lyste d'avoir une compréhension synthétique de l'ensemble de ses données. Il s'agira de : décrire au mieux les données dans le but de les réduire ou de les résumer pour une meilleure manipulation; mettre en valeur des informations présentes mais cachées; décrire les associations entre attributs sous forme de règles; rassembler tous les objets similaires.[1][14][11]

La phase d'interprétation et d'evaluation des résultats fait appel aux techniques de visualisation permettant d'afficher les résultats d'une manière compréhensible par l'être humain.

En effet, on remarque un intérêt grandissant pour les méthodes de découverte de connaissances à partir des données généralement formalisées sous forme de règles d'associations. Ces méthodes issues, pour la plupart, de l'Analyse Formelle de Concepts et proposées en fouille de données, sont développées dans un objectif de prédic-tion(méthodes prédictives) ou de description(méthodes descriptives) et exploitent la structure du treillis de concepts, ou bien les règles d'associations qui les décrivent, et qui ont pour caractéristique commune de s'appliquer sur des données binaires. Par conséquent, la section suivante sera consacrée à l'Analyse Formelle de Concepts qui est une approche à la représentation des connaissances et qui définit le treillis de concepts(section 2.4.1) à partir des données binaires du types Objets× attri-buts.[14][11]

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry