WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Administration d'un big data sous mongodb et extraction de connaissance par réseau de neurones.


par Destin CUBAKA BENI
Université Pédagogique Nationale (UPN) - Licence 2019
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

III.1.4. Concepts de base de Fouille de données

III.1.4.1. Matrice des données - Individu - Variable

Nous représentons les données sous la forme d'une matrice , avec lignes et colonnes, les lignes correspondant aux entités de l'ensemble de données (entrepôt de données, base de données, tableur, etc.)) et des colonnes représentant des attributs ou propriétés appelées variables. Chaque ligne de la matrice de données enregistre les valeurs d'attribut observées pour une entité donnée qu'on appelle individu ou instance ou encore exemple. Cette matrice est donnée par :

 

,

 

désigne la -ème ligne, qui est un n-tuple donné par

Le nombre d'individus est appelé la taille des données, alors que le nombre de variables est appelé la dimension des données.

Une variable qualitative est une variable pour laquelle la valeur mesurée sur chaque individu ne représente pas une quantité. Les différentes valeurs que peut prendre cette variable sont appelées les catégories, modalités ou niveaux.

Une variable est quantitative si elle reflète une notion de grandeur, c'est-à-dire si les valeurs qu'elle peut prendre sont des nombres pouvant être classés en utilisant la relation =.

III.1.4.2. Ressemblance

Une ressemblance (ou proximité) est un opérateur capable d'évaluer précisément les ressemblances ou les dissemblances qui existent entre ces données. Cet opérateur permet alors de mesurer le lien entre les individus d'un même ensemble.

III.1.4.3. Dissimilarité

Un opérateur de ressemblance défini sur l'ensemble d'individus

est dit indice de dissimilarité (ou dissimilarité), si et seulement vérifie les propriétés suivantes :

(P1)

 

(Symétrie)

(P2)

 

(Positivité)

III.1.4.4. Distance

Un opérateur de ressemblance défini sur l'ensemble d'individus

est dit distance ou métrique, si et seulement, en plus de propriétés (P1) et (P2), il vérifie les propriétés suivantes :

(P3)

 

(Identité)

(P4)

 

(Positivité)

La distance la plus utilisée pour les données de type quantitatives continues ou discrètes est la distance de Minkowski d'ordre á définie dans par :

 
 

(1.1)

.

En particulier si :

est la distance de city-block ou Manhattan.

 
 

(1.2)

est la distance Euclidienne classique.

 
 

(1.3)

est la distance de Tchebychev définie comme suit :

 
 

(1.4)

NOTA 

Dans la pratique, c'est la distance euclidienne qui est le plus souvent utilisée, mais la distance de Manhattan est aussi parfois utilisée, notamment pour l'atténuement de l'effet de larges différences dues aux points atypiques ou aberrants pour la simple raison que puisque leurs coordonnées ne sont pas élevées au carré.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle