WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 4

Méthodes de classification

Si dans les années 80, on distingue deux grands types de méthodes, les méthodes de partitionnement et les méthodes hiérarchiques, depuis d'autres approches (réseaux de neurones,...) ont vu le jour. Le choix de la méthode la plus adaptée dépend de la nature des variables, de la problématique posée et souvent des habitudes du domaine d'étude. Dans ce chapitre, nous présentons deux méthodes factorielles de classification, à savoir l'analyse en composantes principales et l'analyse des correspondances et une méthode connexioniste, les cartes topologiques de Kohonen.

4.1 Méthodes factorielles

L'objectif visé par l'analyse factorielle est la réduction de l'information en passant d'un grand nombre de variables, à un nombre restreint de méta-variables, appelés facteurs. L'essentiel de la démarche des méthodes factorielles est commun entre elles. Les »inputs» d'une analyse factorielle sont dans tous les cas l'espace, les points, les masses affectées aux points et la métrique. Les »outputs» sont les axes d'inertie, les coordonnées des points sur ces axes et divers indicateurs nommés »aides à l'interprétation». D'une méthode d'analyse factorielle à une autre, seuls varient les »inputs» i.e. les définitions des points, des masses et de la métrique [Jam, 99].

4.1.1 Analyse en composantes principales (ACP)

L'ACP est une méthode factorielle ayant pour but de déterminer un sous- espace vectoriel de dimension (k) inférieure à la dimension de l'espace d'entrée (k<p) et qui offre le maximum d'inertie expliquée pour y projeter le nuage de points de l'espace d'entrée Rp. En d'autres termes, réduire le nombre de variables à quelques facteurs significatifs et déterminer les relations de proximité entre

points individus et points variables. La démarche d'une ACP est présentée dans ce qui suit.

Calcul de la matrice d'inertie

Soit le tableau X (xij ; i=1..n; j=1. .p) formé de n points Xi munis de masses pi positives, décrits chacun par p variables:

 

V1

 

Vj

 

Vp

X1

 
 
 
 
 
 
 
 
 
 
 

Xi

x1 i

..

xj i

..

xp i

 
 
 
 
 
 

Xn

 
 
 
 
 

La matrice d'inertie V s'écrit V=X'MX où X est la matrice à n lignes et p colonnes. Les lignes de X sont les vecteurs Xi, M est la matrice carrée diagonale d'ordre n des poids pi (généralement pi = 1/n).

V peut aussi s'écrire V=ZZ' avec Z= X'M1=2. Cette matrice a les propriétés suivantes :

- V est symétrique.

- V est diagonalisable et ses valeurs et vecteurs propres sont réels.

- Les vecteurs propres associés à des valeurs propres différentes sont orthogonaux.

- V est semi-définie positive et donc pour tout vecteur U de Rn (espace d'entrée) on a U'VU positif. Toute valeur propre de V est donc supérieure ou égale à zéro.

- La trace de V, qui est la somme de toutes les valeurs propres, est égale à Tr(V)=P

i

i

Détermination des axes factoriels

Les axes engendrés par les vecteurs U1, . .Uk, vecteurs propres associés aux valeurs propres de V sont les axes principaux d'inertie. La k ième composante principale, ou le k ième facteur est le vecteur dont les composantes sont les coordonnées des points du nuage sur le k ième axe principal d'inertie Uk. Comme le nombre d'individus est n, ce vecteur a n composantes, c'est donc un élément de l'espace Rn des variables.

Pour déterminer l'espace de projection à inertie expliquée maximale il faut déterminer ses k axes. Le premier est l'axe à inertie expliquée maximum. Pour

le déterminer, il suffit de chercher l'axe associé au premier vecteur propre de la matrice V. On désignera par U1le vecteur associé à la plus grande valeur propre 1. L'inertie expliquée par cet axe est égale à:

ë / ëi
1 ?i

Remarquons que l'inertie qui n'est pas expliquée par un sous-espace vectoriel donné l'est totalement par le sous-espace supplémentaire (ensemble des axes qui lui sont orthogonaux). Connaître le reste de l'inertie expliquée revient donc à déterminer les axes associés aux autres vecteurs propres.

Combien de facteurs faut-il retenir?

Retenir tous les facteurs équivaut à garder toute l'information initiale mais sans contribuer à la simplification de la structure des liaisons entres variables. Inversement, ne garder qu'un petit nombre de facteurs peut revenir à n'expliquer qu'un pourcentage trop faible de variance totale, et donc à résumer de façon excessive la complexité de la structure des liaisons entres variables, à moins que quelques facteurs seulement suffisent à expliquer une proportion importante de la variance totale. Généralement, la méthode adoptée est de garder les premiers axes factoriels dont la proportion expliquée de la variance atteint une proportion fixée, par exemple 80% (»critère» de »Jolie»). Il s'agit des premiers facteurs car leur pouvoir d'explication décroît du fait de leur ordonnancement par valeurs décroissantes de leur variance ®.

Représentation des individus

Les axes factoriels constituent une nouvelle base de l'espace Rp. Il est donc nécessaire de calculer les coordonnées des points sur ces axes pour les représenter dans la nouvelle base et plus précisément sur uniquement k axes.

La coordonnée ® d'un point Xi sur un axe U® correspond à la projection du point sur l'axe, qui est aussi égal au produit scalaire entre Xi et le vecteur U® de l'axe:

p

uá i á ?= á

= =

'

( ) U X x u h

i ih

h 1

Pour interpréter les résultats d'une analyse en composantes principales nous avons aussi besoin de connaître:

- Pour chaque point Xi, la contribution du point à l'inertie du nuage. Cette contribution indique quels sont les points qui ont joué un rôle important dans l'analyse.

2

( )
i

CONTR i p i X i

( ) =

I o

( )

avec I(o) = Tr(V)

- Pour chaque axe U® et chaque point Xi, la contribution du point à l'inertie expliquée par l'axe:

=

CTRá

( )
i

pi

u á

ë á

Les CTRs permettent d'interpréter un axe en identifiant les points qui ont le plus contribué à son positionnement. Notons que nous avons toujours :

n

?= =

CTR i

á ( )1

1

i

2

- Pour chaque point Xi et pour chaque axe U®, on calcule la part de l'inertie du point restituée par l'axe et égale à:

2 ( )

u i

COS i á

( ) =

Xi

á 2

C'est en fait le carré du cosinus de l'angle formé par l'axe U® et le point Xi.

COS i

2 =

á ( )1

p

?=

á 1

Représentation des points variables

Généralement, les variables utilisées dans l'ACP sont centrées. Le nuage des individus est donc centré. Son centre de gravité est situé à l'origine, ce qui n'est pas le cas pour le nuage des variables. Chaque variable Y correspond à une colonne du tableau X munie d'une masse unitaire. On utilisera comme représentation des variables la notation Z® :

á 1 / 2 á 1 á

? ?

Z = M Y = n Y

? ?

? ?

car M est une matrice diagonale dont tous les termes sont égaux à 1/n. Toutes les variables Z sont normées et les points variables se situent à une

distance égale à 1 de l'origine. Elles sont donc sur la sphère de rayon 1. D'autre

part la distance entre deux variables est :

d2(Za,Zfi )= Za --Zfi2 = Za 2 #177; Zfi 2--2 Za,Zfi =2(1-- Za,Zfi )

avec <Z, , ZE,> désigne le produit scalaire de deux variables.

Par ailleurs, le produit scalaire de deux vecteurs A et B est égal au produit des normes et du cosinus de l'angle entre les des deux vecteurs, donc

fi )

Za,Zfi = Za Zfi cos(Za,Zfi)=cosga,Z

car les variables sont normées. Ainsi,

)

d2(Za,Zfi)=2(1--cosga,Zfi

fi n

fi

Comme les variables sont centrées réduites, le coefficient de corrélation 1/2,E, est égal à

a

Z

=

1,z72 xiaxi t

=

afi

i=1 n i4

On peut donc dire que

)

pafi =COSga,Zfi

Les remarques suivantes seront utilisées pour donner un sens aux différents axes factoriels en fonction de la position des variables :

- Deux points variables confondus ont un coefficient de corrélation égal à 1.

- Deux points variables formant un angle de 90°ont un coefficient de corrélation linéaire égal à zéro.

- Deux points variables formant un angle de 180°ont un coefficient de corrélation linéaire égal à -1 (anti-corrélées).

- Pour comparer des points entre eux, il faut qu'ils soient proches de la circonférence du cercle de corrélation.

- Par contre, on ne peut rien dire quand les variables sont agglomérées au centre du cercle, ou de la sphère unité.

Aides à l'interprétation

L'ordre à suivre dans l'exploitation des indicateurs est le suivant :

1. Chercher les i correspondant aux CTR,(i) les plus forts. Sélectionner l'ensemble I' c I des points i tels que la somme des CTR, soit élevée (par exemple 0.8). L'interprétation de l'axe reposera sur l'examen de ces points.

2. Regarder le signe de 1,(i) pour i E I'. Ce signe indique si les points interviennent sur l'axe du côté positif ou du côté négatif.

. ?=

i 1 n ij

n =

j

, ?

n j =

.

i=1

n ij , n n i 1

= =

.. .

? ? =

i=1 j

n. j

3. Examiner les COS2 ®(i) pour i I'. Si COS2 ®(i) est fort, le point i est pratiquement aligné sur l'axe ®, il ne joue pas donc un grand rôle sur les autres axes. Inversement, si COS2 ®(i) est faible, le point i joue un rôle important sur d'autres axes factoriels.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"La première panacée d'une nation mal gouvernée est l'inflation monétaire, la seconde, c'est la guerre. Tous deux apportent une prospérité temporaire, tous deux apportent une ruine permanente. Mais tous deux sont le refuge des opportunistes politiques et économiques"   Hemingway