WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Impact de la structure de treillis dans le domaine de fouille de données et la représentation des connaissances.

( Télécharger le fichier original )
par Pascal Sungu Ngoy
Université de Lubumbashi - Diplôme de licence en sciences mathématiques et informatique 2014
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.1.2 Indices statistiques associés aux règles d'association

Le support et la confiance ne sont pas les seuls indices permettant d'indiquer la qualité d'une règle. D'autres indices statistiques apportent des informations supplémentaires et permettent ainsi différents classements des règles. A savoir : La dépendance, l'intérêt, la conviction, l'étonnement.

L'indice de dépendance est utilisée en probabilité, il permet de calculer l'apport du prémisse B dans la règle.

Définition 4 (Dépendance)

L'indice de dépendance renforce une règle en mesurant la fait que B et H soient dépendants ou pas:

dep[B = H] = |P(H|B) - P(H)| (5.6)

Les termes très fréquent dans un corpus n'apportent pas d'information particulière puisque tout terme du corpus devra impliquer un terme fréquent. Alors que les termes rares, qui peuvent porter de l'information, apparaissent dans des règles à faible support et sont par conséquent peu intéressants. C'est ainsi que l'indice suivant a été défini au vue de cette différence d'apparition des termes dans un corpus.

65

FIGURE 5.5 - Exemple d'un document du corpus Définition 5 (Intérêt)

L'intérêt mesure la dépendance entre B et H. Cet indice privilégie les termes rares aux dépens des termes trop répandus dans le corpus.

P (B, H)

int[B = H] = (5.7)
P (B) x P (H)

L'intérêt a un comportement symetrique pour B et pour H, c'est-à-dire que : int[B = H] est égal à int[H = B]. [28]

5.3.2 Expérimentations

Considérons un corpus constitué de 43 documents d'environs 200 000 mots dont l'extrait d'un des documents est montré à la figure 5.5. Un document est constitué d'un identifiant unique (c'est-à-dire un numéro), d'un titre, d'un (ou des) auteur(s), du résumé sous forme textuelle et d'une liste de termes caractérisant ce resumé.

Soit une base de donnée comprénant des livres, thèses, cours ainsi que des articles en format numérique :

1. La proie

2. Adéquation d'indices statistiques à l'interprétation de règles d'association

3. Analyse comparative de corpus cas de l'ingénierie des connaissances

4. Analyse en ligne de l'information: une approche permettant l'extraction d'in-formations

5. Analyse statistique implicative

66

6. Annotation documentaire et peuplement d'ontologie à partir d'extractions linguistiques

7. Apprentissage statistisque pour l'extraction des concepts à partir des textes.

8. Application aux filtrage des textes

9. Approche linguistique pour l'analyse syntaxique

10. Balades aléatoires dans les Petits Mondes lexicaux

11. Construction de ressources terminologiques ou ontologiques à partir de textes

12. Construction d'ontologie à partir des textes

13. Programmation Java

14. Créez votre application web avec java Entreprise Edition

15. Dévellopement Java avec Jquery

16. Développons en Java

17. Documents électroniques et constitution de ressources terminologiques ou ontologiques

18. Engagement sémantique et engagement ontologique conception et réalisation d'ontologies en ingénierie des connaissances

19. Enrichissement automatique d'une base de connaissances biologiques a l'aide des outils du Web semantique

20. Etude et realisation d'un systeme d'extraction de connaissances à partir des textes

21. Evaluation de la qualité de la représentation en fouille des donnée

22. Extraction automatique des motifs syntaxiques

23. Extraction de connaissances dans les bases de donnees comportant des valeurs manquantes

24. Extraction et impact des connaissances sur les performances des systemes de recherche d'information

25. Fouille de textes hiérarchisée, appliquée à la détection des fautes

26. Fouille de données séquentielles pour l'extraction de l'information dans le texte

27. Hierarchisation des regles d'association en fouille de textes

28. Ontologie de domaine pour la modélisation des contextes en recherche d'infor-mation

29. Ingénierie des connaissances entre science de l'information et science de gestion

30. La Programmation Orientée Objet

31. Optimisation des réseaux intelligents et des réseaux hétérogènes

32. Modelisation du domaine par une methode fondee sur l'analyse du corpus

33. Modelisation XML

34. Ontologies pour l'aide à l'exploration d'une collection des documents

35. Plate forme d'analyse morpho-syntaxique pour l'indexation automatique et la recherche d'information

36. Précis de recherche opérationnelle

67

37. Résumé automatique par filtrage semantique d'informations dans des textes

38. Système d'exploration contextuelle

39. Tout sur les Réseaux sans fil

40. Un systeme de visualisation pour l'extraction, l'evaluation, et l'exploration interactives des regles d'association

41. Une étude comparative de quelques travaux sur l'acquisition de connaissances

42. Vers le traitement de la masse de donnée disponible

43. Vers une acquisition automatique de connaissances

Soit un groupe de mots (simples ou composés) que nous devons chercher dans cette base de donnée :

1. règles d'associations

2. fouille de textes

3. ontologie

4. corpus

5. analyse syntaxique

6. extraction d'information

7. traitement du langage naturel

8. intelligence artificielle

9. treillis de galois

10. connaissances

11. recherche d'information

12. linguistique

13. représentation des connaissances

14. traitement automatique des langues

15. ingénierie des connaissances

16. contexte formel

17. connexion de galois

18. web sémantique

19. base de connaissances

20. base de données

Nous contruirons un contexte d'extraction K = (X, Y, R) où X est l'ensemble de livres de notre base de donnée, Y l'ensemble de termes ou mots clés de notre corpus et la relation R désignera la presence d'un mot dans un document et sera simbolisé par × dans la case correspondante au croisement de la ligne du nom d'un livre et la colonne du nom d'un motif tel que montré par la figure ci-dessous.

Les documents seront symbolisés par la variable x
·(j allant de 1 à 43) et les termes (ou mots clés) par les lettres de l'alphabet français (a = 1... t = 20).

TABLE 5.2 -- Contexte d'extraction associé à la base de données textuelle (Livres éléctroniques et mots clés)

68

'R.

a

h

c:

ci

cT

I

g

h

i

j

k

l

in

u

ca

p

c1

r

s

t

3: I

 
 
 
 
 
 
 

X

 

X

 
 
 
 
 
 
 
 
 
 

3:2

 

X

X

X

X

 
 
 
 

X

 
 
 
 

X

X

 
 
 
 

3:4.!

 
 

X

X

X

 
 

X

 

X

 

X

X

X

X

 
 

X

 
 

:4'i

 
 

X

X

X

 

X

X

 

X

 

X

 
 

X

 
 
 
 

X

;1::,

 

X

X

X

 
 
 
 

X

X

 

X

 
 
 
 
 
 
 

X

:!.'i;

 

X

X

X

 
 

X

X

 

X

 

X

X

 
 
 
 

X

 
 

r7

 

X

X

X

X

X

X

X

X

X

X

X

 

X

X

X

 
 

X

X

3:8

 
 

X

X

X

 
 
 
 

X

 

X

 

X

X

 
 
 

X

 

3:1i

 

X

 

X

 
 
 

X

 

X

 

X

X

X

 
 
 
 
 
 

11]

 
 

X

X

X

 
 

X

 

X

 

X

 

X

X

 
 

X

X

X

xii

 
 

X

X

X

 
 

X

 

X

 

X

 

X

 
 
 
 

X

 

X12

 
 
 
 
 
 
 
 
 

X

X

 
 
 
 
 
 
 
 

X

ZIA

 
 
 
 
 
 
 
 
 

X

X

 
 
 
 
 
 
 

X

X

ZIA

 
 
 
 
 
 
 
 
 

X

 
 
 
 
 
 
 
 
 
 

XII")

 
 
 
 
 
 
 
 
 

X

X

 
 
 
 
 
 
 
 

X

2Iy

 

X

X

X

 
 
 

X

 

T

X

 

X

X

X

X

 
 
 
 
 

x.17

 
 

X

X

 
 
 

X

 

X

 

X

X

 

X

X

 
 
 
 

3:1#]

 
 

X

X

 

X

X

X

 

X

 

X

X

X

X

 
 

X

X

X

3:19

 

X

X

X

X

 
 
 

X

X

 

X

 

X

 
 

X

X

X

X

3:21]

X

 
 
 
 
 
 
 
 

X

 
 
 
 
 
 
 
 

X

X

3:21

 
 
 

X

X

 
 

X

 
 
 

X

 
 
 
 
 
 
 
 

3:22

X

X

 

X

 
 
 
 

X

X

X

X

 
 
 
 

X

 
 

X

3:23

 
 

X

X

X

 
 
 
 

X

X

X

 
 
 
 
 
 

X

 

:#:2
·1

X

X

 

X

X

X

 
 
 

X

X

X

 

X

 
 
 
 
 
 

x25

 

X

 

X

X

 
 
 
 

X

 

X

 
 
 
 
 

X

 
 

:L`.){;

 

X

X

 
 
 
 
 

X

X

 
 
 
 
 
 

X

 

X

 

;i:27

 
 

X

X

 
 
 
 
 

X

 
 

X

X

X

 
 

X

 
 

z2A

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

X

3:29

 
 

X

 
 
 
 

X

 

X

X

X

 
 
 
 
 
 
 
 

3:34]

 
 
 
 
 
 
 

X

 

X

 
 
 
 
 
 
 

X

X

X

37-411

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

27;12

 
 

X

X

 
 
 

X

 

X

 

X

 

X

X

 
 
 

X

 

1:33

 
 

X

 
 
 
 

X

 

X

 

X

 
 
 
 
 

X

X

X

1.'34

 
 

X

X

X

X

 

X

 

X

X

X

X

X

X

 
 

X

X

X

;1.3r,

 
 

X

 
 

X

 
 
 

X

X

 
 

X

 
 
 
 
 

X

:a':cents,.

 
 
 

X

X

X

X

X

 

X

X

X

X

X

X

 
 

X

X

;a':g ;

 
 

X

X

 

X

 
 
 

X

 

X

X

 
 
 
 
 
 

X

3.';

 
 
 
 
 
 
 
 
 

X

 

X

 
 
 
 
 
 
 

X

3.';s1]~

 

X

X

 
 
 
 
 

X

X

X

X

 
 
 
 

X

 

X

 

l'..1 I)

 
 

X

X

 
 
 
 
 

X

 
 
 
 
 
 
 
 
 

X

1:4 L

 
 
 
 
 
 
 
 
 

X

 
 
 
 

X

 
 
 

X

X

:!',12

 
 
 
 
 
 
 
 
 

X

 
 

X

 

X

 
 

X

X

 

+1:
·1;s

 
 
 
 
 
 
 
 

X

X

 
 

X

 

X

 
 
 

X

 

69

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus