Caractérisation et extraction informatique de la structure d'un tableau par une méthode implémentant un réseau de neurones

( Télécharger le fichier original )
par Pacifique BISIMWA MUGISHO
Institut Supérieur Pédagogique - Licence en Informatique de Gestion 2011

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.2.3. Analyse et interprétation des données

Dans cette section, nous présentons et analysons les données qui ont constitué la toile de fond de nos recherches avant de donner notre interprétation des résultats. Vu l'impossibilité

d'accéder à tous les documents écrits traitant sur la reconnaissance de tableaux, nous avons centré nos investigations sur un échantillon de 8 documents écrits par d'éminents chercheurs qui ont consacré leurs efforts à examiner les méthodes et approches susceptibles de rendre les systèmes de reconnaissance de tableaux beaucoup plus efficaces et plus performants.

a) Encodage de données

En vue de faciliter leur traitement, nous nous sommes proposé de coder les données de la manière suivante :

· Les auteurs :

A1 : A. Laurentini et P. Viada

A2 : Luiz Antonio Pereira et al.

A3 : R. Zanibbi et al.

A4 : Jiwon Shin et Nick Guerette

A5 : H. Kawanaka et al.

A6 : Jin Chen et Daniel Lopresti

A7 : Jianying Hu et al.

A8 : Yalin Wang et al.

· Les méthodologies, approches et techniques utilisées :

M1 : Les approches structurales et statistiques.

M2 : Détection des blocs de texte et identification des lignes horizontales et verticales

M3 : Détection des coins (ou lignes d'intersection) du tableau et extraction des cellules du tableau.

M4 : Détection des zones de texte du tableau au moyen de l'algorithme ISODATA et l'algorithme de croissance de régions.

M5 : Identification de la structure du tableau à partir d'un modèle et génération des documents XML.

M6 : Détection de tableau en utilisant la transformation de Hough, les classificateurs SVM et la programmation dynamique.

M7 : Détection de tableau en utilisant la programmation dynamique.

M8 : Détection de tableau par optimisation probabilistique.

34

M9 : L'approche neuronale.

· Le système de pointage

1 : cité ou utilisé par l'auteur

0 : ni cité, ni utilisé par l'auteur

· Les indicateurs

X : La fréquence d'occurrences globales (de toutes les méthodes)

Xi : La fréquence d'occurrences individuelles (propre à chaque méthode) n : La taille de l'échantillon (n=8)

? CD

E

DF$

5 : La moyenne des fréquences. 5 = G

s : L'écart - type de l'échantillon

ôJ : L'écart - type de la distribution d'échantillonnage des moyennes.

x 100

x : L'écart entre un Xi et la moyenne 5

CD

p : la fréquence relative d'un Xi par rapport à n. p = G

CD

P : la fréquence relative en pourcentage ; c'est-à-dire P = G

b) Analyse des méthodes et techniques utilisées

Afin que notre démarche s'analyse soit limpide et claire, nous présentons d'abord la matière première de notre analyse dans la grille ci-après :

Auteurs Méthodologies et techniques	A1	A2	A3	A4	A5	A6	A7	A8	X	x=X-5 (avec 5=2,5)	_x2	p	P (%)	M1
1	1	1	1	1	1	1	1	8	5,5	30,25	1	100	M2
1	0	0	0	0	0	0	0	1	-1,5	2,25	0 ,125	12,5	M3
0	1	0	0	1	0	0	0	2	-0,5	0,25	0 ,25	25	M4
0	0	0	1	0	0	0	0	1	-1,5	2,25	0 ,125	12,5	M5
0	0	0	0	1	0	0	0	1	-1,5	2,25	0,125	12,5	M6
0	0	1	0	0	1	0	0	2	-0,5	0,25	0,25	25	M7
0	0	1	0	0	1	1	0	3	0,5	0,25	0,375	37,5	M8
0	0	0	0	0	0	0	1	1	-1,5	2,25	0,125	12,5	M9
0	0	1	0	0	0	0	0	1	-1,5	2,25	0,125	12,5	Totaux
										42,25

35

Tableau 1.1 : Grille présentant la distribution des fréquences d'occurrence des différentes approches pour chaque auteur.

D'une manière synthétique, les données ci-haut présentés peuvent être illustrés par le graphique suivant :

Fréquences d'occurence (X)

9 8 7 6 5 4 3 2 1 0

M1 M2 M3 M4 M5 M6 M7 M8 M9

Fréquences (X)

Graphique 1.1 : Niveaux des fréquences d'occurrence pour les différentes approches. De toute évidence, en observant les données présentées ci-haut, nous constatons que :

· La majorité de chercheurs en reconnaissance de tableaux utilisent les approches structurales et statistiques (Cfr. 8/8, soit 100%).

· L'approche neuronale n'est presque pas utilisée en reconnaissance de tableaux (Cfr. 1/8, soit 12,5%).

Etant donné que nous travaillons sur un échantillon de 8 chercheurs, nous allons procéder par un test d'inférence afin de pouvoir généraliser les constats ci-hauts soulignés à toute la population de chercheurs dans le domaine de la reconnaissance de tableaux (une population infinie !). Pour ce faire, les constats précédemment soulevés constituent d'emblée notre hypothèse de base (H0).

- Hypothèses:

· H0 : Les approches structurales et statistiques sont les plus souvent utilisées en reconnaissance de tableaux tandis que l'approche neuronale est quasi absente dans les travaux traitant sur la reconnaissance de tableaux.

· H1 : Contrairement à l'approche neuronale, les approches structurales et statistiques

sont très rarement utilisées en reconnaissance de tableaux.

- Seuil de signification pour le test (Niveau de confiance): 95%, soit une erreur de 5% (á=0,05) ;

- Distribution à utiliser pour le test : Test t de Student (car nous nous trouvons dans le cas d'une population infinie et dont nous ignorons l'écart - type).

- Type de test (ou région de rejet) : Test bilatéral.

- Calcul des valeurs des indices:

· Moyenne de l'échantillon (5 ) : Cette moyenne est donnée par

5 = ~ ? N.

M .-~ = ~ O 8+1+2+1+1+2+3+1+1 = 2,5

M

· Ecart - type de l'échantillon (s) : Cet écart est donné par

< =T? J

M2 = TU~,~V

O2 = W6,0357 = 2,46

· L'écart - type de la distribution d'échantillonnage des moyennes : Cet écart - type s'obtient par la formule :

H^IJ = =

vM21

[ 2,U]

v^

· Valeurs de t :

= 0,93

o

th, = 2,365 ((3r `a = ' - 1 = 8 - 1 = 7 et b = 0,05)

(1,V^)v^

2,U]

= 1,69

(2,V2h,ij)v^

2,U]

(J2ef_gf~vM21

o tcalculé = [

· Représentation de la distribution :

Région d'acceptation

Région de rejet

tlu tlu

tcalculé

Graphique 1.2 : Représentation de la distribution réduite t.

- Décision : l'hypothèse de base (H0) est acceptée

- Conclusion : Avec 5% de risque d'erreur, nous confirmons que les approches structurales et statistiques sont les plus souvent utilisées en reconnaissance de tableaux et que l'approche neuronale est quasi absente dans les travaux traitant sur la reconnaissance de tableaux.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Les esprits médiocres condamnent d'ordinaire tout ce qui passe leur portée" François de la Rochefoucauld