4.5. Expérimentation
Dans une perspective de vérification du
fonctionnement de notre système de
reconnaissance et de validation de la méthodologie
utilisée, nous l'avons expérimenté sur quelques documents
tabulaires.
a. Préparation des données de test
· Résolution et dimension de l'image
d'entrée
Comme nous l'avons signalé
précédemment, notre système est capable de recevoir des
images ayant une dimension de 300X300 pixels ou plus. La résolution
retenue et convenable au système pour l'image d'entrée est 75pp
(ou 75dpi).
· Type ou nature de documents
d'entrée
L'acquisition des images d'entrée s'est faite
via un scanneur à plat (de marque CanonScan LiDE 100). Comme nous
l'avons signalé précédemment toujours, les documents
traités par notre système sont des documents imprimés
contenant un tableau simple vide ou rempli de texte. Le format retenu pour ces
images de tableau est le format JPEG (*.jpg). Nous l'avons retenu parce que
c'est un format convenable pour des images de petite taille (cf. les
caractéristiques de compression de ce format).
· Nombre de documents
utilisés
Aux fins de mesurer l'efficacité de la
méthodologie utilisée, nous avons testé notre programme
sur quatre documents tabulaires présentant des caractéristiques
différentes :
- un document avec tableau et texte aux dimensions 300 X
300 (sans inclinaison) ;
- un document avec tableau sans texte aux dimensions 300
X 300 (avec inclinaison) ;
- un document avec tableau et texte aux dimensions 637 X
876 (sans inclinaison) ;
- un document avec tableau sans texte aux dimensions 637
X 876 (avec inclinaison).
82
b. Mesure des performances
Signalons que plusieurs mesures de performance ont
été proposées pour évaluer les algorithmes de
détection de tableaux. Et, d'après Zannibi et ses
collaborateurs42, les mesures les plus simples comprennent : la
précision et l'exactitude de représentation. Les mesures les plus
sophistiquées comprennent le calcul de la similarité de 2
documents en considérant la structure de leurs tableaux. Zannibi et ses
collaborateurs ajoutent aussi que pour évaluer un système de
reconnaissance de tableaux, la structure physique et / ou logique des tableaux
dans les documents doit être codé ; et ce codage doit s'appuyer
sur une vérité de base.
Ainsi, pour évaluer notre système de
reconnaissance de tableaux, nous avons choisi de coder la structure des
tableaux en nombre de lignes et nombre de colonnes. Dans la suite, nous
utiliserons donc les mesures basées sur les rapports (ou ratios) entre
le nombre de lignes et de colonnes du tableau détecté et le
nombre de lignes et de colonnes du tableau physique. Ces ratios sont
calculés de la manière suivante :
- Ratio de détection correcte de lignes
:
RL =
nombre de lignes
détectées
nombre de lignes du tableau
physique
- Ratio de détection correcte des colonnes
:
Rc =
nombre de colonnes
détectées nombre de
colonnes du tableau physique
- Ratio de détection correcte du tableau
:
c. Résultats
expérimentaux
|
RT =
|
RL Rc
|
Le tableau ci - dessous donne un aperçu des
résultats obtenus à l'issue du test de notre système de
reconnaissance sur 4 images de tableau présentant des
caractéristiques différentes :
42 Zannibi R. et al.,Op.
cit.
83
Image
|
Tableau détecté
( RT en %
)
|
Ligne(s) détectée(s) ( RL en
% )
|
Colonne(s) détectée(s) ( Rc en
% )
|
Observation
|
Tableau avec texte aux dimensions 300 X 300
|
65,21
|
65,21
|
100
|
Image sans inclinaison
|
Tableau sans texte aux dimensions 300 X 300
|
21,73
|
21,73
|
100
|
Image avec légère inclinaison
|
Tableau avec texte aux dimensions 637 X 876
|
70
|
86,95
|
66,66
|
Image sans inclinaison
|
Tableau sans texte aux dimensions 637 X 876
|
17,39
|
17,39
|
100
|
Image avec légère inclinaison
|
De visu, les résultats ci-hauts montrent que la
performance de notre système de reconnaissance est liée aussi
bien à la dimension qu'à la rectitude de l'image d'entrée.
Plus l'image d'entrée est de grande dimension et inclinée, moins
elle sera détectée (cf. 17,39%). Plus l'image d'entrée est
de grande dimension et non inclinée, plus bonne sera sa détection
(cf. 70%).
|