CHAPITRE I. ETAT DE L'ART EN RECONNAISSANCE DES
TABLEAUX
1.1. Objectifs
Dans ce chapitre, nous nous proposons d'étaler les
différents points de vue existant dans le domaine de la reconnaissance
de tableaux. Pour ce faire, nous commencerons d'abord par donner une
idée claire des différents types de reconnaissance de tableaux
déjà réalisés, ensuite, nous identifierons les
méthodes, algorithmes et techniques utilisés par
différents chercheurs en vue d'obtenir les meilleurs résultats.
Enfin, nous jetterons un regard analytique sur les résultats obtenus par
ces chercheurs, les difficultés qu'ils ont rencontrées afin de
relever les zones d'ombre qui persistent encore en reconnaissance de
tableaux.
1.2. Aperçu succinct de la littérature en
reconnaissance des tableaux
Cela fera bientôt plus de deux décennies que la
littérature en reconnaissance de tableau abonde et regorge les travaux
d'éminents chercheurs dans ce domaine. Il est évident que des
progrès considérables ont été
réalisés par bon nombre d'auteurs. Cependant, comme nous allons
le remarquer plus bas, malgré les efforts de conceptualisation
déjà fournis sur le plan théorique, l'aspect pratique de
la reconnaissance de tableaux laisse entrevoir encore beaucoup de zones d'ombre
car ce domaine de l'intelligence artificielle demeure encore un puzzle complexe
à résoudre jusqu'à nos jours. C'est ce qui explique, entre
autres conséquences, l'absence ou la rareté des logiciels
spécialisés dans la reconnaissance de tableaux.
1.2.1. Types de reconnaissance de tableaux
Les nombreuses tentatives de reconnaissance de tableaux
laissent entrevoir différentes considérations du problème
par les chercheurs selon le point de vue de chacun. Au fait, lorsque l'on
considère l'image du document portant le tableau à
reconnaître, on s'aperçoit qu'il peut être constitué,
non seulement des tableaux, mais aussi d'autres objets tels que des images, du
texte, des graphiques, etc. De plus le document devient encore plus complexe
lorsque les objets précités font partie intégrante du
contenu du tableau à détecter.
Ainsi, Laurentini et Viada4 considèrent que
l'identification d'un tableau dans un document complexe contenant du texte,
des dessins, des diagrammes, etc. revient à comprendre le
4 Laurentini A. et Viada P., «Identifying
and Understanding Tabular material in compound Documents» in
IEEE, Torino, 1992, pp 405-409.
15
contenu de ce tableau d'abord avant d'identifier ce dernier en
vue de le convertir au format électronique. Plus bas, nous faisons un
bref aperçu de la méthodologie proposée par les deux
auteurs précités pour y parvenir.
Pereira et ses collaborateurs5, quant à eux,
s'intéressent à l'extraction des cellules des formulaires -
tableaux se trouvant dans un état détérioré
(c'est-à-dire dont les lignes ne sont plus toutes visibles et qui
présentent des imperfections liées à l'angle
d'inclinaison). Par la suite, ils estiment que la reconnaissance de tels
tableaux passe par plusieurs phases de correction d'erreurs.
A l'issue de leur enquête sur les recherches
déjà effectuées dans le domaine de la reconnaissance de
tableaux, Zanibbi et ses collaborateurs6 trouvent que le
problème de la reconnaissance de tableaux peut être
envisagé de deux manières différentes, à savoir :
la détermination de leurs structures physiques et la
détermination de leurs structures logiques. C'est ainsi qu'ils
distinguent la reconnaissance de tableau en détection de tableau et en
reconnaissance de la structure du tableau. Afin de concilier les diverses
approches qu'ils avaient rencontrés en reconnaissance de tableaux,
Zanibbi et ses collaborateurs proposent un procédé de
reconnaissance de tableaux faisant la synthèse de tous les autres.
Pour Shin et Guerette7, l'extraction des
informations sur les structures des tableaux dans un document constitue
une étape primordiale dans le processus de reconnaissance de tableaux.
Ces deux auteurs estiment donc que la détection des lignes
verticales et horizontales entre les blocs de texte permettrait
l'identification complète du tableau. Ils proposent ainsi une
méthodologie basée sur la « croissance des régions
» afin de localiser les « boîtes limitatrices » autour du
texte dans le document contenant le tableau à reconnaître.
A leur tour, Kawanaka et ses collaborateurs8
s'intéressent à l'extraction de la structure de tableaux à
l'aide d'un modèle de document. Ils ajoutent aussi la possibilité
d'exporter les informations extraites du document vers le format XML
(génération d'un document XML). Comme nous allons le remarquer
dans la suite, la méthode qu'ils proposent s'avère être
basée sur une connaissance à priori du tableau à
reconnaître.
5 Pereira L. et al., Recognition of deteriorated
Table-form Documents: A New Approach, UFCG, Brazil, 2000, p 1.
6 Zanibbi R. et al., A Survey of Table
Recognition: Models, Observations, Transformations and Inferences, SC,
Queen's University, Ontario, 2003, pp 5-33.
7 Shin J. et Guerette N., «Table Recognition
and Evaluation» in Proceedings of the class of 2005 Senior
Conference, DCSSC, Swarthmore, 2005, pp 8-13.
8 Kawanaka H. et al., Document Recognition and
XML Generation of Tabular Form Discharge summaries for Analogous case Search
System in Methods of Inf med 6, Mie University, Mie, 2007, pp
700-708.
16
Dans une « approche ouverte vers l'analyse comparative
des systèmes de reconnaissance de structure de tableaux »,
Shahab9, Shafait, Kieninger et Dengel, quant à eux, pensent
qu'une analyse comparative des différentes approches jusque là
réalisées en reconnaissance des tableaux est nécessaire
pour résoudre le problème de reconnaissance de la structure des
tableaux ainsi que leur reconstitution.
Chen et Lopresti10 s'intéressent à la
détection des tableaux dans les documents manuscrits non lignés
et contenant beaucoup de bruits. Ainsi posent-ils le problème
d'identification des régions d'un tableau dans un document manuscrit.
Et, pour résoudre ce problème, ils proposent un algorithme
utilisant les classificateurs SVM11 et la programmation
dynamique.
|