WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Caractérisation et extraction informatique de la structure d'un tableau par une méthode implémentant un réseau de neurones

( Télécharger le fichier original )
par Pacifique BISIMWA MUGISHO
Institut Supérieur Pédagogique - Licence en Informatique de Gestion 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE I. ETAT DE L'ART EN RECONNAISSANCE DES TABLEAUX

1.1. Objectifs

Dans ce chapitre, nous nous proposons d'étaler les différents points de vue existant dans le domaine de la reconnaissance de tableaux. Pour ce faire, nous commencerons d'abord par donner une idée claire des différents types de reconnaissance de tableaux déjà réalisés, ensuite, nous identifierons les méthodes, algorithmes et techniques utilisés par différents chercheurs en vue d'obtenir les meilleurs résultats. Enfin, nous jetterons un regard analytique sur les résultats obtenus par ces chercheurs, les difficultés qu'ils ont rencontrées afin de relever les zones d'ombre qui persistent encore en reconnaissance de tableaux.

1.2. Aperçu succinct de la littérature en reconnaissance des tableaux

Cela fera bientôt plus de deux décennies que la littérature en reconnaissance de tableau abonde et regorge les travaux d'éminents chercheurs dans ce domaine. Il est évident que des progrès considérables ont été réalisés par bon nombre d'auteurs. Cependant, comme nous allons le remarquer plus bas, malgré les efforts de conceptualisation déjà fournis sur le plan théorique, l'aspect pratique de la reconnaissance de tableaux laisse entrevoir encore beaucoup de zones d'ombre car ce domaine de l'intelligence artificielle demeure encore un puzzle complexe à résoudre jusqu'à nos jours. C'est ce qui explique, entre autres conséquences, l'absence ou la rareté des logiciels spécialisés dans la reconnaissance de tableaux.

1.2.1. Types de reconnaissance de tableaux

Les nombreuses tentatives de reconnaissance de tableaux laissent entrevoir différentes considérations du problème par les chercheurs selon le point de vue de chacun. Au fait, lorsque l'on considère l'image du document portant le tableau à reconnaître, on s'aperçoit qu'il peut être constitué, non seulement des tableaux, mais aussi d'autres objets tels que des images, du texte, des graphiques, etc. De plus le document devient encore plus complexe lorsque les objets précités font partie intégrante du contenu du tableau à détecter.

Ainsi, Laurentini et Viada4 considèrent que l'identification d'un tableau dans un document complexe contenant du texte, des dessins, des diagrammes, etc. revient à comprendre le

4 Laurentini A. et Viada P., «Identifying and Understanding Tabular material in compound Documents» in IEEE, Torino, 1992, pp 405-409.

15

contenu de ce tableau d'abord avant d'identifier ce dernier en vue de le convertir au format électronique. Plus bas, nous faisons un bref aperçu de la méthodologie proposée par les deux auteurs précités pour y parvenir.

Pereira et ses collaborateurs5, quant à eux, s'intéressent à l'extraction des cellules des formulaires - tableaux se trouvant dans un état détérioré (c'est-à-dire dont les lignes ne sont plus toutes visibles et qui présentent des imperfections liées à l'angle d'inclinaison). Par la suite, ils estiment que la reconnaissance de tels tableaux passe par plusieurs phases de correction d'erreurs.

A l'issue de leur enquête sur les recherches déjà effectuées dans le domaine de la reconnaissance de tableaux, Zanibbi et ses collaborateurs6 trouvent que le problème de la reconnaissance de tableaux peut être envisagé de deux manières différentes, à savoir : la détermination de leurs structures physiques et la détermination de leurs structures logiques. C'est ainsi qu'ils distinguent la reconnaissance de tableau en détection de tableau et en reconnaissance de la structure du tableau. Afin de concilier les diverses approches qu'ils avaient rencontrés en reconnaissance de tableaux, Zanibbi et ses collaborateurs proposent un procédé de reconnaissance de tableaux faisant la synthèse de tous les autres.

Pour Shin et Guerette7, l'extraction des informations sur les structures des tableaux dans un document constitue une étape primordiale dans le processus de reconnaissance de tableaux. Ces deux auteurs estiment donc que la détection des lignes verticales et horizontales entre les blocs de texte permettrait l'identification complète du tableau. Ils proposent ainsi une méthodologie basée sur la « croissance des régions » afin de localiser les « boîtes limitatrices » autour du texte dans le document contenant le tableau à reconnaître.

A leur tour, Kawanaka et ses collaborateurs8 s'intéressent à l'extraction de la structure de tableaux à l'aide d'un modèle de document. Ils ajoutent aussi la possibilité d'exporter les informations extraites du document vers le format XML (génération d'un document XML). Comme nous allons le remarquer dans la suite, la méthode qu'ils proposent s'avère être basée sur une connaissance à priori du tableau à reconnaître.

5 Pereira L. et al., Recognition of deteriorated Table-form Documents: A New Approach, UFCG, Brazil, 2000, p 1.

6 Zanibbi R. et al., A Survey of Table Recognition: Models, Observations, Transformations and Inferences, SC, Queen's University, Ontario, 2003, pp 5-33.

7 Shin J. et Guerette N., «Table Recognition and Evaluation» in Proceedings of the class of 2005 Senior Conference, DCSSC, Swarthmore, 2005, pp 8-13.

8 Kawanaka H. et al., Document Recognition and XML Generation of Tabular Form Discharge summaries for Analogous case Search System in Methods of Inf med 6, Mie University, Mie, 2007, pp 700-708.

16

Dans une « approche ouverte vers l'analyse comparative des systèmes de reconnaissance de structure de tableaux », Shahab9, Shafait, Kieninger et Dengel, quant à eux, pensent qu'une analyse comparative des différentes approches jusque là réalisées en reconnaissance des tableaux est nécessaire pour résoudre le problème de reconnaissance de la structure des tableaux ainsi que leur reconstitution.

Chen et Lopresti10 s'intéressent à la détection des tableaux dans les documents manuscrits non lignés et contenant beaucoup de bruits. Ainsi posent-ils le problème d'identification des régions d'un tableau dans un document manuscrit. Et, pour résoudre ce problème, ils proposent un algorithme utilisant les classificateurs SVM11 et la programmation dynamique.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Aux âmes bien nées, la valeur n'attend point le nombre des années"   Corneille