WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Caractérisation et extraction informatique de la structure d'un tableau par une méthode implémentant un réseau de neurones

( Télécharger le fichier original )
par Pacifique BISIMWA MUGISHO
Institut Supérieur Pédagogique - Licence en Informatique de Gestion 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Abstract

The automatic reproduction of table's structure on physical documents still remain a serious problem during the repetition of these documents; especially when these last are already filled of data. This problem resides in the detection and the understanding of table's structure in digital picture in view of a reproduction of this structure for the repetition of the same document.

The present work shows that the problem of detection and extraction of table's structure can be solved efficiently while using an implemented approach with the artificial neural networks, and based on structuring elements of a table. These structuring elements are

VII

considered as examples of training for the neural network. In the context of this work, a table is defined as a set of lines and columns and intersections of these last constitute cells of the table.

Knowing that the conception of the architecture of a neural network doesn't rest on any given model that it is rather heuristic, we chose an architecture that seemed to us appropriate and efficient to the resolution of our research problem therefore.

A neural approach has been implemented and its performance experienced. The gotten results permitted us to confirm the reach of our objectives because, the structure of the table thus reproduced (to MS WORD format) can be used in the same way for the repetition of another tabular document type.

Keywords: computer vision, neural networks, table detection, table structure

8

0. INTRODUCTION

0.1. Problématique

La reconnaissance de formes figure parmi les champs d'application les plus intéressantes de l'Intelligence Artificielle dont la visée principale est de réaliser, par modélisation, une imitation du fonctionnement de l'Intelligence de l'homme dans le but de faciliter la tâche de ce dernier.

Or, entre la manière de réfléchir de l'homme et le fonctionnement quasi - intelligent de la machine, il s'avère qu'il existe une certaine différence. Cette dernière est rendue visible par le fossé (non moins profond) qui existe entre le terrain du raisonnement réflexif humain et la logique déductive de l'automate programmable qu'est l'ordinateur. A titre illustratif, pour reconnaître le(s) tableau(x) figurant sur un document, l'oeil humain n'éprouve aucune difficulté (bien entendu si son processeur est en bonne santé !). Par contre, pour un ordinateur, cette reconnaissance ne sera pas possible tant qu'aucune indication sur la marche à suivre ne lui sera fournie.

Néanmoins, par ses capacités sans cesse croissantes (à cette époque où la technologie évolue à une très grande vitesse), l'ordinateur se comporte mieux par rapport au traitement avec vélocité d'une grande quantité de données et au stockage de ces dernières.

C'est ainsi que, toujours dans sa course de gain de temps, l'être humain fera toujours recours à l'ordinateur pour, par exemple, extraire des données se trouvant sur un grand nombre de documents. Dans ce cas, il est évident que l'homme peut utiliser la reprographie ou la saisie manuelle pour obtenir une copie des données se trouvant sur les documents originaux. Cependant, lorsqu'il voudra réutiliser ces données pour divers autres traitements informatiques (dans le cas d'une analyse ou d'une synthèse de ces données, par exemple), il sera alors contraint de ressaisir les données sont il a besoin ; ce qui lui rendra encore la tâche beaucoup plus fastidieuse lorsqu'il s'agît d'un grand nombre de documents à saisir. Ce même problème s'observe aussi dans le cas de la conservation électronique des archives et documents anciens sur papier.

Dans cette situation, la reconnaissance automatique de ces documents par l'ordinateur lui serait d'un grand secours en ce sens que l'ordinateur pourra «reconnaître » les éléments figurant sur chaque document et les mémoriser en tant que tels dans une base de données en vue de leur traitement ou leur utilisation ultérieure.

9

10

Il est vrai qu'une avancée non moins significative a déjà été réalisée dans le domaine de la reconnaissance de documents numérisés. C'est à ce titre que l'on peut trouver actuellement quelques systèmes de reconnaissance optique de caractères (OCR), de reconnaissance d'écriture manuscrite, etc. Cependant, il n'en demeure pas moins vrai que, dans la reconnaissance des tableaux, malgré les travaux qui ont déjà été effectués, il persiste encore des zones d'ombre qui empêchent la formalisation et l'objectivation à la fois théorique et pratique de cet autre sous - domaine de la reconnaissance de formes.

Ainsi, quoi de plus naturel que d'aborder ce champ d'application de l'Intelligence Artificiel si intéressant et si utile qu'est la reconnaissance de tableaux ?

En fait, dans la reconnaissance de tableaux, on bute d'emblée sur la difficulté à reconnaître la structure même d'un tableau donné. Cela demeure d'autant plus vrai que, si pour un être humain c'est facile de dire, du premier coup d'oeil, que tel tableau possède autant de lignes et autant de colonnes, cela n'est pas du tout évident pour un ordinateur qui, rappelons - le, n'est qu'un automate programmable sans capacités réelles de réflexion propre.

A titre illustratif, prenons le cas d'un secrétaire qui a la tâche de concevoir et de reproduire des documents administratifs complexes tels que des documents tabulaires, des formulaires, etc. A supposer qu'il vient de perdre son ordinateur qui contenait toute sa banque de données (documents administratifs et autres) et qu'il est dans l'urgence de concevoir un formulaire administratif vierge qui serait difficile ou presque impossible à reproduire rapidement parce qu'il se présente sous forme d'un tableau très complexe. Bien qu'il possède un exemplaire physique (déjà rempli !) du document, notre secrétaire se trouvera paralysé devant l'impossibilité de reproduire ce document dans un bref délai.

Dans une telle situation, le problème de ce secrétaire consistera donc à savoir :

- Comment reproduire rapidement la structure du tableau sans avoir à le redessiner manuellement ?

- Comment extraire et conserver cette structure d'un document physique que l'on possède en vue d'une reproduction diligente et ultérieure ?

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Aux âmes bien nées, la valeur n'attend point le nombre des années"   Corneille