WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La reconnaissance optique de tableaux numerises : listes des étudiants inscrits de l'ISP/Bukavu

( Télécharger le fichier original )
par Richard ISHARA
Institut Superieur Pedagogique - Licence 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II.3. LA RECONNAISSANCE EFFECTIVE ET LA METHODE D'EXTRACTION DES DONNEES POUR LES DOCUMENTS TABLEAU-FORMULAIRE( En anglais : AN EFFICIENT RECOGNITION AND DATA

EXTRACTION METHOD FOR TABLE-FORM DOCUMENTS)8(*)

Cette méthode est developpée depuis dans le laboratoire « Workshop on Machine Vision Applications »1996 par les japonais Lin Yu Tseng et Rung-Ching Chent du département de Mathématique appliqué de l'université national de Chung Hsing Taichung en Taiwan.

5) 1. Etude

Dans cette méthodologie de la reconnaissance optique des documents, le système doit d'abord étudier le document pour le reconnaître par après et extraire les données de ses champs.

Le système se base sur la méthode de représentation de segments :

Il faut extraire tous les segments des lignes horizontales, les segments des lignes verticales ainsi que et les segments des lignes penchées ou obliques du document.

Chaque segment de la ligne est représenté par ses deux points terminaux P1(x1, y1) et P2(x2, y2) sachant que les segments sont droits possibles. Pour le segment de la ligne horizontale, le P1 représente le point terminal gauche et p2 le point terminal droit, pour le segment de la ligne vertical P1 représente le point terminal inférieur et P2 le point terminal supérieur ; pour les segments de la ligne penchée, Le P1 représente le point terminal bas et P2 le point terminal supérieur.

Quand les segments des lignes auront été extraits, la question ne rentrera qu'à former le tableau. Ainsi, faudra-t-il vérifier si le tableau formulaire est oblique. Apre que tous les segments de la ligne seraient extraits, l'échelle du document est normalisée à LxH. Alors toutes les coordonnées des points finaux des segments ligne sont normalisées en conséquence.

Tous les segments des lignes horizontales sont assortis par leur mouvement du sommet à le fin de P1 et pour ceux là avec le même mouvement de gauche à droite de y1. Tous les segments de la ligne vertical sont assortis par leur mouvement de gauche à droite de leur P1, et pour ceux ve horizontale, le même mouvement du sommet vers la fin pour X1. Tous les segments de la ligne penchée sont aussi assortis dans le même sens par leur P1, comme c'est le cas des segments des lignes qui seraient horizontales et verticales.

Un document est alors représenté par le nombre des segments de la ligne horizontal, le segment de la ligne verticale, le segment de la ligne penchée et les trois séquences assorties mentionnées ci haut.

Le processus de l'apprentissage est decrit comme suit :

Un document de tableau formulaire est scanné et desobliqué par le processus si c'est nécessaire, trois types des segments de la ligne sont extraits et une représentation de ce document est obtenue. Dans un document la reconnaissance du tableau, il y a trois types des champs à savoir : le champs de nom, le champs des données et le champs mixte. Un champ mixte est une combinaison des champs de nom et de champs des données

Utilisant le segments de la ligne horizontale, le segment de la ligne vertical,

Le segment de la ligne penchée, les points limites de tous les champs peuvent être déterminés.

Avec une analyse de l'intérieur d'un champ, ce champ peut être déterminé pour être un champ de donnée ou de nom/champs mixte.

Les utilisateurs sont aussi demandés à fournir si possible quelques attributs pour chaque champ des données à travers l'interaction de l'interface utilisateur. Cette information peut plus tard aider le logiciel de reconnaissance optique des caractères à reconnaître plus facilement les blocs des textes extraits dans les champs des données.

Nous avons remarqué dans les méthodes devéloppées dans les phrases précédentes que, le reconnaissance des tableaux peut être faite de différentes manières et avons montré quelques unes. Dans le chapitre qui va suivre, nous allons parler d'une autre façon de le faire. Nous allons la présenter et en proposer un algorithme.

* 8 Lin Yu Tseng et Rung-Ching Chent, an efficient recognition and data

extraction method for table-form documents , Département de

Mathématique appliqué,L'université national de Chung Hsing

Taichung en Taiwan,1996.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Piètre disciple, qui ne surpasse pas son maitre !"   Léonard de Vinci