Reconnaissance des caractères arabes imprimés par l'approche neuro-génétique.

( Télécharger le fichier original )
par Marwa AMARA
Ecole nationale des sciences de l'informatique - Master 2010

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRES

ARABES IMPRIMÉS

Souvent, un noyau carré 3 x 3 est utilisé. [HB02] prouve dans son papier, aprés le test de certains filtres, que le filtre moyenneur donne les meilleurs résultats sur l'écriture arabe.

- Extraction des squelettes : La squelettisation consiste, par définition, à réduire la forme en un ensemble de courbes, appelées "squelettes", tout en respectant la topologie de la forme considérée. Il existe plusieurs algorithmes de squelettisation. Les Templates basés sur les algorithmes de squelettisations de type Marquer-et-Supprimer sont très populaires en raison de leurs fiabilités et leurs efficacités. Ils sont des algorithmes itératifs, qui érodent les couches extérieures de pixel jusqu'à il n'y a plus de couches qui peuvent être supprimées. L'une des manières d'obtenir la squelette est l'algorithme de Stentiford. L'algorithmee Stentiford tend à produire des lignes qui suivent bien les courbes, ce qui entraîne des vecteurs qui reflètent plus exactement l'image originale¹. Il utilise quatre modèles de 3 x 3 pour numériser l'image. La figure ci-dessous montre ces quatre modèles :

FIGURE 3.4 - Modèles utilisés pour numériser une image dans l'algorithme Stentiford L'algorithme de Stentiford fonctionne comme suit :

1. Trouver l'emplacement de pixel (j, i) où les pixels dans l'image correspondent à celui du squelette T1. Avec ce modèle, tous les pixels dans la partie supérieure de l'image sont éliminés en se déplaçant de la gauche vers la droite;

2. Si le pixel central n'est pas un critère d'évaluation, et il a le numéro de la connectivité égale à 1, alors, ce pixel est marqué pour la suppression;

3. Répétez les étapes 1 et 2 pour tous les emplacements de pixels correspondants à T1;

4. Répétez les étapes 1 et 3 pour le reste des modèles : T2, T3 et T4. T2 correspond à des pixels sur le côté gauche de l'objet, déplaçant de bas en haut et de gauche à droite.

1. http :// homepage.ntlworld.com/heatons/softsoft/wintopo/help/html/vectorise.htm

CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRES

ARABES IMPRIMÉS

T3 sélectionne des pixels le long du fond de l'image et se déplace de droite à gauche et du bas vers le haut. T4 localise les pixels sur le côté droit de l'objet, en se déplaçant de haut en bas et de droite à gauche;

5. Définir en blanc les pixels marqués pour la suppression.

3.3.2.2 Segmentation

Après l'extraction de squelette, nous passons à la séparation des caractères,dite auusi segmentation. Notre proposition suppose que les textes ne contiennent pas des ligatures sauf

ces deux types . L'algorithme de segmentation est expliqué dans la figure suivante :

FIGURE 3.5 - Processus de segmentation

- Localisation des lignes de texte : La première étape de la segmentation, après la squelettisation de la page, est la détection de tous les lignes et les segmenter en des lignes séparées. La séparation en lignes se base sur la projection horizontale de l'image de texte [Feh99, HB02]. L'image étant codée sous forme de segments noirs et blancs, l'histogramme de la projection horizontale est calculé par addition des largeurs de segments noirs pour chaque ligne d'image. Les lignes de pixels sont d'abord regroupées en bloc de lignes ayant un histogramme horizontal non nul. Les blocs sont séparés par des lignes de pixels à histogramme nul. L'algorithme suivi pour obtenir des lignes séparées est le suivant :

1. Obtenir la projection horizontale de l'image de la page;

2. Trouver toutes les positions verticales de tous les pics dans la projection horizontale;

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance." Sacha Guitry