Reconnaissance des caractères arabes imprimés par l'approche neuro-génétique.( Télécharger le fichier original )par Marwa AMARA Ecole nationale des sciences de l'informatique - Master 2010 |
CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRESARABES IMPRIMÉS Souvent, un noyau carré 3 x 3 est utilisé. [HB02] prouve dans son papier, aprés le test de certains filtres, que le filtre moyenneur donne les meilleurs résultats sur l'écriture arabe. - Extraction des squelettes : La squelettisation consiste, par définition, à réduire la forme en un ensemble de courbes, appelées "squelettes", tout en respectant la topologie de la forme considérée. Il existe plusieurs algorithmes de squelettisation. Les Templates basés sur les algorithmes de squelettisations de type Marquer-et-Supprimer sont très populaires en raison de leurs fiabilités et leurs efficacités. Ils sont des algorithmes itératifs, qui érodent les couches extérieures de pixel jusqu'à il n'y a plus de couches qui peuvent être supprimées. L'une des manières d'obtenir la squelette est l'algorithme de Stentiford. L'algorithmee Stentiford tend à produire des lignes qui suivent bien les courbes, ce qui entraîne des vecteurs qui reflètent plus exactement l'image originale1. Il utilise quatre modèles de 3 x 3 pour numériser l'image. La figure ci-dessous montre ces quatre modèles : 45 FIGURE 3.4 - Modèles utilisés pour numériser une image dans l'algorithme Stentiford L'algorithme de Stentiford fonctionne comme suit :
1. http :// homepage.ntlworld.com/heatons/softsoft/wintopo/help/html/vectorise.htm 46 CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRESARABES IMPRIMÉS T3 sélectionne des pixels le long du fond de l'image et se déplace de droite à gauche et du bas vers le haut. T4 localise les pixels sur le côté droit de l'objet, en se déplaçant de haut en bas et de droite à gauche; 5. Définir en blanc les pixels marqués pour la suppression. 3.3.2.2 SegmentationAprès l'extraction de squelette, nous passons à la séparation des caractères,dite auusi segmentation. Notre proposition suppose que les textes ne contiennent pas des ligatures sauf ces deux types . L'algorithme de segmentation est expliqué dans la figure suivante : FIGURE 3.5 - Processus de segmentation - Localisation des lignes de texte : La première étape de la segmentation, après la squelettisation de la page, est la détection de tous les lignes et les segmenter en des lignes séparées. La séparation en lignes se base sur la projection horizontale de l'image de texte [Feh99, HB02]. L'image étant codée sous forme de segments noirs et blancs, l'histogramme de la projection horizontale est calculé par addition des largeurs de segments noirs pour chaque ligne d'image. Les lignes de pixels sont d'abord regroupées en bloc de lignes ayant un histogramme horizontal non nul. Les blocs sont séparés par des lignes de pixels à histogramme nul. L'algorithme suivi pour obtenir des lignes séparées est le suivant :
47 |
|