CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE
DES CARACTÈRES
ARABES IMPRIMÉS
3. Obtenir les pics représentant les positions des lignes
de base de lignes dans la page;
4. Chercher au-dessus de chaque ligne de base
détectée la plus faible densité de pixels, et marquer
cette position comme la limite supérieure de la ligne (X1);
5. Rrechercher la position au dessous de la ligne de base la
plus basse densité de pixels, et la marquer comme la limite
inférieure de la ligne (X2);
6. Répétez l'opération pour chaque ligne
de base détectée.
- Segmentation en mots /sous-mots
: Après la séparation des lignes,
nous passons à la localisation des sous mots (ou mots) et des points
diacritiques. [EI01] proposent la méthode Bounding Box pour
l'obtention des sous mots et des points diacritiques séparés.
L'algorithme utilisé pour obtenir les composantes connexes est une
simple procédure itérative qui compare les lignes par balayages
successives des lignes de l'image afin de déterminer si les pixels noirs
dans n'importe quelle paire de lignes sont connectés ensemble. Les
rectangles de délimitation sont étendus pour inclure tout
regroupement de pixels noirs connectés par balayage successives des
lignes. La figure suivante décrit les étapes suivies pour la
lettre »Ta» :
FIGURE 3.6 - Processus de construction des composantes
connexes à partir de balayage de lignes d'image »Ta»
L'algorithme, comme illustré dans la figure ci-dessus, est
le suivant :
48
CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE
DES CARACTÈRES
ARABES IMPRIMÉS
1. Tout d'abord, tous les pixels noirs sont scannés et
représentés par un petit rectangle;
2. Dans chaque rangée, les limites qui se croisent sont
fusionnées en un seul rectangle;
3. De même, les limites qui se croisent verticalement sont
fusionnées en un seul rectangle;
4. Les étapes [2] et [3] sont
répétées jusqu'à ce qu'aucune autre fusion ne soit
possible.
La distinction entre les sous-mots et les signes diacritiques
se fait simplement en vérifiant si la ligne base passe par une
boîte englobant ou non. Si la boite englobante est située sur la
ligne de base alors c'est un sous-mot, si non c'est un signe diacritique.
- Segmentation en caractères
: Nous avons utilisé une méthode
simple pour la séparation des caractères. C'est l'histogramme de
projection verticale. La plupart des caractères arabes se connectent le
long de la ligne de base principale. Les caractères causent une
irrégularité dans l'histogramme de projection verticale.
L'étape de segmentation de caractères tente à segmenter
chaque sous-mot à un certain nombre de segments. Chaque segment peut
représenter une seule lettre arabe ou seulement une partie d'une lettre
arabe (graphème). La segmentation d'un sous-mot est
réalisée en quatre étapes principales :
1. Retirez tous les signes diacritiques existants dans le
sous-mot; Comme tous les composants étaient précédemment
classés en sous-mots et signes diacritiques. La suppression des signes
diacritiques se réalise en effaçant tous les pixels à
l'intérieur des boîtes englobant qui ont été
classés comme signes diacritiques;
2. Analyser chaque colonne de pixels dans l'image du
sous-mot. Si une colonne de pixels comprend un seul pixel qui se trouve sur la
ligne de base inférieure, marquer ce point comme un des points où
il est possible de faire une coupe de segmentation;
3. Obtenir la projection verticale de l'image sous-mot.
Rechercher tous les pics dans la projection et marquer leurs positions comme
des positions où la segmentation est nécessaire. Ce sont des
positions où l'irrégularité dans le texte se produit et
indique la détection d'un nouveau caractère;
4. A chaque position où la segmentation est
nécessaire, nous recherchons dans la direction droite le point le plus
proche où il est acceptable d'appliquer une coupe. La segmentation, est
donc faite à cette position.
Notez qu'une coupe de segmentation est faite au plus gauche de
sous-mot et que tout sous-mot doit inclure au moins un segment.
|