CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE
DES CARACTÈRES
ARABES IMPRIMÉS
reconstruire un sous-mot selon les positions de segments de
caractères dans l'image de sous-mot. Certains segments de
caractères peuvent être des sous-mots.
- Reconnaissance des lignes : Les
lignes de texte en arabe sont composées des mots où chaque mot
est composé d'un ou plusieurs sous-mots. Dans un texte arabe
imprimé,
la taille d'espace inter-mots est supérieure à
celui de l'espace entre les sous-mots.
FIGURE 3.10 - Détection des espaces dans une ligne
Par conséquent, il existe une valeur de seuil qui peut
être utilisé pour établir une distinction entre l'espace
inter-mots et l'espace inter-sous mot. Un algorithme simple est utilisé
pour déterminer cette valeur seuil. Cet algorithme passe par les
étapes suivantes :
1. Déterminer toutes les distances des espaces au sein
d'une ligne;
2. Disposer ces distances dans l'ordre décroissant;
3. Obtenir la différence entre chacune des deux valeurs
successives;
4. Obtenir la différence maximale;
5. Obtenir les deux distances d'espaces donnant cette
différence maximale;
6. Considérer la plus grande valeur de ces deux distances
comme la valeur de seuil.
Une fois que la valeur seuil est obtenue, les mots et les
sous-mots sont alignés sur une seule ligne, et les espaces blanc sont
insérés entre eux selon ce seuil.
- Reconnaissance de la page :
Après la reconnaissance des lignes, elles sont toutes
regroupées dans un texte selon la position de chaque ligne dans l'image
de page originale.
3.3.2.6 Post traitement
Afin de vérifier l'exactitude des mots et sous-mots
reconnus, un modèle prédéfini vocabulaire est
utilisé. L'existence de chaque mot (ou sous-mot) est
vérifiée dans le vocabulaire. Si un mot n'est pas trouvé,
il est remplacé par le mot le plus proche dans le vocabulaire.
55
|