CHAPITRE 4. EXPÉRIMENTATION ET
ÉVALUATION
Notant que ce sous module se déroule dans un temps
d'exécution un peut long.
- Segmentation en caractères :
Suite à la détection des sous-mots et des signes
diacritiques, nous passons à la séparation des caractères.
L'entrée de ce sous module est un mot (sous-mot) issue de la phase de
segmentation précédente. Au cours de la segmentation, nous avons
observé dans certain caractères une sur-segmentation et/ou une
sous-segmentation.
- Sous-segmentation: La sous-segmentation se produit
seulement lors de la segmentation de la ligature " ", comme l'illustre la
figure-4.5. La ligature "Lam Alef" est une combinaison des deux
caractères, "Lam" et "Alef". Cette forme est considérée
comme un seul caractère. Nous avons attribué, à cette
forme, un code distinct qui lui sera associé plus tard à la phase
de reconnaissance.
FIGURE 4.5 - Sous-segmentation du caractère"Lam Alef"
- Sur-segmentation : La sur-segmentation est
observée dans les caractères "Sad" et "Sin" dans leurs
différentes positions. La figure-4.6 présente la sur-segmentation
de ces caractères dans leurs positions initiales. Ce problème a
été également résolu en attribuant à chaque
forme sur-segmentée un code distinct. Il faut prendre soin de ces formes
dans le processus de reconnaissance.
FIGURE 4.6 - Sur-segmentation des caractères " Sad"et "
Sin "
La sur-segmentation est, également, remarquée
dans certains caractères isolés et finals qui se terminent avec
une petite courbe comme le montre la Figure-4.7 (La courbe ignorée est
colorée en jaune). Cette problématique est résolue en
ignorant cette courbe, seulement la première partie du caractère
est prise en considération.
61
CHAPITRE 4. EXPÉRIMENTATION ET
ÉVALUATION
FIGURE 4.7 - Sur-segmentation des caractères
isolés
4.2.3 Extraction des primitives
La définition des primitives lors de l'extraction est
la partie la plus importante dans le système de reconnaissance. Les
chercheurs ont observé que meilleure solution est d'utiliser plusieurs
approches d'extraction afin de donner une meilleure description de la forme
à classer. De ce fait, plusieurs méthodes ont été
utilisées pour représenter les segments de caractères,
dans notre système, comme expliqué dans le chapitre
précédent. Le vecteur des caractéristiques utilisé
pour la reconnaissance de caractères est structuré comme suit
:
- 10 primitives issues du parcours horizontal de l'image de
caractère par une fenêtre glissante;
- 10 primitives issues du parcours vertical de l'image de
caractère par une fenêtre glissante;
- 7 primitives spécifiques à l'écriture
arabe.
Les sept descripteurs de caractère, qui
caractérisent les caractères arabes, sont calculés comme
suit :
- Existence de boucle : Après
application de l'algorithme Floud-fill, les segments de caractères qui
ne comprennent pas des boucles seront complètement colorés, alors
que ceux qui comprennent des boucles seront partiellement colorés et la
couleur de la boucle reste inchangée, comme illustré dans la
figure 4.8.
FIGURE 4.8 - La détection des boucles par l'algorithme
Flood-fill
Afin de normaliser le descripteur d'existence des boucles, le
rapport entre le nombre de pixels qui représentent la boucle et le
nombre de pixels qui représentent le caractère est
calculé. Ce rapport est considéré comme une
caractéristique de description.
62
|