CHAPITRE 1. LA RECONNAISSANCE OPTIQUE DES
CARACTÈRES
1.3.2.1 Segmentation en lignes
Cette étape consiste à détecter les
lignes de texte (Figure-1.9). La méthode la plus courante consiste
à chercher des intervalles, nuls ou minimaux dans l'histogramme de la
projection horizontale de l'image du texte. Cependant, la présence des
points diacritiques complique cette tâche car ces intervalles peuvent
correspondre à l'espace compris entre les mots et leurs points
diacritiques [ERK90]. Ces points peuvent exister au dessus ou au dessous de
mots. Une fusion des lignes est aussi possible à cause des hampes et de
jambes, dans le cas d'un petit interligne. Pour remédier à ces
problèmes, la méthode de séparation des lignes de texte,
consiste à localiser la ligne de base (La ligne qui contient le maximum
de pixel noir) puis à fusionner toutes les lignes qui se trouvent
à proximité de la ligne de base.
FIGURE 1.9 - Segmentation Horizontale [HB02]
1.3.2.2 Segmentation en mots
La méthode la plus utilisée pour la
séparation en PAW4 consiste à chercher les intervalles
nuls dans l'histogramme de projection verticale de l'image de texte (voir
figure-1.10). Cette méthode est adoptée par plusieurs chercheurs
[HB02, ERK90]. Elle ne permet pas de séparer des sous-mots ou les
caractères se chevauchent. Dans ce cas, la détection du PAW se
fait à l'aide d'un parcours de contours de ces derniers et la
détection du contour fermé [TS90]. D'autres chercheurs,
détectent les PAWs soit par parcours de leurs squelettes [WZG09], soit
par étiquetage de leurs composantes connexes.
FIGURE 1.10 - Segmentation verticale [HB02]
4. Peace Of Arabic Word
14
|