CHAPITRE 1. LA RECONNAISSANCE OPTIQUE DES
CARACTÈRES
- La segmentation implicite ou interne:
La segmentation et la reconnaissance sont effectuées
simultanément. La reconnaissance des caractères se fait sur des
hypothèses de segmentation le long de l'axe horizontal du mot. Il existe
plusieurs techniques de segmentation interne telles que la fenêtre
glissante-SWS3 qui consiste à faire balayer une fenêtre
de largeur fixe le long de l'image indiquant pour chaque position le
caractère le plus probable.
Les méthodes analytiques, par opposition aux
méthodes globales, sont envisageables dans le cas de reconnaissances de
grand vocabulaire. Elles s'adaptent facilement au changement de vocabulaire.
Elles ne sont pas couteuse en mémoire et en temps de calculs car la
complexité en mémoire ne dépend pas de la taille de
vocabulaire. Cependant, la reconnaissance du mot se base sur la reconnaissance
de caractères. Si un caractère est mal reconnu, le mot l'est
aussi. Il existe des travaux qui combinent les deux approches globales et
analytiques tels que [AAM06].
Les caractères arabes se différencient des
autres écritures par leurs modes de liaison pour la formation des mots.
Cette particularité rend les travaux développés pour les
caractères latins et chinois difficilement applicables pour l'arabe.
L'écriture arabe a plusieurs autres spécificités que nous
citons ci-après
1.2 Caractéristiques de l'écriture
arabe
L'arabe est parlé par environ 250 millions de
personnes. IL est écrit par plus de 100 millions de gens, dans plus de
20 pays différents . L'alphabet arabe est utilisé dans plusieurs
langages tels que le Persan (Farsi) et l'Urdu (langage national du Pakistan).
Il existe deux variantes de la langue arabe. L'arabe littéraire, qui es
très proche de la langue du Coran. Il est utilisé essentiellement
à l'écrit. Il est commun à tous les pays arabes. Et
l'arabe dialectal qui varie d'un pays à l'autre. Dans ce qui suit, nous
exposons une synthèse des particularités morphologiques de
l'arabe :
- L'arabe est une écriture consonantique qui utilise un
alphabet de 28 lettres auxquels il faut ajouter le hamza qui est le plus
souvent utilisé comme un signe complémentaire.
Le hamza peut s'écrire seul ou sur le support de voyelles
( ). L'alphabet arabe
3. Sliding Window Segmentation
|