CHAPITRE 1. LA RECONNAISSANCE OPTIQUE DES
CARACTÈRES
les caractères (taille, épaisseur et
inclinaison). De même, l'apprentissage doit gérer les
ressemblances de caractères des différentes fontes;
- Omnifonte : Le système est
capable de reconnaître toutes fontes sans l'avoir apprise.
1.1.2 Approche de reconnaissance
La nature des textes à reconnaitre permet de
différencier deux principales approches de reconnaissance : l'approche
globale et l'approche analytique.
1.1.2.1 Approche globale
Elle est dite encore holistique. Ce type d'approche
considère le mot comme une entité à reconnaitre. La
reconnaissance générale des mots se base sur une description
unique de toute l'image du mot. Cette approche présente l'avantage que
la reconnaissance se fait sans prise de décision préalable. Elle
est très rapide pour un vocabulaire réduit. L'étape de
post-traitement n'est plus nécessaire dans ce cas vu la nature de
l'approche. Cependant, cette approche est pénalisée par la taille
de mémoire, le temps de calcul et la complexité du traitement qui
croient linéairement avec la taille du vocabulaire. Elle
présente, aussi, la difficulté de discrimination entre les mots
qui ont une orthographe proche. L'apprentissage nécessite un très
grand nombre d'échantillon de mots. De plus, un changement de
vocabulaire nécessite l'apprentissage de tous les nouveaux mots. BEN
AMARA et BEL AID utilisent une approche globale basée sur les
MMCs2 pour la reconnaissance des mots arabes imprimés
[Ben99].
1.1.2.2 Approche analytique
Dans cette approche les mots sont segmentés en
caractères ou fragments inférieurs aux caractères
appelés graphèmes. La reconnaissance débute par
reconnaitre ces entités, puis, tend vers une reconnaissance des mots. Un
processus de reconnaissance, selon cette approche, est basé sur une
alternance de phase de segmentation et la phase d'identification des segments
[Ken73]. Deux procédures de segmentation sont possibles:
- La segmentation explicite ou externe
Le mot est segmenté en caractères ou en
graphèmes. Les caractères sont trouvés par
concaténation des graphèmes, de même les mots sont
trouvés par concaténation des caractères. Une autre
solution est utilisée. C'est la segmentation en caractère. La
plupart des techniques utilisées pour cette segmentation en
caractères dérivent des techniques utilisées pour la
segmentation en graphèmes. Elles sont adoptées de manière
de ne pas couper les caractères soit par des règles heuristiques
soit par une estimation de la hauteur de l'écriture et il suppose une
certaine relation entre la hauteur et la largeur moyenne des caractères
[Feh99].
2. Modèle de Markov Caché
7
|