CHAPITRE 1. LA RECONNAISSANCE OPTIQUE DES
CARACTÈRES
1.1.1.1 Les systèmes en-lignes
Les systèmes en-lignes reconnaissent le texte en temps
réel. Les symboles sont reconnus en même temps qu'ils sont
écrits à la main. L'écriture est présentée
par un vecteur (x, y) dont les coordonnées sont en fonction du temps.
L'acquisition de l'écriture est assurée par une tablette
graphique équipée d'un stylo électronique. Ce
système est généralement conçu pour la
reconnaissance du manuscrit [Poi05]. Il opère en temps réel
pendant l'écriture.
1.1.1.2 Les systèmes hors-lignes
Les systèmes Hors-lignes démarrent suite
à l'acquisition. Ils servent à la reconnaissance des textes
écrits sur papier après leurs numérisation sous forme
d'image. Les sytèmes Hors-lignes jouent un rôle très
important dans le développement de la société
d'information, puisque la plupart des textes qui nous intéressent
existent sur papier.
Dans la littérature, il existe des systèmes hors
ligne qui reconnaissent le manuscrit et d'autres qui reconnaissent
l'imprimé. Dans le cas du manuscrit, la plus part des caractères
sont ligaturés d'ou la nécessite de l'emploi de techniques de
délimitation spécifiques pour guider la lecture. Les variations
inter et intra-scripteurs sont accentuées par la nature calligraphique
de l'écriture arabe [Ben99]. Nous distinguons trois types de
systèmes de reconnaissance d'écriture qui dépend de ces
variations :
- Monoscripteur : Le système
de reconnaissance peut reconnaître l'écriture d'un seul scripteur
après apprentissage de son écriture;
- Multiscripteur : Le système
de reconnaissance est capable de reconnaître les écritures d'un
groupe restreint de scripteurs soit par aprentissage de leurs écritures,
soit sans apprentissage;
- Omniscripteur : Le système
est capable de reconnaître toutes les écritures. Dans ce type de
système, la variabilité intra-scripteur s'ajoute à la
variabilité inter-scripteur.
Dans le cas de l'imprimé, les caractères sont
souvent séparés verticalement, ce qui simplifie la lecture.
Certaines fontes présentent des accolements qu'il faut défaire.
Dans le cas de l'imprimé la reconnaissance peut être
:
- Monofonte : Le système ne
traite qu'une fonte à la fois. L'apprentissage est simple puisque
l'alphabet représenté est réduit;
- Multifonte : Le système est
peut reconnaître un mélange de fontes parmi un ensemble
préalablement apprises. Le prétraitement doit, alors,
réduire les écarts entre
6
|