SIGLES ET ABREVIATIONS
ASCII : American Standard Code For Information
Interchange (en français, `' Code standard américain pour
l'échange de l'information»)
HTML : HyperText Markup Language (en
français, `'Langage de balisage hypertexte») ISODATA
: Iterative Self-Organizing Data Analysis Technique yAy! (en
français, Technique d'analyse itérative et auto - organisatrice
des données).
JPEG : Joint Photographic Expert Group (en
français, `'Union des groupes d'experts en photographie»)
KNN : K Nearest Neighbours (en français,
`'K plus proches voisins»)
MS : Microsoft
OCR : Optical Caracter Recognition (en
français, «Réconnaissance optique des
caractères»)
RVB : Rouge Vert Bleu
SVM : Support Vector Machine (en
français, `'Machine à vecteur support»)
XML : eXtensible Markup Langage (en
français, `'Langage de balisage extensible»)
VI
Résumé
La reproduction automatique de la structure des tableaux
contenus sur des documents physiques pose encore un sérieux
problème lors de la réédition de ces documents ; surtout
lorsque ces derniers sont déjà remplis de données. Ce
problème réside dans la détection et la
compréhension de la structure même du tableau
numérisé en vue d'une reproduction de cette structure pour la
réédition du même document.
Le présent travail montre que le problème de
détection et d'extraction de la structure des tableaux peut être
résolu efficacement en utilisant une approche implémentée
avec les réseaux de neurones artificiels, et basée sur les
éléments de structuration d'un tableau. Ces
éléments de structuration sont considérés comme des
exemples d'apprentissage pour le réseau de neurones. Dans le contexte de
ce travail, un tableau est défini comme un ensemble de lignes et de
colonnes et les intersections de ces derniers constituent les cellules du
tableau.
Sachant que la conception de l'architecture d'un réseau
de neurones ne repose sur aucun modèle donné qu'elle est
plutôt heuristique, nous avons donc choisi une architecture qui nous a
semblé convenable et efficace à la résolution de notre
problème de recherche.
Une approche neuronale a été
implémentée et sa performance expérimentée. Les
résultats obtenus nous ont permis de confirmer l'atteinte de nos
objectifs car, la structure du tableau ainsi reproduite (au format MS WORD)
peut être utilisée pour la réédition d'un autre
document tabulaire de même type.
Mots clés : vision par ordinateur,
réseaux de neurones, détection des tableaux, structure des
tableaux.
|