1.5 Processus de traitement
La reconnaissance de la parole est un processus complexe
composé de plusieurs étapes qu'on classe
généralement en trois phases : la phase de prétraitement
qui prépare le signale pour améliorer la qualité du
décodage, la phase de reconnaissance qui
constitue l'étape la plus importante et enfin la phase des
traitements linguistiques de plus haut niveau.
Les premiers succès en reconnaissance vocale ont
été obtenus dans les années 70 à l'aide d'un
paradigme de reconnaissance de mots par l'exemple. L'idée, très
simple dans son principe, consiste à faire prononcer un ou plusieurs
exemples des mots susceptibles d'être reconnus, à les enregistrer
et à les comparer avec le signale à reconnaître. Ce
principe est mieux adapté à la reconnaissance monolocuteur de
mots isolés et à petit vocabulaire. Mais dès que la taille
du vocabulaire devient importante, le principe devient inadapté, sans
prendre en compte la continuité de la parole et la variabilité
des locuteurs.
Pour remédier à ces manques, et concevoir un
système réellement multilocuteur et à plus grand
vocabulaire, il devient nécessaire de mener la reconnaissance sur base
d'unités de parole de plus petite taille (typiquement les
phonèmes). On ne se contente plus alors d'exemples de ces unités,
mais on cherche plutôt à en déduire un model qui sera
applicable à n'importe quelle voix.
1.5.1 Prétraitement
Les prétraitements débutent par un
échantillonnage des signaux, suivi d'une préaccentuation. Le
signal est divisé en fenêtres de longueur entre 20 et 30 ms. Le
signal final est obtenu en multipliant le signal par une fonction de
pondération. La préaccentuation consiste en un filtrage du signal
de la parole pour égaliser les graves et les aigues. D'autres
prétraitements, ayant pour but d'augmenter la robustesse, sont par fois
mis en oeuvre comme par exemple la normalisation des sons ou la soustraction
spectrale qui a pour effet d'éliminer les bruits additifs.
Le choix de la fenêtre est très important. Parmi
les fenêtres utilisées on trouve les fenêtres de Hamming,
Hanning, Blackman ou de Kaiser. Le choix de la fenêtre se fait le plus
souvent en fonction de l'application car les fenêtres présentent
différentes atténuations à des fréquences bien
précises. Cependant, il faut noter que la plupart des systèmes
sont directement conçus sur des fenêtres de Hamming. Les efforts
de conception sont consacrés à d'autres étapes comme
l'extraction des paramètres.[113]
La phase de reconnaissance est représentée par
l'ensemble des processus qui ont pour objet de faire passer le signal de sa
forme acoustique vers une forme linguistique constituée d'unités
phonétiques élémentaires et d'associer à ces
dernières les correspondances linguistiques appropriées. Ces
correspondances seront par la suite pas-
sées au module linguistique pour des traitements de
plus haut niveau. Ces traitements concernent l'analyse lexicale, syntaxique,
sémantique et pragmatique. Tous les traitements linguistiques ne sont
pas présents dans tous les systèmes de reconnaissance, selon le
domaine considéré et selon le besoin, le système peut
exclure un traitement ou un autre.
|