1.6 Modèles de reconnaissance
1.6.1 Modèles markoviens
Dans le cadre des modèles markoviens, les unités
acoustiques sont modélisées par des chaînes de Markov
cachées. A chaque état du modèle est associée une
distribution de probabilité modélisant la
généralisation des modèles acoustiques via cet
état.[17]
L'ensemble des paramètres markoviens (états,
matrice de transition...) sont estimés lors d'une phase d'apprentissage.
Les différentes méthodes d'apprentissage permettent, à
partir d'un certain échantillon, de déterminer les
paramètres qui maximisent les probabilités de
génération des unités acoustiques.
Les modèles de reconnaissances markoviens utilisent, en
outre des paramètres habituels, des modèles de langage. Ils
permettent d'estimer la probabilité de production des mots en
connaissant leur historique. Lors de la phase d'apprentissage, on calcule
les probabilités d'apparition des unités à
partir des évènements observés, et de
généralise par la suite ces estimations à des
évènements qui n'ont pas été observés.
A la phase de reconnaissance, le système
génère un ensemble de mots de départ, dits
hypothèses, à partir des informations récoltées
lors de l'apprentissage. Cet ensemble sera modélisé sous forme
d'un graphe ou d'un treillis de mots. Le système explore ce graphe afin
de trouver le chemin qui maximisera la probabilité de correspondance.
Les modèles markoviens sont les plus utilisés
dans le domaine de reconnaissance vocale et constituent un domaine de recherche
très prometteur. Leurs principal problème est la
difficulté de leur intégrer des informations non acoustiques.
1.6.2 Modèles de classification
Dans ce type de modèles, la reconnaissance vocale est
considérée comme un problème de classification
automatique. La classification automatique consiste à attribuer une
parmi un ensemble de classes à chacun des objets à classifier. La
structure des classes et leurs nombre peuvent être connus avant la
classification ou déterminés automatiquement par le
système. Dans le premier cas, on parle de classification
supervisée. Elle repose sur un échantillon de prototypes qui
représentent chacun une classe. Les objets seront en suite
répartis selon les classes auxquelles ils appartiennent. Chaque
unité acoustique représente une classe. Les prototypes sont
constitués manuellement lors d'une phase d'apprentissage. Par la suite,
le modèle estime, pour chaque unité à reconnaître,
sa classe appropriée. Il existe plusieurs méthodes pour estimer
les correspondances phonétiques : les méthodes probabilistes
gaussiennes, les réseaux de neurones, la règle du proche voisin,
mesures de dissimilarité, etc.
La classification a largement été
appliquée à des problèmes similaires comme la
reconnaissance des formes et le recalage des images médicales. On
utilise généralement la méthode du plus proche voisin. En
reconnaissance vocale, c'est plutôt les mesures de dissimilarité
qui sont utilisées. Etant donné que les approches algorithmiques
de classification sont relativement anciennes, ce modèle permet de
profiter de tous les résultats théoriques et les avancées
des travaux en la matière.
|