1.3 Traitement de la parole
Les technologies de traitement de la parole recouvrent
différents domaines d'application. On distingue essentiellement la
synthèse vocale et la reconnaissance vocale. Cependant, dans la plupart
des applications courantes, ces deux techniques sont sou-vent
associées[72]. L'identification et la vérification du locuteur
font aussi partie du domaine de traitement de la parole.
La synthèse vocale peut être définie comme
la communication de la machine à l'homme. La synthèse vocale
recouvre tous les aspects liés à l'interprétation, par la
machine, du langage humain. Dans les applications de reconnaissance vocale on
distingue les systèmes de commandes vocales et les systèmes de
dictée.
Les systèmes de commande vocale permettent à
l'utilisateur de contrôler des équipements. Certaines applications
ne permettent que le contrôle par un nombre limités de mots ou de
courtes phrases. D'autres systèmes permettent à l'utilisateur de
s'exprimer par des phrases mais sont entrainés à repérer
certains mots de la phrase, mots qui se trouvent dans leurs dictionnaires
internes et sur lesquels ils basent leurs actions. On trouve aussi d'autres
applications beaucoup plus évoluées où l'on peut
s'adresser au système en langage naturel.
Les systèmes de dictée constituent le
problème le plus difficile à résoudre dans le domaine de
reconnaissance vocale[72]. Comme pour les systèmes de commande vocale,
il existe des systèmes de reconnaissance discrète dans lesquels
l'utilisateur doit parler avec de courtes poses entre chaque mot, et des
systèmes à reconnaissance continue qui permettent à
l'utilisateur de dicter son texte de façon continue et à une
vitesse de locution normale.
La vérification du locuteur consiste à
déterminer si un locuteur est bien celui qu'il prétend
être. Dans ce type d'applications, il s'agit donc de trancher entre les
deux hypothèses soit le locuteur est bien le locuteur autorisé,
c'est à dire celui dont l'identité est revendiquée, soit
nous avons affaire à un imposteur qui cherche à se faire passer
pour un locuteur autorisé. Les applications classiquement
envisagées pour la vérification du locuteur correspondent donc
à l'idée de "serrure vocale" qui peut être
utilisée,
par exemple, pour valider des transactions bancaires
effectuées par téléphone, ou pour compléter un
dispositif d'accès (à un bâtiment, un système
informatique, etc.)
L'identification du locuteur consiste à
reconnaître la voix d'un locuteur parmi une population (une base de
données) composée de N locuteurs connus. En identification, la
réponse apportée n'est plus de type binaire (acceptation ou
rejet) comme dans le cas de la vérification puisqu'il est
nécessaire de désigner un locuteur parmi un groupe. La sortie du
système correspond à l'identité du locuteur de la base de
référence qui est la plus "proche" du signal de parole inconnu.
Dans cette tâche, on fait l'hypothèse que le signal de parole
à identifier est prononcé par l'un des locuteurs de la base de
référence (identification en ensemble fermé)
Il est à noter que pour une identification en ensemble
ouvert, la combinaison des deux tâches précédentes est
nécessaire identification du locuteur le plus probable parmi les
locuteurs de la base des données, puis vérification que
l'échantillon inconnu a bien été prononcé par le
locuteur choisi dans l'étape d'identification.
Pour une application de vérification ou
d'identification, il est nécessaire de disposer d'une base de
données contenant des enregistrements de référence
correspondant à chacun des locuteurs autorisés. En pratique, on
ne conserve pour chaque locuteur que les paramètres utiles pour la
reconnaissance extraits de ses enregistrements de référence. Ces
informations constituent les données de référence du
locuteur.
|