WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Algorithmes évolutionnaires dans les systèmes de parole

( Télécharger le fichier original )
par Mohamed Oulmahdi
Université Aberrahmane Mira de BéjaàŻa Algérie - Master recherche informatique 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.3 Traitement de la parole

Les technologies de traitement de la parole recouvrent différents domaines d'application. On distingue essentiellement la synthèse vocale et la reconnaissance vocale. Cependant, dans la plupart des applications courantes, ces deux techniques sont sou-vent associées[72]. L'identification et la vérification du locuteur font aussi partie du domaine de traitement de la parole.

La synthèse vocale peut être définie comme la communication de la machine à l'homme. La synthèse vocale recouvre tous les aspects liés à l'interprétation, par la machine, du langage humain. Dans les applications de reconnaissance vocale on distingue les systèmes de commandes vocales et les systèmes de dictée.

Les systèmes de commande vocale permettent à l'utilisateur de contrôler des équipements. Certaines applications ne permettent que le contrôle par un nombre limités de mots ou de courtes phrases. D'autres systèmes permettent à l'utilisateur de s'exprimer par des phrases mais sont entrainés à repérer certains mots de la phrase, mots qui se trouvent dans leurs dictionnaires internes et sur lesquels ils basent leurs actions. On trouve aussi d'autres applications beaucoup plus évoluées où l'on peut s'adresser au système en langage naturel.

Les systèmes de dictée constituent le problème le plus difficile à résoudre dans le domaine de reconnaissance vocale[72]. Comme pour les systèmes de commande vocale, il existe des systèmes de reconnaissance discrète dans lesquels l'utilisateur doit parler avec de courtes poses entre chaque mot, et des systèmes à reconnaissance continue qui permettent à l'utilisateur de dicter son texte de façon continue et à une vitesse de locution normale.

La vérification du locuteur consiste à déterminer si un locuteur est bien celui qu'il prétend être. Dans ce type d'applications, il s'agit donc de trancher entre les deux hypothèses soit le locuteur est bien le locuteur autorisé, c'est à dire celui dont l'identité est revendiquée, soit nous avons affaire à un imposteur qui cherche à se faire passer pour un locuteur autorisé. Les applications classiquement envisagées pour la vérification du locuteur correspondent donc à l'idée de "serrure vocale" qui peut être utilisée,

par exemple, pour valider des transactions bancaires effectuées par téléphone, ou pour compléter un dispositif d'accès (à un bâtiment, un système informatique, etc.)

L'identification du locuteur consiste à reconnaître la voix d'un locuteur parmi une population (une base de données) composée de N locuteurs connus. En identification, la réponse apportée n'est plus de type binaire (acceptation ou rejet) comme dans le cas de la vérification puisqu'il est nécessaire de désigner un locuteur parmi un groupe. La sortie du système correspond à l'identité du locuteur de la base de référence qui est la plus "proche" du signal de parole inconnu. Dans cette tâche, on fait l'hypothèse que le signal de parole à identifier est prononcé par l'un des locuteurs de la base de référence (identification en ensemble fermé)

Il est à noter que pour une identification en ensemble ouvert, la combinaison des deux tâches précédentes est nécessaire identification du locuteur le plus probable parmi les locuteurs de la base des données, puis vérification que l'échantillon inconnu a bien été prononcé par le locuteur choisi dans l'étape d'identification.

Pour une application de vérification ou d'identification, il est nécessaire de disposer d'une base de données contenant des enregistrements de référence correspondant à chacun des locuteurs autorisés. En pratique, on ne conserve pour chaque locuteur que les paramètres utiles pour la reconnaissance extraits de ses enregistrements de référence. Ces informations constituent les données de référence du locuteur.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Ceux qui vivent sont ceux qui luttent"   Victor Hugo