WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Algorithmes évolutionnaires dans les systèmes de parole

( Télécharger le fichier original )
par Mohamed Oulmahdi
Université Aberrahmane Mira de BéjaàŻa Algérie - Master recherche informatique 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.7 Application dans les systèmes de parole

Les algorithmes évolutionnaires ont été appliqués avec succès dans de nombreux domaines d'optimisation mono et multi-objectif, économie et finances, biologie, robotique, médecine etc 2. Dans certaines applications, les algorithmes évolutionnaires ont pu fournir des résultats qui n'ont jamais été obtenus avec d'autres méthodes (le meilleur résultat pour le PVC a été obtenu avec un algorithme génétique).

2. Voir [148] pour une liste exaustive

Cependant, leur usage dans le domaine de traitement de la parole est très restreint, notamment dans le processus de reconnaissance proprement dit. Les résultats théoriques, à leur tour sont pratiquement inexistants : aucun model évolutionnaire n'a été définie pour le problème de reconnaissance. Les algorithmes évolutionnaires sont utilisés soit comme des méthodes d'optimisation pour d'autres modèles (comme le model HMM), soit comme des model de traitement secondaires (comme l'adaptation au locuteur). Et dans la plupart des cas, ce sont des algorithmes génétiques qui sont utilisés.

Les premiers travaux ont porté sur l'adaptation des systèmes aux variations phonétiques et à l'amélioration de leur robustesse[11]. Des stratégies d'évolution et des algorithmes génétiques ont été hybridés avec des réseaux de neurones pour augmenter la robustesse des systèmes de reconnaissance aux variabilités dues à l'environnement. Les réseaux de neurones font partie des réseaux adaptatifs non linéaires[115]. L'idée principale est d'utiliser un algorithmes évolutionnaires pour se situer dans des espaces de recherche globaux et prometteurs, et d'utiliser un réseau de neurone pour rechercher des optima locaux. L'apport des algorithmes évolutionnaires était dans le fait que la diversité de la population ainsi que sa taille sont les facteurs clé pour une bonne adaptation aux environnements qui changent rapidement.

D'autres travaux ont essayé d'adapter les paramètres du modèle acoustique avant le début de la reconnaissance avec un algorithme génétique[139]. Il s'agit principalement de remédier aux problèmes relatifs aux changements des paramètres du signal acoustique tels que la fréquence d'échantillonnage et le débit binaire. Les paramètres du signal à reconnaître ne sont pas nécessairement les mêmes que ceux du signal d'apprentissage, et une adaptation devient dès lors nécessaire. Le principe est d'associer à chaque vecteur source une matrice de transformation, et à chaque caractère d'un individu une probabilité de mutation. Ces individus seront sélectionnés selon les taux de transformation obtenu avec les vecteurs sources transformés, comparés au model acoustique cible.

Dans les model a base de DTW, une idée consiste à remplacer la programmation dynamique par un algorithme génétique pour estimer les différences cumulées entre les vecteur[155, 156]. La population est un ensemble de chemins qui seront combinés et filtrés jusqu'à aboutir à un chemin optimal.

Les techniques récentes de la vérification du locuteur reposent de plus en plus sur des approches multi codeurs. Un algorithme génétique a été mis en oeuvre pour optimiser la complémentarité entre les codeurs.[22]

Un algorithme génétique a aussi été utilisé en coopération avec un réseau de neurones pour la segmentation et le regroupement du locuteur. Il s'agit d'identifier les segments du signal produits par le même locuteur. Elle a pour objectif de détecter les moments de changement du locuteur. Elle est suivie d'une étape de regroupement qui consiste à étiqueter les segments obtenus en fonction des locuteurs. Son domaine d'intérêt est essentiellement dans l'indexation des documents sonores.[29]

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Enrichissons-nous de nos différences mutuelles "   Paul Valery