WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Algorithmes évolutionnaires dans les systèmes de parole

( Télécharger le fichier original )
par Mohamed Oulmahdi
Université Aberrahmane Mira de BéjaàŻa Algérie - Master recherche informatique 2011
  

précédent sommaire suivant

Extinction Rebellion

1.5.3 Représentation du signal de la parole

Le codage prédictif linéaire Il repose sur l'hypothèse de linéarité du processus de production de la parole. Chaque échantillon peut être prédit à partir d'une pondération linéaire d'un nombre fini d'échantillons précédents, étant donné que la forme du conduit vocale n'évolue pas rapidement.

Le codage prédictif linéaire est largement utilisé en traitement de la parole notamment en transmissions. Le model est de plus facile à mettre en oeuvre dans les systèmes à temps réel. Ce model par définition ne prend pas en charge les phénomènes non linéaire, et de plus, il n'est pas optimisé pour la tâche de reconnaissance. En effet, des travaux ont montré qu'il est possible de mettre en oeuvre une meilleure représentation, et on fait naissance à des modèles plus optimisés comme la prédiction linéaire perceptive, la prédiction linéaire perceptive RASTH, le codage WLPC...

Le codage cepstrale la représentation cepstrale est une représentation non paramétrique : elle ne fait pas intervenir de model comme le cas du codage linéaire. On obtient le cepstre en appliquent une transformée de Fourrier au signal, calculer le logarithme du résultat, à qui on applique en fin une transformée de Fourrier inverse.

Le cepstre possède plusieurs propriétés intéressantes qui en font une représentation efficace. Parmi ces propriétés, le logarithme qui permet par un procédé de filtrage l'élimination des effets convolutifs dans le domaine temporel. En effet, grâce à la fonction logarithmique, les bruits deviennent additifs et une simple soustraction (soustraction cepstrale) permet l'annulation de ces bruits.

Le codage MFCC (Mel Frequency Cepstral Coding) C'est la technique de codage la
plus utilisée en traitement de la parole. Elle intègre la notion de bancs de filtres qui

sont déployés non par une échelle en Hz mais sur une échelle non linéaire : l'échelle de Mel. Cette échelle est issue de la connaissance sur la perception humaine. La résolution perceptive des fréquences diffère selon qu'on écoute des sons de basses ou de hautes fréquences.

Le codage MFCC représente la référence des procédés d'extraction de caractéristiques, et toutes les méthodes proposées doivent s'y comparer.[113]

FIGURE 1.3 - Echelle de Mel

précédent sommaire suivant






Extinction Rebellion





Changeons ce systeme injuste, Soyez votre propre syndic





"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle