Algorithmes évolutionnaires dans les systèmes de parole

( Télécharger le fichier original )
par Mohamed Oulmahdi
Université Aberrahmane Mira de Béjaà¯a Algérie - Master recherche informatique 2011

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.5.3 Représentation du signal de la parole

Le codage prédictif linéaire Il repose sur l'hypothèse de linéarité du processus de production de la parole. Chaque échantillon peut être prédit à partir d'une pondération linéaire d'un nombre fini d'échantillons précédents, étant donné que la forme du conduit vocale n'évolue pas rapidement.

Le codage prédictif linéaire est largement utilisé en traitement de la parole notamment en transmissions. Le model est de plus facile à mettre en oeuvre dans les systèmes à temps réel. Ce model par définition ne prend pas en charge les phénomènes non linéaire, et de plus, il n'est pas optimisé pour la tâche de reconnaissance. En effet, des travaux ont montré qu'il est possible de mettre en oeuvre une meilleure représentation, et on fait naissance à des modèles plus optimisés comme la prédiction linéaire perceptive, la prédiction linéaire perceptive RASTH, le codage WLPC...

Le codage cepstrale la représentation cepstrale est une représentation non paramétrique : elle ne fait pas intervenir de model comme le cas du codage linéaire. On obtient le cepstre en appliquent une transformée de Fourrier au signal, calculer le logarithme du résultat, à qui on applique en fin une transformée de Fourrier inverse.

Le cepstre possède plusieurs propriétés intéressantes qui en font une représentation efficace. Parmi ces propriétés, le logarithme qui permet par un procédé de filtrage l'élimination des effets convolutifs dans le domaine temporel. En effet, grâce à la fonction logarithmique, les bruits deviennent additifs et une simple soustraction (soustraction cepstrale) permet l'annulation de ces bruits.

Le codage MFCC (Mel Frequency Cepstral Coding) C'est la technique de codage la
plus utilisée en traitement de la parole. Elle intègre la notion de bancs de filtres qui

sont déployés non par une échelle en Hz mais sur une échelle non linéaire : l'échelle de Mel. Cette échelle est issue de la connaissance sur la perception humaine. La résolution perceptive des fréquences diffère selon qu'on écoute des sons de basses ou de hautes fréquences.

Le codage MFCC représente la référence des procédés d'extraction de caractéristiques, et toutes les méthodes proposées doivent s'y comparer.[113]

FIGURE 1.3 - Echelle de Mel

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Je voudrais vivre pour étudier, non pas étudier pour vivre" Francis Bacon