1.5.3 Représentation du signal de la parole
Le codage prédictif linéaire Il
repose sur l'hypothèse de linéarité du processus de
production de la parole. Chaque échantillon peut être
prédit à partir d'une pondération linéaire d'un
nombre fini d'échantillons précédents, étant
donné que la forme du conduit vocale n'évolue pas rapidement.
Le codage prédictif linéaire est largement
utilisé en traitement de la parole notamment en transmissions. Le model
est de plus facile à mettre en oeuvre dans les systèmes à
temps réel. Ce model par définition ne prend pas en charge les
phénomènes non linéaire, et de plus, il n'est pas
optimisé pour la tâche de reconnaissance. En effet, des travaux
ont montré qu'il est possible de mettre en oeuvre une meilleure
représentation, et on fait naissance à des modèles plus
optimisés comme la prédiction linéaire perceptive, la
prédiction linéaire perceptive RASTH, le codage WLPC...
Le codage cepstrale la représentation
cepstrale est une représentation non paramétrique : elle ne fait
pas intervenir de model comme le cas du codage linéaire. On obtient le
cepstre en appliquent une transformée de Fourrier au signal, calculer le
logarithme du résultat, à qui on applique en fin une
transformée de Fourrier inverse.
Le cepstre possède plusieurs propriétés
intéressantes qui en font une représentation efficace. Parmi ces
propriétés, le logarithme qui permet par un procédé
de filtrage l'élimination des effets convolutifs dans le domaine
temporel. En effet, grâce à la fonction logarithmique, les bruits
deviennent additifs et une simple soustraction (soustraction cepstrale) permet
l'annulation de ces bruits.
Le codage MFCC (Mel Frequency Cepstral Coding)
C'est la technique de codage la plus utilisée en traitement
de la parole. Elle intègre la notion de bancs de filtres qui
sont déployés non par une échelle en Hz
mais sur une échelle non linéaire : l'échelle de Mel.
Cette échelle est issue de la connaissance sur la perception humaine. La
résolution perceptive des fréquences diffère selon qu'on
écoute des sons de basses ou de hautes fréquences.
Le codage MFCC représente la référence des
procédés d'extraction de caractéristiques, et toutes les
méthodes proposées doivent s'y comparer.[113]
FIGURE 1.3 - Echelle de Mel
|