1.4 Niveaux de traitement
L'information portée par le signal de la parole peut
être analysée de bien de façon. On en distingue
généralement plusieurs niveaux de description acoustique,
phonétique, phonologique, morphologique, syntaxique, sémantique
et pragmatique.[63]
1.4.1 Niveau acoustique
La parole apparait physiquement comme une variation de la
pression de l'air causée et émise par le système
articulatoire. L'étude acoustique de ce signal consiste à le
transformer dans un premier temps en un signal électrique (souvent
numérique) qui peut être soumis à un ensemble de traitement
acoustique qui visent à mettre en évidence les traits acoustiques
correspondant aux grandeurs perceptuelles formant, intensité et timbre.
Le signal est en suite échantillonné et pondéré par
une fenêtre de
pondération (souvent une fenêtre de Hamming). En
effectuant une transformée de Fourier à ces échantillons,
on peut séparer les sons voisés et non voisés selon la
structuration des fréquences, et les formants et les timbres selon la
forme générale des spectres (enveloppe spectrale).
On peut aussi séparer les sons voisés et non
voisés en représentant l'évolution temporelle du spectre
sous forme d'un diagramme à deux dimensions temps-fréquence
appelé spectrogramme, comme on peut représenter
l'évolution de la fréquence fondamentale.
1.4.2 Niveau phonétique
A ce niveau, ce n'est pas tant le signal qui importe que la
façon dont il est produit par le système articulatoire. La parole
peut être décrite comme le résultat de l'action volontaire
et coordonnée d'un certain nombre de muscles. L'alphabet
phonétique international associe des symboles phonétiques
(phonèmes ou unités phonétiques
élémentaires) aux sons de telle façon à permettre
l'écriture compacte et universelle des prononciations.
Ces différents symboles sont regroupés en trois
classes principale : les voyelles, les semi-voyelles (ou semi-consonnes)et les
liquides et les consonnes. La production de chaque classe de phonèmes
fait appel à un ensemble distingué d'éléments de
l'appareil articulatoire et chaque élément se trouve
réagir différemment d'un phonème à un autre. Les
traits acoustiques du signal de la parole sont évidemment liés sa
production. L'intensité du son est liée à la pression de
l'aire en amont. Sa fréquence, qui n'est rien d'autre que la
fréquence du cycle ouverture/fermeture des cordes vocales, est
déterminée par la tension des muscles qui les contrôlent.
En fin, son spectre est le résultat du filtrage du signal par le conduit
vocal.
Il est aussi important de noter qu'une bonne connaissance des
mécanismes de l'audition et des propriétés perceptuelles
de l'oreille humaine est aussi importante qu'une métrise des
mécanismes de production. En effet, tout ce qui peut être
mesuré acoustiquement ou observé par la phonétique
articulatoire n'est pas nécessairement perçu. La plage des
fréquences perçues par l'oreille humaine est bornée par
une limite supérieure proche de 16000 Hz, ce qui limite
considérablement la fréquence d'échantillonnage. En plus,
même dans l'intervalle de son domaine d'audition, l'oreille ne
présente pas une sensibilité identique à toutes les
fréquences. Enfin, les sons peuvent se chevaucher et un son peut donc en
masquer un autre. Ce chevauchement, appelé phénomène de
masquage, peut aider à réduire le débit binaire du signal
acoustique.
FIGURE 1.2 - phonèmes du français, symboles de
l'alphabet phonétique international
|