Préservation de l'enveloppe temporelle pour la compression du signal de parole

( Télécharger le fichier original )
par Stéphane GALLEGO
Université Lyon I - 1998

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

RAPPELS ACOUSTIQUES ET PHONETIQUES

LES SONS

Les sons sont des phénomènes vibratoires qui se propagent dans l'air à 340 m. s-1. Un son peut être apériodique (impulsionnel ou continu) ou périodique (simple ou complexe).

Un son périodique simple peut être représenté par une courbe sinusoïdale, un son périodique complexe par une courbe complexe régulière. L'analyse fréquentielle de Fourier permet de décomposer une onde périodique complexe en ses composantes sinusoïdales , les harmoniques, caractérisés chacun par une fréquence et une amplitude. Les fréquences des harmoniques sont des multiples entiers d'une fréquence de base : le fondamental.

L'oreille est sensible aux caractéristiques de hauteur (fréquence du fondamental), intensité (amplitude), timbre (densité relative des harmoniques) et durée (temps de la vibration).

Pour produire les sons du langage il faut qu'un courant d'air venu des poumons via la trachée (la soufflerie sub-glottique) rencontre un obstacle : d'un point de vue acoustique cet événement est la source du son. L'obstacle peut être constitué par les cordes vocales (on obtient un flux laryngé périodique) ou par un rétrécissement ou une occlusion dans les cavités supraglottiques (on obtient un bruit). Le flux laryngé est modulé par le système pharyngobuccal (pharynx, langue, lèvres, joues, cavités nasales) qui a un rôle de résonateur, c'est à dire qu'il détermine des zones de renforcement fréquentiel : les formants. La forme, la section et le volume des résonateurs déterminent la fonction de transfert qui modifie le timbre de la source. Pour la voix parlée la fréquence du fondamental se situe :

·	chez l'homme	entre 100 et 150 Hz
·	chez la femme	entre 200 et 300 Hz
·	chez l'enfant	entre 300 et 450 Hz

LES VOYELLES

Elles résultent du passage du flux d'air laryngé à travers les cavités supraglottiques qui en déterminent le timbre. D'un point de vue articulatoire on peut les décrire en fonction de leur lieu d'articulation (antérieur ou postérieur), de leur degré d'ouverture, de leur caractère oral ou nasal et du degré d'arrondissement des lèvres. D'un point de vue acoustique les voyelles du français sont caractérisées par les fréquences des deux premiers formants F 1 et F2. La fondamentale FO et le troisième formant F3 (invariables chez un même sujet quelle que soit la voyelle) permettent de caractériser un locuteur et donnent les valeurs absolues de F I et F2.

250 350 500

F2^1-4,

Fl 3000 2000 1000

Représentation biformantique des voyelles orales du français

LES CONSONNES

Le système consonantique du français peut être décrit phonologiquement à partir des critères mode d'articulation (occlusif ou constrictif), lieu articulatoire (labiale, dentale, palatale), nasalisation (orale ou nasale) et source sonore (voisée ou non-voisée).

occlusives voisées

/b/ 1 bande grave 0 - 600

/g/ 2 bandes grave 0 - 600 aiguë

/d/ 2 bandes grave 0 - 600 aiguë

Répartition spectrale en Hz constrictives non voisées

/f/ 2 bandes grave étroite 16 - 100 aiguë large

/ch/ 1 bande large de 2000 10.000

/s/ 1 bande aiguë large

constrictives voisées

/v/ 2 bandes grave 20 - 400 aiguë

/ / 2 bandes grave 100 - 600 aiguë

/z/ 2 bandes grave 100 - 600 aiguë

			sombre
1600	-	5.000	médian
2000	-->	10.000	clair
			Timbre
1000	-316.000		médian
3.000		16.000	clair
4000	-	16.000
1600	-	8.000	médian
3000	-	12.000	clair

occlusives non-voisées

/p/ 1 bande grave 0 - 400 sombre

/k/ 2 bandes grave 20 - 100 aiguë large 1600 - 10.000 médian

/t/ 2 bandes grave 20 - 100 aiguë large 2000 --> 16.000 clair

les liquides

/R/ et /1/ : leur structure formantique est influencée par leur entourage vocalique.

LA CHAINE PARLEE

Dans la parole les sons ne sont pas isolés, ils s'influencent les uns les autres. Une séquence voyelle--consonne--voyelle peut se décomposer de la façon suivante :

1. Voyelle stable

2. Voyelle--consonne (transition formantique)

3. Consonne

4. Consonne-voyelle (transition formantique)

5. Voyelle stable

L'information sémantique est essentiellement véhiculée par les transitions formantiques. Elles sont plus marquées pour les occlusives que pour les constrictives, pour la voisée que pour la non-voisée correspondante.

Les éléments suprasegmentaux (mélodie, accent, rythme) sont principalement liés à la source périodique. La mélodie est définie par les variations de la fondamentale en fonction du temps, l'accent par les variations de l'intensité en fonction du temps. Le rythme est lié à la position des accents, le débit, à la vitesse d'élocution. L'intonation dépend de la hauteur, de l'intensité et de la durée.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Un démenti, si pauvre qu'il soit, rassure les sots et déroute les incrédules" Talleyrand