B/ La Phonation.
1/ La phonation en général. [40]
Epiglotte
Bande ventriculaire
Corde vocale
Glotte
Figure 5 :Section du larynx.
Voile
Pharynx · Epiglotte
OEsophage
Glotte
Trachée
Figure 4 : Appareil phonatoire humain
La parole humaine est produite par le système
phonatoire schématisé ci-dessus figure 4 et 5. Elle peut
être modélisée par un tuyau acoustique à section
variable, déterminé à une extrémité par la
glotte, ( partie du larynx comprise entre les cordes vocales ), et l'autre par
les lèvres. Sa longueur est voisine de 17 centimètres. Sa section
est constamment déformée lors de la phonation ; elle peut varier
de 0 à 20 cm2. Le conduit nasal, d'une longueur d'environ 12
cm, constitue un trajet auxiliaire pour la transmission de la voix. Le couplage
acoustique entre les deux conduits est contrôlé par le voile. ( le
voile est ouvert pour les sons nasalisés, fermé pour les sons non
nasalisés).
12
Figure 6 :Signal glottal filtré par le conduit vocal.(T0 =
1/F0 )
La source d'excitation provient d'un mouvement d'air du a une
contraction des muscles thoraciques et abdominaux. En passant dans le conduit
vocal, qui possède des cavités résonnantes variables,
l'air va créer des sons. Ces cavités résonantes vont
amplifier le son à des fréquences appelées formants. Les
deux principaux formants proviennent du Larynx et de la cavité buccale.
Pour certains sons, les cordes vocales situées dans la glotte vont
vibrer et créer une fréquence basse appelée fondamental ou
pitch, comprise entre 80 et 500 Hz, ( à la fréquence F0.) ;
ceux-ci portent le nom de sons voisées. ( cf figure 6 ).
La bande passante de la phonation est adaptée à
l'audition car elle est comprise entre 80 et 15000 Hz, bandes de
fréquences centrales de l'audition
C'est grâce à la phonation que l'homme a pu
communiquer et élaborer des langages plus ou moins
évolués. Ceux-ci sont composés de phonèmes qui
regroupés forment les mots. La langue française en comprend
36.
Il existe deux grands types de phonèmes, les consonnes et
les voyelles.
Contrairement aux voyelles les consonnes sont des phonèmes
de transition, instables et brefs ( environ 50 ms), qui en
général introduisent une voyelle.
2/ Les voyelles. [47]
a/ Description.
Les voyelles peuvent se différencier des autres
phonèmes par plusieurs caractéristiques:
. Elles sont toutes voisées ; le signal acoustique
résultant contient donc un fondamental à la fréquence de
vibration des cordes vocales.
. Les nombre et les amplitudes des harmoniques du fondamental
caractérisent le timbre de la voix.
. La durée des voyelles est variable, mais toujours
supérieur à 100 ms.
. Elles sont pratiquement identifiées avec seulement la
valeur des deux premiers formants. ( cf figure 8 ).
b/ Moyens d'exploration.
A
F1
F2
F 3
F2
[3000
.), ·
' I -,' g. ,-)----,
(._........f., t 7',/ È
/1
..."
2000 - / ' ./.."-- I NI
f U /te -----.<
, ..--- ..-
·-,-,11....., UN ...----7,-`E ,
t
. t ',..f- ....- I ....' --.`
. i,
1000 I OU ,' ..."--`,
(KN.,...-'...nrrese '/ A :
......,/ 0 ! )e....-- ·
·,-/- t ,/
/ : ' ON: s''
t , t
..._,
0 F1
200 400 600 800
Longueur du pharynx
Figure 7 : Formants dans un spectre Figure 8 : F 1 et F2 des
voyelles Françaises.
Les voyelles ont été les premiers phonèmes
étudiés car ils sont facilement différenciables et peuvent
être tenus durant une durée supérieure à la
seconde.
Delattre a pu, avec un spectrographe, déterminer toutes
les voyelles.(1948). Il a réussi à y extraire les deux premiers
formants.
Sa méthode était assez primaire mais performante
pour son époque. Maintenant que les ordinateurs ont une puissance de
calcul très élevé, jusqu'à plusieurs dizaines de
Gigaflop ( Milliard de calculs sur nombres à virgules flottantes par
seconde.), on peut facilement utiliser des algorithmes gourmands en calculs
pour la détection de formants. Les méthodes classiques sont les
suivantes:
. Analyse prédictive. On prend une partie du
signal échantillonné ( N échantillons.) puis on fait une
transformé en Z des données. Le fondamental ainsi que les
formants seront le module des couples de racines de l'équation suivante
:
. Détection par le cepstre. Le cespstre est
une transformé qui à la particularité d'éliminer
les harmoniques du signal. Le signal temporel acoustique devient une
série de pics pour lesquels chaque sommet correspondent à la
période du fondamental ou d'un formant. Il est en fait calculé
par sa T.F. du Log du module de la TF. ( TF :transformée de Fourier).
C(t) = TF (Log(ITF (s(t))i))
.Détection par analyse de synthèse.
C'est une méthode itérative qui permet de synthétiser
un signal et de le faire rapprocher le plus possible de celui à
étudier en modifiant les valeurs du fondamental, du timbre et des
formants.
. Détection par passage à zéro. On
fait une étude statistique des passages à 0 du signal et on en
ressort FO et les formants.
. Détection par maximum du spectre. On recherche
les harmoniques de FO de plus grande énergie. Ceux-ci correspondent
à peu près aux formants. C'est une méthode assez
rapide.
La détermination des phonèmes peut aussi se
faire en découpant le spectre en plusieurs bandes. E. Leip
à montrer que le nombre minimale 'de tranches de spectre' pour pouvoir
discriminer les phonèmes les uns des autres était de huit. ( pour
une bande de fréquence comprise entre 0 et 4 kHz. ).
cl De la synthèse vocale à l'implant
cochléaire.[43]
Les premières études sur les machines parlantes
remontent à la fin du XVIII ème
siècle. Celles-ci étaient purement mécaniques, elles
comportaient des résonateurs acoustiques dont la forme ressemblait au
conduit vocal. Le fondamental était créé par une lame
métallique vibrante. ( 1779 : Kratzemstein, 1791: Von Kempelen ). Le
schéma qui suit est celui de la machine de Riez 1937, il est fortement
inspiré des machines précédentes.
Dents Bouche
Voile Pharynx
Figure 10 :Machine parlante de Riez 1937.( Inspiré de
Kratzemstein et Kempelen)
Actuellement plusieurs procédés sont
utilisés pour synthétiser la parole. . Par phonèmes
préenregistrés.
. Par prédiction. ( c'est le plus simple et le moins
coûteux.) . Par simulation du conduit vocal.
. Par formant.
. Par canaux.
Circuit antiformant N.
|
N
|
--1 N 2 1--).
|
31
|
|
Source I vocale
Fi F2 F3
F41-+
Circuit de correction
IAmPIi F
H
H. P
B1 B2 B3
·
131 --+ 132 B3
Source de bruit
FI -- F2 F 3
Figure 11 : Vocodeur à formant
ANALYSEUR
Filtres Détecteurs Filtres passe-bande passe-bas
1-1200-3001-- G -s- 0-50 --1'
I --
SYNTHÉTISEUR
Modulateurs filtres
passe-bande
300 45012--
2900 3400
Commu-
tateur
t t
Générateur Générateur
d'impulsions de bruit
Figure 12 : Vocodeur à canaux
Les deux derniers méritent d'être plus
développés car ils sont la base de se que l'on va appeler les
oreilles bioniques. En effets ces deux principes vont être
utilisés pour permettre à un sourd de perception de pouvoir
discriminer, en théorie, tous les phonèmes, donc de pouvoir
comprendre la parole.
|