ETUDE
BIBLIOGRAPHIQUE
SUR
L'ENVELOPPE TEMPORELLE
L'ENVELOPPE TEMPORELLE DES OBJETS SONORES
TRAITEMENT PERCEPTIF DES FLUCTUATIONS TEMPORELLES
L'analyse fréquentielle est une opération
primordiale du système auditif dont la localisation est
cochléaire, donc périphérique. A ce titre, l'oreille est
généralement modélisée et simulée à
l'aide d'un banc de filtres auditifs passe-bandes, dont les bandes passantes se
recouvrent et les fréquences centrales s'échelonnent
continûment de 20 à 20 kHz (Fletcher, 1940 ; Patterson, 1976).
100
80
O .c
t 60 et 40 aa
"" 20
o
cr) 0
|
|
0.1 0.2 0.5 1 2 5 10 20 50
Frequency (kHz)
Figure 8: Courbe d'accord au seuil de la réponse des
neurones du nerf auditif chez les cochon d'Indes (d'après Palmer,
1987)
A l'instar de la sélectivité spectrale, la
résolution temporelle est une propriété majeure de la
perception auditive, dans la mesure où la plupart des sons naturels que
nous cherchons à percevoir, tels que la parole ou la musique,
évoluent dans le temps. Le timbre, la hauteur tonale ou pitch (en
anglais), la localisation de sources sonores sont autant de
propriétés des objets sonores pouvant être comprises sur la
base de mécanismes temporels. Cette résolution temporelle est
doublement importante dans la mesure où, très souvent, le bruit
masquant en
provenance de l'environnement varie en fonction du temps. En
lien étroit avec la capacité de démasquage de l'oreille,
l'analyse primitive des scènes auditives utilise la cohérence des
fluctuations temporelles des composantes sonores afin d'organiser ces
dernières en entités sonores ou flux auditifs (Bregman, 1990). Le
décodage acoustico-phonétique, l'organisation perceptive de
l'environnement sonore et la perception des qualités des sons telles que
la hauteur, le timbre ou le rythme dépendent donc étroitement de
notre capacité à résoudre des variations temporelles
fines.
5 10 15 20
5 10 15 20 0
15
10
20 0
5 10
5 10 0
510 15 20
D 1.5 kHz 2 3 4/sec
E F
2.0 kHz 2.3 kHz
1 7 8/sec 83/sec
41414414 s
k4
(r)
a) C
o
E
120
60
C 1.0 kHz 1 8 2/sec
A 0.408 kHz 7 2/sec
120
60
B 0.85 kHz 1 7 9/sec
Duration of Interval (ms)
Figure 9 : Histogramme des intervalles `interspike' pour
à neurone isolé du nerf auditif (Rose et al, 1968).
DECOMPOSITION TEMPORELLE DE L'OBJET SONORE
Une partition des fluctuations temporelles des sons est
généralement réalisée en trois intervalles, ce
en raison des corrélats perceptifs et linguistiques distincts de chaque
type de
fluctuation (Rosen, 1992). Ces trois types de fluctuation,
illustrés par la figure ci-après, sont traditionnellement
désignés par les termes d'enveloppe, de périodicité
et de structure fine.
fréquence de la fluctuation temporelle
Figure 10 : Partition des fluctuations temporelles en trois
intervalles distincts
L'ENVELOPPE
Les fluctuations de l'amplitude globale des sons comprises
entre 2 et 50 Hz correspondent à l'enveloppe du signal. Les
caractéristiques acoustiques de l'enveloppe, telles que
l'intensité, le temps de montée et le temps de descente,
déterminent respectivement les sensations de force, d'attaque et de
chute, elles mêmes impliquées dans certaines distinctions
phonétiques. Figure 11 : Représentation de l'enveloppe
temporelle d'un son.
Une différence de force sonore peut nous renseigner sur
la présence ou l'absence de voisement produit par la vibration des
cordes vocales au moment de l'articulation. Elle permet ainsi la distinction
entre consonnes sonores et sourdes. La distinction entre une consonne sonore
/b/ et une consonne sourde /p/ est visible sur les enveloppes des deux phrases
présentées ci-après.
Figure 12 : Enveloppes de deux
her bull phrases obtenues d'après le filtrage
her pool passe-bas à 20 Hz (Rosen, 1992)
1 00m s
De plus, ces basses fréquences de fluctuation
temporelle engendrent la sensation de tempo ou de rythme, et correspondent
précisément à la fréquence d'occurrence des
syllabes ou des mots dans la parole continue (Houtgast & Steeneken, 1985 ;
Plomp, 1983).
Nous reviendrons plus en détails sur cette partie.
LA PERIODICITE
Les fluctuations de l'amplitude du son comprises entre 50 et
500 Hz environ correspondent à la périodicité du signal et
engendrent une sensation de hauteur tonale (Ritsma,1962) dénommée
hauteur fondamentale. Les bruits larges-bandes modulés en amplitude
produisent aussi une sensation de hauteur fondamentale lorsque la
fréquence de modulation est comprise entre 50 et 500 Hz (Burns &
Viemeister, 1976, 1981). La figure ci-après présente cet
intervalle de fluctuations.
100
............z
....... ·-::::::::_.....
./
· / ,..
//
;' , , \
- ,'-_,(." \
\ .,
e/
9. \
il \ \
ii \ \
\s,a
·
- il e \ \ \ -
_. ..'.
\ \\,, \ _
· · ·.,,t
1
.1.
\ : -
o
80
20
50 100 _ 200 400 800
MOOULATION FREQUENCY (Hz)
Figure 13 : Région d'existence de la hauteur des
bruits modulés en amplitude. Chaque courbe correspond à un sujet
(Burns et Viemeister, 1976).
Le signal de parole présente une
périodicité (ou voisement) produite par la vibration des cordes
vocales dans le larynx. Une distinction phonétique majeure et commune
à toutes les langues du monde est effectuée entre signaux
périodiques et apériodiques ( /b/ et /p/ par exemple).
|
[b)
[pl
|
Figure 14 :Ondes de pression produites par deux consonnes
/b/ et /p/. /p/ n'est pas voisé (très irrégulier), /b/ est
voisé (casi-périodique). D'après Rosen, 1992.
|
|
|
|
|
|
|
|
10 m s
|
|
|
|
LA STRUCTURE FINE
La structure fine des sons se réfère finalement
aux fluctuations temporelles comprises entre 600 et 10 kHz environ. Elle
renseigne essentiellement sur les variations de la forme spectrale du signal
(par exemple, les transitions formantiques dans les sons de parole), et par
conséquent sur le timbre des sons complexes (voyelles ...).
L'ENVELOPPE TEMPORELLE DES SONS
L'organisation perceptive de l'environnement sonore, la
perception du timbre des sons et l'intelligibilité de la parole
dépendent étroitement de la capacité du système
auditif à résoudre les variations temporelles lentes de
l'amplitude des sons, i.e., l'enveloppe temporelle des sons.
ASPECTS PERCEPTIFS
L'enveloppe au sens strict correspond aux fluctuations lentes
de l'amplitude globales des sons, comprises entre 2 et 50 Hz. Les
caractéristiques acoustiques de l'enveloppe, telles que
l'intensité, le temps de montée, le temps de descente, et la
fréquence de fluctuation déterminent respectivement les
sensations de force, d'attaque, de chute, de rugosité et de tempo. La
forme de l'enveloppe temporelle est également impliquée dans la
perception du timbre et dans les processus de reconnaissance d'objets sonores.
Une note de piano, par exemple, possède une attaque rapide et une chute
relativement lente. Cette même note enregistrée sur une bande puis
écoutée en sens inverse change de timbre et évoque celui
d'un accordéon. Cet effet souligne bien l'importance des indices
temporels dans la perception du timbre car les spectres de puissance des
versions 'avant' et 'arrière' du signal sont identiques.
Des travaux portant sur la mesure de l'activation des zones
corticales avec une stimulation sonore on montrés que le traitement
cortical d'un signal de parole était très différent des
versions 'avant' et 'arrière'. Le signal de parole émis à
l'envers (par rapport au temps) n'était pas traité par le cerveau
comme un signal de parole.
SENSIBILITE A L'ENVELOPPE
Une question se pose donc : comment mesurer la
sensibilité auditive d'un patient à l'enveloppe temporelle ?.
Cette capacité à suivre ces fluctuations est directement
reliée à l'acuité (ou la résolution) temporelle du
système auditif. La description de cette acuité par
l'évaluation du plus court intervalle de silence détectable (gap
détection) au sein d'un son constitue une approche limité, car
elle ne nous renseigne pas sur la nature de la `représentation auditive
interne' des fluctuations, i.e., sur le type de filtrage effectué par le
système auditif dans le domaine temporel. Une description plus
complète de la résolution temporelle du système auditif
peut être réalisée en mesurant la fonction de transfert de
modulation temporelle (TMTF, pour Temporal Modulation Transfer Function). Dans
ce paradigme psychoacoustique (Viemeister, 1979), les stimuli sont des bruits
larges bandes modulés sinusoïdalement en amplitude à une
fréquence donnée. La TMTF relie la performance de
déduction de la modulation d'amplitude à la fréquence de
modulation. La performance (ou le seuil) de détection de la modulation
d'amplitude, mesurée en décibels (20 log(m)), correspond à
la plus petite profondeur de la modulation d'amplitude, m, permettant de juste
discriminer un bruit non modulé. Les TMTFs obtenues par Viemeister
(1979) présentent une caractéristique passe-bas : la performance
de détection est constante jusqu'à environ 8 Hz. Elle se
réduit de 3dB à environ 50 Hz, puis elle décroît de
manière monotone de 3-4 dB/octave (on parle de 'pente
d'atténuation') jusqu'à approximativement 800 Hz. Le seuil de
détection de la modulation d'amplitude est constant au-delà de 1
kHz. La fréquence de coupure à --3dB de la TMTF permet de
déterminer la constante de temps du filtrage passe-bas sous-jacent,
à savoir 2-3 ms.
E
0 -15
o
C,J
-20
-25
-10
-30
-5
o
t 1 1 I I' 1 1 I!
//
2 4 8 16 32 64 125 250 500 1000 2000 4000 0
f,,,
Figure 15 : Fonction de transfert de modulation
d'amplitude (TMTF) mesurées chez quatre sujets. La porteuse est un
bruit large bande. D'après Viemeister, 1979.
EFFET D'UN DEFICIENT AUDITIF PERIPHERIQUE
Les résultats obtenus chez des patients
présentant une surdité sensorineurale sont similaires à
ceux obtenus chez des sujets normo-entendants, lorsqu'un certain nombre de
précautions méthodologiques sont prises, tel que le
contrôle du niveau de stimulation et de la bande passante audible (Bacon
& Viemeister, 1985 ; Moore, Shailer & Shooneveldt, 1992 ; Lorenzi et
al, 1997, Demany et Lacher-Fougère, 1997). Ces Résultats montrent
que le mécanisme responsable de l'intégration temporelle des sons
(et de l'extraction de l'enveloppe) n'est pas affecté par une atteinte
cochléaire. Ils suggèrent donc que ce mécanisme se situe
à un niveau central (rétro-cochléaire) plutôt que
périphérique (cochléaire).
-30
- 25 -20
E
° -15
o ru
- 10
-5
0
- 30 -25
- 20
E
° -15
ru
-10
- 5
. .
.
.
.
I
|
AW
f
|
1
|
I
|
I 1
I
|
f
|
- --
_
--
|
-- .....,.,
..
PM
|
-
A impaireo ear
· normal ear equal SPL
normal ear equal SL -11141144`
.
Iligt, _,
|
.
.
|
F P
|
|
|
Illiiiiig-1144
1111111,
|
--
--
|
I
|
I
Mean
|
1 I I I 1
. . .
|
I
-
-
|
4 8 16 32 64 128 256 512 4
8 16 32 64 128 256 512
Modulation frequency (Hz)
Figure 16 : Comparaison de la Fonction de transfert de
modulation d'amplitude (TMTF) entre le normo-entendant et le sujet atteint
d'une surdité de perception cochléaire. D'après Moore
et al, 1992.
Les TMTFs obtenues chez des patients porteurs d'un implant
cochléaire (Shannon, 1992) et de patients implantés au niveau du
noyau cochléaire (Shannon & Otto, 1990) sont également
similaires à celles obtenues chez des sujets normo-entendants (Shannon,
1992 ; Kohlrausch, 1993).
D'autres données montrent que la perception de la forme
de l'enveloppe temporelle mesurée à l'aide de paradigmes
psychoacoustiques différents de celui de la TMTF, n'est pas
dégradée chez les patients implantés cochléaires
(Hochmair & Hochmair-Desoyer, 1985). Dans certains cas, elle peut
même être meilleure que celle des sujets normo-entendants (Lorenzi,
Gallégo & Paterson, 1997). Ces résultats confortent donc
l'hypothèse selon laquelle les facteurs limitant
la détection de l'enveloppe temporelle sont
situés au-delà du nerf auditif. Ceci indique également que
l'information d'enveloppe (rythme syllabique, timbre) reste accessible dans le
cas d'une atteinte cochléaire.
Nucleus Device 1000 Hz Carrier 100 msec/phase
--
· · ·
· ·
... e ...... ·
.`.. ·
·
NI
O (1.2) 6 dB SL
· (21.22) 17 dB SL
I i 111111
|
'e....,,f...r.___V\\
..s,
·
N2
(20.22) 4 dB SL --- Bacon and Viemeister 1985
|
--
....
--
·
,,-.
|
I- II
.....
· u ·
lv,
·
.. . ..._._____.,... ·
--
·
_ N3 1 CI (1.2) 7 dB SL
(21.22) 9 dB SL
|
I
--
|
I I IIIIII1 I I II
N4 A ', A (1.2) 12 dB SL
(21.22) 16 dB SL --
|
_
|
|
--4
--30
--20
20
10
--10
--30
10 100 500 10 100 500
Modulation Frequency (Hz)
Figure 17 : TMTF mesurées chez quatre sujets
porteurs d'un implant cochléaire. (symbole plein : électrode
apicale, symbole vide :électrode basale). D'après Shannon,
1992.
Certains auteurs montrent que les performances de
reconnaissance des sujets porteurs d'un implant cochléaire sont
liées à la qualité d'extraction d'un schème de
l'enveloppe continue
dans un train de pulse (Collins et al, 1994) mais aussi a la
forme de la TMTF en fonction de la fréquence de stimulation (Cazals et
al, 1994).
|