WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Préservation de l'enveloppe temporelle pour la compression du signal de parole

( Télécharger le fichier original )
par Stéphane GALLEGO
Université Lyon I -  1998
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

ETUDE

BIBLIOGRAPHIQUE

SUR

L'ENVELOPPE TEMPORELLE

L'ENVELOPPE TEMPORELLE DES OBJETS SONORES

TRAITEMENT PERCEPTIF DES FLUCTUATIONS TEMPORELLES

L'analyse fréquentielle est une opération primordiale du système auditif dont la localisation est cochléaire, donc périphérique. A ce titre, l'oreille est généralement modélisée et simulée à l'aide d'un banc de filtres auditifs passe-bandes, dont les bandes passantes se recouvrent et les fréquences centrales s'échelonnent continûment de 20 à 20 kHz (Fletcher, 1940 ; Patterson, 1976).

100

80

O
.c

t 60 et 40 aa

"" 20

o

cr) 0

 

0.1 0.2 0.5 1 2 5 10 20 50

Frequency (kHz)

Figure 8: Courbe d'accord au seuil de la réponse des neurones du nerf auditif chez les
cochon d'Indes (d'après Palmer, 1987)

A l'instar de la sélectivité spectrale, la résolution temporelle est une propriété majeure de la perception auditive, dans la mesure où la plupart des sons naturels que nous cherchons à percevoir, tels que la parole ou la musique, évoluent dans le temps. Le timbre, la hauteur tonale ou pitch (en anglais), la localisation de sources sonores sont autant de propriétés des objets sonores pouvant être comprises sur la base de mécanismes temporels. Cette résolution temporelle est doublement importante dans la mesure où, très souvent, le bruit masquant en

provenance de l'environnement varie en fonction du temps. En lien étroit avec la capacité de démasquage de l'oreille, l'analyse primitive des scènes auditives utilise la cohérence des fluctuations temporelles des composantes sonores afin d'organiser ces dernières en entités sonores ou flux auditifs (Bregman, 1990). Le décodage acoustico-phonétique, l'organisation perceptive de l'environnement sonore et la perception des qualités des sons telles que la hauteur, le timbre ou le rythme dépendent donc étroitement de notre capacité à résoudre des variations temporelles fines.

5 10 15 20

5 10 15 20 0

15

10

20 0

5 10

5 10 0

510 15 20

D
1.5 kHz
2 3 4/sec

E F

2.0 kHz 2.3 kHz

1 7 8/sec 83/sec

41414414 s k4

(r)

a)
C

o

E

120

60

C
1.0 kHz
1 8 2/sec

A
0.408 kHz
7 2/sec

120

60

B
0.85 kHz
1 7 9/sec

Duration of Interval (ms)

Figure 9 : Histogramme des intervalles `interspike' pour à neurone isolé du nerf auditif
(Rose et al, 1968).

DECOMPOSITION TEMPORELLE DE L'OBJET SONORE

Une partition des fluctuations temporelles des sons est généralement réalisée en trois
intervalles, ce en raison des corrélats perceptifs et linguistiques distincts de chaque type de

fluctuation (Rosen, 1992). Ces trois types de fluctuation, illustrés par la figure ci-après, sont traditionnellement désignés par les termes d'enveloppe, de périodicité et de structure fine.

 


·

 

fréquence de la fluctuation temporelle

Figure 10 : Partition des fluctuations temporelles en trois intervalles distincts

L'ENVELOPPE

Les fluctuations de l'amplitude globale des sons comprises entre 2 et 50 Hz correspondent à l'enveloppe du signal. Les caractéristiques acoustiques de l'enveloppe, telles que l'intensité, le temps de montée et le temps de descente, déterminent respectivement les sensations de force, d'attaque et de chute, elles mêmes impliquées dans certaines distinctions phonétiques. Figure 11 : Représentation de l'enveloppe temporelle d'un son.

Une différence de force sonore peut nous renseigner sur la présence ou l'absence de voisement produit par la vibration des cordes vocales au moment de l'articulation. Elle permet ainsi la distinction entre consonnes sonores et sourdes. La distinction entre une consonne sonore /b/ et une consonne sourde /p/ est visible sur les enveloppes des deux phrases présentées ci-après.

Figure 12 : Enveloppes de deux

her bull phrases obtenues d'après le filtrage

her pool passe-bas à 20 Hz (Rosen, 1992)

1 00m s

De plus, ces basses fréquences de fluctuation temporelle engendrent la sensation de tempo ou de rythme, et correspondent précisément à la fréquence d'occurrence des syllabes ou des mots dans la parole continue (Houtgast & Steeneken, 1985 ; Plomp, 1983).

Nous reviendrons plus en détails sur cette partie.

LA PERIODICITE

Les fluctuations de l'amplitude du son comprises entre 50 et 500 Hz environ correspondent à la périodicité du signal et engendrent une sensation de hauteur tonale (Ritsma,1962) dénommée hauteur fondamentale. Les bruits larges-bandes modulés en amplitude produisent aussi une sensation de hauteur fondamentale lorsque la fréquence de modulation est comprise entre 50 et 500 Hz (Burns & Viemeister, 1976, 1981). La figure ci-après présente cet intervalle de fluctuations.

100

............z .......
·-::::::::_.....

./

· / ,..

//

;' , , \

- ,'-_,(." \

\ .,

e/

9. \

il \ \

ii \ \

\s,a


·

- il e \ \ \ -

_. ..'.

\ \\,, \ _


·
·
·.,,t

1

.1.

\ : -

o

80

20

50 100 _ 200 400 800

MOOULATION FREQUENCY (Hz)

Figure 13 : Région d'existence de la hauteur des bruits modulés en amplitude. Chaque courbe correspond à un sujet (Burns et Viemeister, 1976).

Le signal de parole présente une périodicité (ou voisement) produite par la vibration des cordes vocales dans le larynx. Une distinction phonétique majeure et commune à toutes les langues du monde est effectuée entre signaux périodiques et apériodiques ( /b/ et /p/ par exemple).

 

[b)

[pl

Figure 14 :Ondes de pression produites par deux consonnes /b/ et /p/. /p/ n'est pas voisé (très irrégulier), /b/ est voisé (casi-périodique). D'après Rosen, 1992.

 
 
 
 
 
 
 

10 m s

 
 
 

LA STRUCTURE FINE

La structure fine des sons se réfère finalement aux fluctuations temporelles comprises entre 600 et 10 kHz environ. Elle renseigne essentiellement sur les variations de la forme spectrale du signal (par exemple, les transitions formantiques dans les sons de parole), et par conséquent sur le timbre des sons complexes (voyelles ...).

L'ENVELOPPE TEMPORELLE DES SONS

L'organisation perceptive de l'environnement sonore, la perception du timbre des sons et
l'intelligibilité de la parole dépendent étroitement de la capacité du système auditif à résoudre
les variations temporelles lentes de l'amplitude des sons, i.e., l'enveloppe temporelle des sons.

ASPECTS PERCEPTIFS

L'enveloppe au sens strict correspond aux fluctuations lentes de l'amplitude globales des sons, comprises entre 2 et 50 Hz. Les caractéristiques acoustiques de l'enveloppe, telles que l'intensité, le temps de montée, le temps de descente, et la fréquence de fluctuation déterminent respectivement les sensations de force, d'attaque, de chute, de rugosité et de tempo. La forme de l'enveloppe temporelle est également impliquée dans la perception du timbre et dans les processus de reconnaissance d'objets sonores. Une note de piano, par exemple, possède une attaque rapide et une chute relativement lente. Cette même note enregistrée sur une bande puis écoutée en sens inverse change de timbre et évoque celui d'un accordéon. Cet effet souligne bien l'importance des indices temporels dans la perception du timbre car les spectres de puissance des versions 'avant' et 'arrière' du signal sont identiques.

Des travaux portant sur la mesure de l'activation des zones corticales avec une stimulation sonore on montrés que le traitement cortical d'un signal de parole était très différent des versions 'avant' et 'arrière'. Le signal de parole émis à l'envers (par rapport au temps) n'était pas traité par le cerveau comme un signal de parole.

SENSIBILITE A L'ENVELOPPE

Une question se pose donc : comment mesurer la sensibilité auditive d'un patient à l'enveloppe temporelle ?. Cette capacité à suivre ces fluctuations est directement reliée à l'acuité (ou la résolution) temporelle du système auditif. La description de cette acuité par l'évaluation du plus court intervalle de silence détectable (gap détection) au sein d'un son constitue une approche limité, car elle ne nous renseigne pas sur la nature de la `représentation auditive interne' des fluctuations, i.e., sur le type de filtrage effectué par le système auditif dans le domaine temporel. Une description plus complète de la résolution temporelle du système auditif peut être réalisée en mesurant la fonction de transfert de modulation temporelle (TMTF, pour Temporal Modulation Transfer Function). Dans ce paradigme psychoacoustique (Viemeister, 1979), les stimuli sont des bruits larges bandes modulés sinusoïdalement en amplitude à une fréquence donnée. La TMTF relie la performance de déduction de la modulation d'amplitude à la fréquence de modulation. La performance (ou le seuil) de détection de la modulation d'amplitude, mesurée en décibels (20 log(m)), correspond à la plus petite profondeur de la modulation d'amplitude, m, permettant de juste discriminer un bruit non modulé. Les TMTFs obtenues par Viemeister (1979) présentent une caractéristique passe-bas : la performance de détection est constante jusqu'à environ 8 Hz. Elle se réduit de 3dB à environ 50 Hz, puis elle décroît de manière monotone de 3-4 dB/octave (on parle de 'pente d'atténuation') jusqu'à approximativement 800 Hz. Le seuil de détection de la modulation d'amplitude est constant au-delà de 1 kHz. La fréquence de coupure à --3dB de la TMTF permet de déterminer la constante de temps du filtrage passe-bas sous-jacent, à savoir 2-3 ms.

E

0 -15

o

C,J

-20

-25

-10

-30

-5

o

t 1 1 I I' 1 1 I!

//

2 4 8 16 32 64 125 250 500 1000 2000 4000 0

f,,,

Figure 15 : Fonction de transfert de modulation d'amplitude (TMTF) mesurées chez quatre
sujets. La porteuse est un bruit large bande. D'après Viemeister, 1979.

EFFET D'UN DEFICIENT AUDITIF PERIPHERIQUE

Les résultats obtenus chez des patients présentant une surdité sensorineurale sont similaires à ceux obtenus chez des sujets normo-entendants, lorsqu'un certain nombre de précautions méthodologiques sont prises, tel que le contrôle du niveau de stimulation et de la bande passante audible (Bacon & Viemeister, 1985 ; Moore, Shailer & Shooneveldt, 1992 ; Lorenzi et al, 1997, Demany et Lacher-Fougère, 1997). Ces Résultats montrent que le mécanisme responsable de l'intégration temporelle des sons (et de l'extraction de l'enveloppe) n'est pas affecté par une atteinte cochléaire. Ils suggèrent donc que ce mécanisme se situe à un niveau central (rétro-cochléaire) plutôt que périphérique (cochléaire).

-30

- 25 -20

E

° -15

o
ru

- 10

-5

0

- 30 -25

- 20

E

° -15

ru

-10

- 5

.
.

.

.

.

I

AW

f

1

I

I 1

I

f

-
--

_

--

-- .....,.,

..

PM

-

A impaireo ear


·
normal ear equal SPL

normal ear equal SL -11141144`

.

Iligt, _,

.

.

F P

 
 

Illiiiiig-1144

1111111,

--

--

I

I

Mean

1 I I I 1

. . .

I

-

-

4 8 16 32 64 128 256 512 4 8 16 32 64 128 256 512

Modulation frequency (Hz)

Figure 16 : Comparaison de la Fonction de transfert de modulation d'amplitude (TMTF)
entre le normo-entendant et le sujet atteint d'une surdité de perception cochléaire.
D'après Moore et al, 1992.

Les TMTFs obtenues chez des patients porteurs d'un implant cochléaire (Shannon, 1992) et de patients implantés au niveau du noyau cochléaire (Shannon & Otto, 1990) sont également similaires à celles obtenues chez des sujets normo-entendants (Shannon, 1992 ; Kohlrausch, 1993).

D'autres données montrent que la perception de la forme de l'enveloppe temporelle mesurée à l'aide de paradigmes psychoacoustiques différents de celui de la TMTF, n'est pas dégradée chez les patients implantés cochléaires (Hochmair & Hochmair-Desoyer, 1985). Dans certains cas, elle peut même être meilleure que celle des sujets normo-entendants (Lorenzi, Gallégo & Paterson, 1997). Ces résultats confortent donc l'hypothèse selon laquelle les facteurs limitant

la détection de l'enveloppe temporelle sont situés au-delà du nerf auditif. Ceci indique également que l'information d'enveloppe (rythme syllabique, timbre) reste accessible dans le cas d'une atteinte cochléaire.

Nucleus Device 1000 Hz Carrier 100 msec/phase

--

·
·
·

·
·

... e ......
·

.`..
·


·

NI

O (1.2) 6 dB SL

· (21.22) 17 dB SL

I i 111111

'e....,,f...r.___V\\

..s,


·

N2

(20.22) 4 dB SL --- Bacon and Viemeister 1985

--

....

--


·

,,-.

I- II

.....


· u
·

lv,


·

.. . ..._._____.,...
·

--


·

_ N3 1
CI (1.2) 7 dB SL

(21.22) 9 dB SL

I

--

I I IIIIII1 I I II

N4 A ',
A (1.2) 12 dB SL

(21.22) 16 dB SL
--

_

 

--4

--30

--20

20

10

--10

--30

10 100 500 10 100 500

Modulation Frequency (Hz)

Figure 17 : TMTF mesurées chez quatre sujets porteurs d'un implant cochléaire. (symbole
plein : électrode apicale, symbole vide :électrode basale). D'après Shannon, 1992.

Certains auteurs montrent que les performances de reconnaissance des sujets porteurs d'un
implant cochléaire sont liées à la qualité d'extraction d'un schème de l'enveloppe continue

dans un train de pulse (Collins et al, 1994) mais aussi a la forme de la TMTF en fonction de la fréquence de stimulation (Cazals et al, 1994).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Je ne pense pas qu'un écrivain puisse avoir de profondes assises s'il n'a pas ressenti avec amertume les injustices de la société ou il vit"   Thomas Lanier dit Tennessie Williams