Article 10 :
PRESERVATION DE L'ENVELOPPE TEMPORELLE POUR LA
COMPRESSION DU SIGNAL DE PAROLE
S. Gallégo Proceeding du congrès de la
société française d'Audiologie, Clermont-Ferrand,
déc 1998 Sous presse
L'objectif de cet article a été double :
Nous avons voulu montrer qu'il était possible de
reconnaître de la parole par l'enveloppe du signal acoustique. Les
résultats montrent qu'avec simplement 4 canaux laissant passer
l'enveloppe jusqu'à 250 Hz, il est possible de reconnaître plus de
80% des phonèmes,
Nous avons voulu montrer qu'avec un type de compression
fondée sur l'enveloppe et n'utilisant pas les temps d'attaque et de
retour, il est possible de ne pas détériorer
l'intelligibilité.
Préservation de l'enveloppe temporelle pour la
compression du signal de parole.
Stéphane Gallégo
Laboratoire CNRS UPRESSA 5020, Lyon Laboratoires MXM,
Vallauris Centres GAM surdité, Mougins e-mail :
sgallecioemxmlab.com
Introduction : La perception des
fluctuations d'amplitude lentes joue un rôle certain dans la
délimitation des unités linguistiques (voyelles, syllabes ou
mots). Ces fluctuations d'enveloppe sont également impliquées
dans plusieurs distinctions phonétiques importantes. Plusieurs
études ont montré que la reconnaissance des signaux de parole
pouvait être effectuée sur la base des indices d'enveloppe
temporelle. Katz et Berry (1971), Van Tassel et al (1987), et plus
récemment Shannon (1995) ont obtenu d'excellents scores
d'intelligibilité de la parole en modulant des bruits blancs ou des
bandes de bruits par l'enveloppe de signaux de parole (figure 1).
2 3 4 1 2 3 4 1 2 3 4 Nimber of
bands
Figure 1: Reconnaissance des consonnes, voyelles et
phrases chez huit sujets normoentendants en fonction du nombre de bandes de
bruits filtrés à la place de la structure fine du signal
après environ 10h d'apprentissage. D'après Shannon et al,
1995
Les bonnes performances d'intelligibilité de la parole
obtenues chez des sujets porteurs d'implants cochléaires
mono-électrodes (Hochmair et Hochmair-Desoyer, 1985) ou du
système percutané lnaired à quatre canaux (Dorman et al,
1990) témoignent également de l'importance des indices
d'enveloppe dans la compréhension de la parole. Des études
(Lawson, Wilson et Finley, 1992), montrent que l'intelligibilité chez
les sujets porteurs de l'implant cochléaire lnaired est fonction du
nombre de canaux actifs. Avec six canaux, le score est proche du sans faute.
Des études chez le normo-entendant, principalement investiguées
par l'équipe de Drullman (Noordhoek & Drullman, 1997) ont
caractérisé la perte d'intelligibilité en fonction de la
dégradation de l'enveloppe temporelle des mots. Les résultats
montrent que l'information est principalement contenue dans les
fréquences comprises entre 1 à 32 Hz. Plus le spectre de
l'enveloppe est réduit plus l'intelligibilité est faible.
Les résultats obtenus chez des patients
présentant une surdité sensorineurale par stimulation acoustique
(Bacon & Viemeister, 1985 ; Moore, Shailer & Shooneveldt, 1992 ;
Lorenzi et al, 1997, Demany et Lacher-Fougère, 1997) ou
électrique (Shannon, 1992, Kohlrausch, 1993) sont similaires à
ceux obtenus chez des sujets normo-entendants. Ces Résultats montrent
que le mécanisme responsable de l'intégration temporelle des sons
(et de l'extraction de l'enveloppe) n'est pas affecté par une atteinte
cochléaire. Ils suggèrent donc que ce mécanisme se situe
à un niveau central (rétro- cochléaire) plutôt que
périphérique (cochléaire).
Expérience 1 : Nous avons voulu
évaluer l'importance de l'enveloppe de la parole en éliminant
toute la structure fine du signal. Ce genre de traitement peut
présenter un intérêt pour les surdités ayant
une forte dégradation de la sélectivité
fréquentielle, seul le facteur temporel intervient dans ce genre de
test
(par exemple les surdités profondes ou
sévères ont une tonotopie cochléaire très frustre,
seules les caractéristiques temporelles du signal peuvent être
codées).
Son principe de base est de garder l'enveloppe du signal pour
différents canaux (1 à 4) et de remplacer la structure fine de
chaque canal par un bruit passe-bande équilibré en énergie
(figure 2).
Contrairement aux travaux de Shannon (1995), nous ne voulons
pas qu'il y ait une séance d'entraînement longue qui permet
d'améliorer les scores de reconnaissance (8 à 10 heures par sujet
testé). Cela permet, d'éviter un recodage des sons.
L'expérience sans entraînement permet de mesurer
l'intelligibilité correspondant à celle obtenue par un traitement
de la voix la plus naturelle possible.
Filtre 500-1000 Hz
Filtre passe bas 250 Hz
Redressement
Filtre 1000 .2000 H7
Filtre 2000-4000 Hz
Filtre eoneloo H7
Redressement
Redressement
Redressement
Bruit rose
Filtre 2000-4000 Hz
Signal de Parole
Signal Traité
Figure 2 : Schéma simplifié du traitement de
signal effectué pour remplacer les structures fines de chaque canal par
un bruit rose filtré.
Nous avons choisi les listes de mots utilisées
classiquement en cabinet d'audioprothèse pour mesurer
l'intelligibilité. Ce sont 40 listes de 10 mots dissyllabiques
numérisées sur CD ROM, elles ont été
élaborées par monsieur Fournier. Pour chaque mot deux mesures
d'intelligibilité ont été effectuées : 1- la
reconnaissance du mot (0 ou 100%), 2- le pourcentage de phonèmes
reconnus dans les mots (de 0 à 100%).
Pour chaque sujet testé nous avons passé deux
listes par condition sur l'oreille droite. L'intensité de stimulation
est à environ 30 dB SL. Quatre conditions dans un ordre aléatoire
ont été choisies ( un canal (2000-4000 Hz) ; 2 canaux (1000-2000,
2000-4000 Hz) ; 3 canaux (1000-2000, 2000-4000, 4000-8000 Hz) ; 4 canaux
(500-1000, 1000-2000, 2000-4000, 4000-8000 Hz)).
Figure 3 : Pourcentage et déviation standard de
phonèmes reconnus (graphe de gauche) et pourcentage et déviation
standard de mots reconnus (graphe de droite) en fonction du nombre de canaux
pour une population de 20 normo-entendants.
100 100 - - -
20
80 60 14 40
3
20
1 2 3 4
Nombre de tonere
Nombre de «noue
Les mots et phonèmes sont très bien reconnus par
les normo-entendants (90 % pour les mots et 95 % pour les phonèmes chez
certains sujets). Les résultats sont similaires à ceux
décrit par Shannon et al, 1995, mais dans ses conditions
expérimentales, il y avait un entraînement au préalable
d'une dizaine d'heures. Ces résultats corroborent aussi ceux de Lawson
et al, 1992 obtenus chez les sujets implantés cochléaires.
L'intelligibilité (des mots et des phonèmes) croit en fonction du
nombre de canaux. Une analyse statistique par Anova montre des
différences statistiques de performances en fonction du
nombre de canaux utilisés (p<0.001 : 43, 42, 41, 32,
32, 21). Les résultats montrent qu'un système auditif qui peut
faire la différence entre quatre fréquences et qui a une
résolution temporelle normale peut avoir un intelligibilité
d'environ 95 % sans qu'il soit besoin de recoder l'information auditive sous
une forme différente. Cela peut en partie expliquer les performances
obtenues chez certains enfants sourds profonds utilisant la prothèse
à transposition de fréquence de Lafon (Lafon, 1996).
L'utilisation de l'enveloppe chez les sujets atteints d'une
surdité de perception est actuellement mal adaptée avec les
appareils conventionnels. Lorsque l'on adapte l'énergie acoustique par
une aide auditive au sujet atteint d'une surdité de perception, on
utilise actuellement des systèmes de compression qui ont des seuils de
déclenchement avec des temps d'attaque et de retour variables. Cela
entraîne évidemment des distorsions de l'enveloppe temporelle du
signal en dynamique Une compression qui permettrait de ne pas déformer
l'enveloppe tout en préservant le spectre fréquentiel
instantané serait sûrement plus avantageuse.
Expérience 2 :
L'expérience précédente a montré l'importance de
l'enveloppe sur l'intelligibilité et a soulevé le problème
de distorsion de l'enveloppe lors de la compression du signal dans les aides
auditives actuelles. Nous avons ensuite voulu estimer les performances d'un
type de compression ou d'extension du signal de la parole. Des tests
d'intelligibilité dans le bruit ont été choisis pour
évaluer la qualité de la compression. La technique
utilisée pour compresser ou étendre le signal se base sur la
modification de l'enveloppe temporelle en préservant sa forme et la
structure spectrale du signal. L'avantage de ce type de technique est
d'éliminer tout effet indésirable de distorsion lorsque le signal
n'est pas stationnaire.
Lorsqu'un sujet a un recrutement important, il est
intéressant d'utiliser cette technique de compression car elle
préserve la structure fine et la forme de l'enveloppe du signal. Moore,
1992 montre que pour simuler une surdité avec une audition normale
(surdité de perception) l'enveloppe du signal doit être
comprimée par sa racine carrée (compression de 1/2).
L'objectif du traitement du signal est de préserver le
spectre instantané et la forme de l'enveloppe temporelle du signal lors
d'une compression. Il est donc nécessaire d'extraire
séparément l'enveloppe et la structure fine du signal, puis de
compresser uniquement l'enveloppe.
Puissance (X-'1)
Redressement
Filtre passe bas 250 Hz
Signal de Parole
29
Filtre passe bas __H
250 Hz
Signal Traité
Figure 4 : Schéma simplifié du traitement de
signal effectué pour compresser l'enveloppe du signal bruité. Si
l'on veut compresser par 1/2 la puissance sera --1/2.
Pour chaque sujet testé nous avons passé une
liste par condition sur l'oreille droite. L'intensité de stimulation est
à environ 30 dB SL. Pour chaque sujet six types de compressions avec
quatre rapports signal sur bruit ont été choisis ( compression de
1/8, 1/4, 1/2, 1 et expansion de 2 et 4 ; rapport signal sur bruit de 12, 6, 0
et-6 dB).
L'exemple figure 5 nous montre que le fait de compresser un
signal diminue le rapport signal sur bruit. Inversement une extension du signal
augmente le rapport signal sur bruit. Malgré cela les résultats
figure 5 ne montrent pas de différence statistique (par une anova
à deux facteurs à mesure répétée) de
l'intelligibilité en fonction du facteur de compression (ou
d'extension). Ce type de compression ne modifie apparemment pas
l'intelligibilité dans le bruit. Comme nous nous y attendions, le
traitement du signal utilisé permet de préserver la forme de
l'enveloppe ainsi que les structures fines du signal, ce qui se traduit par la
stabilité de la compréhension de la parole dans le bruit.
gee
laa
g ion
ew
RO
g
°
"
I4°
10
40
-à 0 6 12
ROmMari mienOlibrue (104
40
110
-6 0 12
mignml/bre idlj
-fi 0 12
%neer! 0ignaV0re {dol
6 0 12
%oued eigned/brun {dl]
-a 0
Re9mor1 161/.01/11/0e
Il tee 60 RO 40
1
-Il 0 6 12
nomplaigne/bnall tai
Î 100
"
40
110
a 100 I MO I 40 I 40
I20
0
Figure 5 : Exemple du traitement de signal pour le mots
'le bouchon' pour les différents taux de compression X (gauche);
Intelligibilité des phonèmes pour différentes compressions
à différents rapports signal sur bruit sur une population de 20
sujets (droite).
Bien qu'artificiellement le rapport signal sur bruit se
dégrade lors d'une compression (figure 5), l'intelligibilité
reste identique. L'utilisation de ce type de traitement semble être
intéressant pour les aides auditives par rapport aux compressions
utilisées actuellement.
Afin de valider ce type de compression, il semble
intéressant de poursuivre ces investigations sur des sujets atteints
d'une surdité de perception. Plusieurs sous-groupes, en fonction du
niveau de surdité, doivent être étudiés (de la
surdité moyenne à profonde).
Bibliographie :
Bacon SP, Veimeister NF. Temporal modulation transfer functions
in nomal-hearing and hearing impaired subjects. Audiology, 1985, 24,117-134
Demany L, Lacher-Fougère S. Consequences des pathologies
cochléaires sur la perception des modulations sonores. Cahier de
l'audition, 1997, 10, 3; 15-17
Dorman MF, Soli S, Dankowski K, Smith L, McCandless G, Parkin J.
Acoustic cues for consonant identification by patients using Inaired cochlear
implant. J Acous Soc Am, 1990, 88, 2074-2079
Hochmair-Desoyer IJ, Hochmair ES, Stiglbrunner HK.
Psychoacoustic temporal processing and speech understanding in cochlear
implants patients. In RA Schindler & MM Merzenich (Eds),
Cochlear implants, New York :Raven Press, 1985, 291394
Katz SJ, Berry RC. Speech modulated noise. 81nd Meeting of
Acoustical Society of America, 1971.
Kohlrausch A. Comment on 'Temporal modulation transfer functions
in patients with cochlear imlants'. J Acous Soc Am, 1993, 93, 1649-1650
Lafon J.C. Transposition et modulation pour que les sourds
entendent. Bull. Audiophonologie, 1996, 12, 3&4
Lorenzi C, Micheyl C, Berthommier F, Portalier S. Modulation
masking in listeners with sensorineural hearing Ioss. J Speech & Hear Res,
1997, 40, 200-207
Lawson DT, Wilson BS, Finley CC. New processing strategies for
multichannel cochlear protheseses. Progress in brain research, 1992.
Moore BJC, Shailer MJ, Schooneveldt GP . Temporal modulation
transfer functions for band-limited noise in subjects with cochlear hearing
loss. Brit J Audiol, 1992, 26, 229-237
Noordhoek IM, Drullman R. Effect of temporal intensity
modulations on sentence intelligibility. J Acous Soc Am, 1997, 101, 498-502
Shannon RV, Zeng FG, Kamath V, Wygonski J, Ekelid M. Speech
recognition with primarily temporal cues. Science, 1995, 270, 303-304
Shannon RV. Temporal modulation transfer functions in patients
with cochlear implants. J Acous Soc Am, 1992, 91, 21562164
Tasell D Van, Solli SD, Kirby VM, Widin GP. Speech waveform
envelope cues for consonant recogniton. J Acous Soc Am, 1987, 82, 1152-1161
Discrimination d'enveloppe
Les caractéristiques acoustiques de l'enveloppe, telles
que l'intensité, le temps de montée, le temps de descente, et la
fréquence de fluctuation déterminent respectivement les
sensations de force, d'attaque, de chute, de rugosité et de tempo. La
forme de l'enveloppe temporelle est également impliquée dans la
perception du timbre et dans les processus de reconnaissance d'objets sonores.
Une note de piano, par exemple, possède une attaque rapide et une chute
relativement lente. Cette même note enregistrée sur une bande puis
écoutée en sens inverse change de timbre et évoque celui
d'un accordéon. Cet effet souligne bien l'importance des indices
temporels dans la perception du timbre car les spectres de puissance des
versions 'avant' et 'arrière' du signal sont identiques.
Des travaux portant sur la mesure de l'activation des zones
corticales avec une stimulation sonore ont montré que le traitement
cortical d'un signal de parole était très différent des
versions 'avant' et 'arrière'. Le signal de parole émis à
l'envers (par rapport au temps) n'était pas traité par le cerveau
comme un signal de parole.
La mesure de la TMTF semble donc insuffisante pour évaluer
les capacités des sujets implantés à analyser l'enveloppe
du signal.
|