DEGRADATION DE L'ENVELOPPE ET INLIGIBILITE
Des études chez le normo-entendant, principalement
investiguées par l'équipe de Drullman (Drulman et al,
1994a,b,1995, 1996 ; Noordhoek & Drullman, 1997) ont
caractérisé la perte d'intelligibilité en fonction de la
dégradation de l'enveloppe temporelle des mots. Les résultats
montrent que l'information est principalement contenue dans les
fréquences comprises entre 1 à 32 Hz. Plus le spectre de
l'enveloppe est réduit plus l'intelligibilité est faible.
Envelope cutoff frequency
I Hz 2 Hz 4 Hz 8 Hz 16 Hz 32 Hz
LP
|
0.17
|
0.29
|
0.49
|
0.70
|
0.82
|
0.89
|
HP
|
0.94
|
0.84
|
0.60
|
0.37
|
0.20
|
0.15
|
Tableau I : Intelligibilité en fonction du filtrage
de l'enveloppe du signal de parole (en passe-bas et en passe-haut).
D'après Drullman et al, 1994.
ETUDE
EXPERIMENTALE
SUR
L'ENVELOPPE TEMPORELLE
RECONNAISSANCE DE LA PAROLE PAR L'ENVELOPPE
OBJECTIF
L'étude bibliographique a montrée l'importance
de l'enveloppe du signal de parole sur l'intelligibilité. Contrairement
à la structure fine du signal, l'analyse de l'enveloppe du signal ne
demande pas une analyse très complexe par le système auditif
périphérique. En effet, l'intégration temporelle des sons
(mesures de TMTF) n'est pas affectée par une atteinte
cochléaire.
Nous avons voulu évaluer l'importance de l'enveloppe de
la parole en éliminant toute la structure fine du signal. Ce genre de
traitement peut présenter un intérêt pour les
surdités ayant une forte dégradation de la
sélectivité fréquentielle ou seul le facteur temporel peut
intervir (par exemple les surdités profondes ou sévères
ont une tonotopie cochléaire très frustre, seules les
caractéristiques temporelles du signal peuvent être codées
; ce traitement peut aussi être intéressant pour l'implant
cochléaire).
Son principe de base est de garder l'enveloppe du signal pour
différents canaux (1 à 4) et de remplacer la structure fine de
chaque canal par un bruit passe-bande équilibré en
énergie.
Contrairement aux travaux de Shannon (1995), nous ne voulons
pas qu'il y ait une séance d'entraînement longue qui permet
d'améliorer les scores de reconnaissance (8 à 10 heures par sujet
testé). Cela permet, d'éviter un recodage des sons.
L'expérience sans entraînement permet de mesurer
l'intelligibilité correspondant à celle obtenue par un traitement
de la voix le plus naturelle possible.
MATERIEL ET METHODE
TRAITEMENT DU SIGNAL
Afin d'analyser l'intelligibilité de l'enveloppe du
signal de parole, nous avons due développer un traitement du signal qui
extrait l'enveloppe temporelle pour différents canaux
fréquentiels et qui remplace la structure fine par un bruit ayant un
spectre moyen équivalent.
8
3 4 5
2
2
5
0 -6 -12 -18 -24 -30
Les bandes passantes de chaque canal
Figure 24 : Spectre de la parole à long terme et
spectre procurant la meilleure intelligibilité. Les échelles de
décibels portées en ordonnées sont arbitraires.
D'après Gelis, 1993.
I
100 200 500 1000 2000 5000 10000 Hz
Le choix des bandes de fréquences à utiliser est
délicat car il va influencer directement l'intelligibilité du
signal traité.
Beaucoup de travaux sur les vocodeurs et sur la reconnaissance de
la parole ont étudié l'intelligibilité en fonction des
zones de fréquences du signal.
La zone des fréquences médium (1000-4000 Hz) est
celle qui fournit le plus d'informations sur le signal de parole. La zone des
fréquences graves (0-500 Hz) comporte peu d'informations pertinentes et
beaucoup de bruit. Des études récentes, notamment dans le domaine
de l'implant cochléaire ont aussi démontré l'importance
des fréquences comprises entre 4000 et 8000 Hz sur
l'intelligibilité.
Afin d'obtenir un compromis entre le nombre restreint de
canaux, l'équilibre en énergie de chaque canal et
l'intelligibilité, nous avons choisi quatre bandes d'un octave chacune
comprises entre 500 et 8000 Hz (500-1000, 1000-2000, 2000-4000 et 4000-8000
Hz).
Bruit de remplacement
Dans chaque canal la structure fine est remplacée par
un bruit passe-bande filtré dont le spectre moyen doit correspondre au
spectre moyen de la structure fine contenue dans le canal. Comme le montre la
figure 24 le spectre à long terme de la parole correspond
grossièrement au spectre moyen d'un bruit rose.
densité spectrale dB/Hz
bruit blanc
fréquence
densité spectrale dB/oct
·
. . · : · · : · : ·
: · : · : · :
· : · : : · : : · : : ·
: · : : ·
bruit blanc
· : · : ·
t 3 dB
· · ·
bruit
octaves
Figure 25 : Spectres de bruit blanc et de bruit rose en
bandes fines et en bandes d'octaves. D'après Gelis, 1993.
Plutôt que d'utiliser comme Shannon, un bruit blanc
filtré en passe bande nous avons préféré utiliser
un bruit rose filtré en passe bande. Cela a permis d'équilibrer
chaque bande d'octave en énergie sans qu'il y ait de correction à
faire. Le bruit rose avant filtrage est le même dans tout les canaux,
cela évite d'engendrer des problèmes de perception de
fréquences fantômes situées à la jonction de chaque
bruit filtré.
Mesure et bande passante de l'enveloppe :
L'enveloppe de chaque canal est obtenu en redressant le
signal puis en le filtrant par une fonction de type passe-bas. La
fréquence de coupure à été choisie à 250 Hz
pour faire passer l'enveloppe et une partie de la périodicité.
Une voix d'homme à été utilisée pour les tests (le
fondamental laryngé est à environ 100-110 Hz dans ce cas).
./\ A
vm411iMMINYIPOPPOPM
Figure 26 :Exemple avec le mot 'terrain' avant et
après traitement sur 4 canaux.
Comme le montre la figure 26, le signal traité
préserve l'enveloppe et une partie de la périodicité du
signal d'origine, par contre la structure fine du signal a disparu.
Un schéma général sur le traitement
effectué pour un système à quatre canaux est
représenté figure 27. Pour les cas où l'on n'utilise que
1, 2 et 3 canaux, le principe de traitement est le même (il suffit de
supprimer une partie du schéma).
0
·
·
|
|
|
Redressement
|
Filtre passe bas
|
|
500-1000 Hz
|
|
250 Hz
|
|
|
Filtre
|
Redressement
|
Filtre passe bas
|
Signal de
|
|
1000-2000 Hz
|
|
250 Hz
|
Parole
|
|
Filtre
|
Redressement
|
Filtre passe bas
|
|
|
2000-4000 Hz
|
|
250 Hz
|
|
Filtre
|
Redressement
|
Filtre passe bas
|
|
4000-8000 Hz
|
|
250 Hz
|
|
Filtre
500-1000 Hz
Bruit rose
Filtre 1(100-2000 Hz
Filtre 2000-4000 Hz
·
Filtre
4000-8000 Hz
Signal Traité
Figure 27 : Schéma simplifié du traitement de
signal effectué pour remplacer les structures fines de chaque canal
par un bruit rose filtré.
LISTE DE MOTS
Nous avons choisi les listes utilisées classiquement en
cabinet d'audioprothèse pour mesurer l'intelligibilité. Ce
sont 40 listes de 10 mots dissyllabiques numérisées sur CD ROM,
elles ont été élaborées par monsieur Fournier.
Elles sont prononcées par deux locuteurs différents de
sexe opposé, seule la voix d'homme a été
utilisée dans cette expérience (la mesure de son fondamental
laryngé est comprise entre 100 et 110 Hz).
EXPERIMENTATION
Pour chaque sujet testé nous avons passé deux
listes par condition sur l'oreille droite. L'intensité de stimulation
est à environ 30 dB SL
Pour chaque sujet normo-entendant quatre conditions dans un
ordre aléatoire ont été choisies :
- un canal (2000-4000 Hz),
- 2 canaux (1000-2000, 2000-4000 Hz),
- 3 canaux (1000-2000, 2000-4000, 4000-8000 Hz),
- 4 canaux (500-1000, 1000-2000, 2000-4000, 4000-8000 Hz)
Pour chaque sujet presbyacousique une condition a
été choisie ; le nombre de conditions a été
réduits par rapport aux normo-entendants car le test était plus
difficile pour eux :
- 4 canaux (500-1000, 1000-2000, 2000-4000, 4000-8000 Hz).
Pour ne pas surprendre le sujet testé et pour l'habituer
au signal déformé, avant de commencer le test, une liste de mots
traités avec quatre canaux a été passée.
Chaque mot de chaque liste a été
écouté 3 fois, une seule réponse était
demandée à la fin de la troisième passation.
Pour chaque mot deux mesures d'intelligibilité ont
été effectuées :
1- la reconnaissance du mot (0 ou 100%),
2- le pourcentage de phonèmes reconnus dans la liste de
mots (de 0 à 100%).
SUJETS TESTES
20 sujets normo-entendants ayant une perte auditive sur
l'oreille droite inférieure à 10 dB sur les fréquences
125, 250, 500, 1000, 2000, 4000 et 8000 Hz ont participé à cette
étude. L'âge des sujets est en moyenne de 28 ans (déviation
standard de 5 ans). La population est composée de 10 hommes et 10
femmes.
4 sujets atteints d'une surdité de perception
(presbyacousie) ayant une perte auditive moyenne sur l'oreille droite de 12 dB
à 125 Hz, 14 dB à 250 Hz, 16 dB à 500 Hz, 19 dB à
1000 Hz, 26 dB à 2000 HZ, 48 dB à 4000 Hz et 65 dB à 8000
Hz ont participé à cette étude. L'âge des sujets est
en moyenne de 83 ans (déviation standard de 7 ans). La population est
composée de 4 femmes.
100
80
so
-V" 40 20 0
100
80
· 60 40 20
RESULTATS & DISCUSSION
1 2 3 4 1 2 3 4
Nombre de tonus Nombre de comme
Figure 28 : Pourcentage et déviation standard de
phonèmes reconnus (graphe de gauche) et pourcentage et
déviation standard de mots reconnus (graphe de droite) en fonction
du nombre de canaux pour une population de 20 normo-entendants.
Les mots et phonèmes sont très bien reconnus par
les normo-entendants (90 % pour les mots et 95 % pour les phonèmes chez
certains sujets). Les résultats sont similaires à ceux
décrit par Shannon et al, 1995, mais dans ses conditions
expérimentales, il y avait un entraînement au préalable
d'une dizaine d'heures. Ces résultats corroborent aussi ceux de Lawson
et al, 1992 obtenus chez les sujets implantés cochléaires.
L'intelligibilité (des mots et des phonèmes)
croit en fonction du nombre de canaux. Une analyse statistique par Anova montre
des différences statistiques de performances en fonction du nombre de
canaux utilisés (p<0.001 : 43, 42, 41, 32, 32, 21).
Les résultats montrent qu'un système auditif qui
peut faire la différence entre les quatre fréquences 750, 1500,
3000 et 6000 Hz et qui a une résolution temporelle normale peut avoir un
intelligibilité d'environ 95 % sans qu'il soit besoin de recoder
l'information auditive sous une forme différente.
60
40
· _
cr
· _
20
C
0
Figure 29 : Pourcentage et déviation standard de
phonèmes et mots reconnus avec 4 canaux pour une population de 4
sujets presbyacousiques.
Les résultats obtenus chez les presbyacousiques sont
loin d'être médiocre en effets les sujets ont environ 45% de
reconnaissance sur les phonèmes et 15% sur les mots. Il est bon de noter
que le signal est envoyé à 30 dB SL et qu'il n'y a pas de facteur
correcteur d'amplification de chaque bande en fonction de l'audiogramme des
sujets. Les performances seraient sûrement améliorés si
l'on corrigeait les amplification de chaque canal en fonction de la perte de
chaque sujet.
CONCLUSION
Cette expérience a démontré
l'intérêt de l'enveloppe du signal de parole sur
l'intelligibilité. Quatre canaux fréquentiels, où l'on
fait uniquement passer l'enveloppe temporelle, sont suffisants pour obtenir 90
à 95 % de reconnaissance phonétique.
Cela peut en partie expliquer les bonnes performances
obtenues, chez certains enfants sourds profonds utilisant la prothèse
à transposition de fréquence de Lafon (Lafon, 1996), chez
certains patients implantés cochléaires en mono-électrode
(Hochmair & Hochmair-Desoyer, 1985) ou avec le système Inaired
à 4 canaux (Dorman et al, 1990).
Il serait intéressant de poursuivre cette étude
sur des populations plus importantes de sujets sourds (pour différents
types et niveaux de surdités). De plus, il serait bon
d'équilibrer en énergie, chaque canal en fonction de la perte
auditive du sujet testé.
L'utilisation de l'enveloppe chez les sujets atteints d'une
surdité de perception est actuellement mal adaptée avec les
appareils conventionnels.
Lorsque l'on adapte l'énergie acoustique par une aide
auditive au sujet atteind d'une surdité de perception, on utilise
actuellement des systèmes de compression qui ont des seuils de
déclenchement avec des temps d'attaque et de retour variables. Cela
entraîne évidemment des distorsions de l'enveloppe temporelle du
signal en dynamique (par contre pour un signal stationnaire, il n'y a pas de
distorsions fréquentielles ; cf figure 30). Une compression qui
permettrait de ne pas déformer l'enveloppe tout en préservant le
spectre fréquentiel instantané serait sûrement plus
avantageuse.
Signal d'entrée
Effet du temps de réponse
Signal de sortie
Effet du temps de retour
Figure 30 : Circuit classique de compression en
régime dynamique. Le temps d'attaque et le temps de retour modifient la
forme de l'enveloppe mais aussi engendrent des distorsions sur la structure
fine. D'après Gelis, 1993.
|