EVALUATION DU TRAITEMENT DU SIGNAL ET DU CODAGE DE LA
STIMULATION Introduction
La reconnaissance de la parole est primordiale pour les sujets
implantés cochléaires. Les contraintes étiologiques,
anatomiques et psychologiques sont certainement des facteurs
déterminants pour les performances de chaque sujet. D'autres
paramètres, tels que l'adaptation de la stimulation et du traitement du
signal aux spécificités du patient vont permettre d'obtenir le
maximum de compréhension admissible par le sujet.
L'objectif de cette partie est d'évaluer par
différents tests les effets du traitement du signal et du codage
effectué par l'implant cochléaire (en particulier le
Digisonic®) sur la reconnaissance de la parole.
Il Le Digigram®
Afin d'analyser au mieux le traitement effectué par
l'implant cochléaire, MXM a développé un outil, le
Digigram®, qui permet de recueillir les informations transmises
de la partie externe à la partie interne de l'implant (figure 26). Cette
technique présente l'avantage d'utiliser toute la chaîne de
traitement de l'implant cochléaire, du microphone contenu dans le
contour l'oreille, à l'antenne émettrice. Toute distorsion
engendrée par un de ces éléments sera donc prise en
compte. L'activité de chaque canal au cours du temps
représentée tel un sonagramme est appelé
électrodogramme. Cette mise en forme permet d'analyser le traitement
effectué par l'implant cochléaire pour un réglage
donné en le confrontant au signal acoustique non traité (figure
26).
a
o.
01101111110,11»,
3
|
|
.11:11.111:11111111.:illit0.111...
d1111101111111111111111
,u nu piliitilLutul: I
0.300 0:400 0.500 0.600
|
|
|
|
0.100 0.200
|
0:700 0.000 0.'900
|
Figure 26 Exemple d'un
électrodogramme effectué par le Digigrane Le signal acoustique,
représenté en bas correspond au mot 'duc'. L'activité
de chaque canal (1 à 15) est représentée en fonction
du temps, la longueur du trait correspond à la durée de
l'impulsion en ps.
III Importance de l'information contenue dans la
stimulation
Plusieurs paramètres contenus dans le signal sonore
influencent sur la reconnaissance de la parole. L'information
fréquentielle codée par le numéro d'électrode
semble être la plus pertinente pour l'implant cochléaire (Friesen
et a1,1999). L'enveloppe temporelle qui correspond aux fluctuations de
l'énergie en fonction du temps est aussi très informative
(Shannon et al, 1995).
Il nous a paru intéressant d'évaluer dans quelle
mesure l'information fréquentielle transmise par l'implant
cochléaire est intelligible par un ordinateur et d'étudier
l'apport de l'enveloppe du signal. Dans un deuxième temps on s'est
intéressé à l'importance de chacun de ces
paramètres pour la compréhension des sujets implantés
cochléaires.
a/ Reconnaissance automatique des voyelles via l'implant
cochléaire
L'objectif de cette étude est de comparer deux
modèles de reconnaissance de voyelle par ordinateur :
- Le premier modèle utilise toutes les informations
envoyées à travers l'implant au cours du temps. L'information
tonotopique (numéro d'électrode) et l'information
énergétique (énergie de l'électrode
stimulée).
- Le second modèle ne tient compte que des informations
tonotopiques (numéro d'électrode stimulée) en fonction du
temps (l'énergie est de 0 si l'électrode est inactive et 1 si
elle est stimulée).
La chaîne de mesure
Le processeur utilisé dans cette étude est un
multipeak de la société Cochlear. Il est composé de 20
canaux répartis de 50 à 5500 Hz. Le Digigram est utilisé
pour acquérir les signaux envoyés par la partie externe de
l'implant cochléaire.
tenue
PC
Figure 27: Principe d'acquisition
de signaux par le Digigram® via le processeur
Mpeak® de Cochlear
Le matériel phonétique :
La quasi-stationnarité des voyelles est
intéressante car elle simplifie les calculs (il suffit d'étudier
une moyenne temporelle plutôt qu'une analyse temps-fréquence comme
cela aurait été le cas avec les consonnes).
- 4 voyelles /ai, /i/, /u/, /3/ sont utilisées pour
l'expérimentation. Elles correspondent respectivement, dans leur
représentation formantique, aux trois sommets du triangle vocalique et
à la voyelle neutre (cf Figure 8).
Les locuteurs
- 6 locuteurs (3 femmes et 3 hommes) ont prononcé 24
fois chacun des voyelles dans un ordre aléatoire (96 items par
locuteur). Afin d'obtenir des voyelles en contexte, chacune d'elles sont
contenues dans la phrase «c'est» voyelle «à
ça».
- Chaque phrase est numérisée sur ordinateur (16
bits à 44.1 kHz), segmentée pour extraire les voyelles, puis
restituée à l'implant via un haut parleur de bonne qualité
situé à 30 cm du microphone à une intensité
d'environ 70 dB SPL.
- 2 listes sont extraitent : une liste d'apprentissage, une liste
de reconnaissance (12 prononciations par voyelle et par liste).
Acquisition et prétraitement
Chaque voyelle est enregistrée via l'implant
cochléaire par le Digigram®. Pour chaque acquisition et
pour chaque canal, on procède à un moyennage de l'énergie
d'une vingtaine de trames (on peut le faire car les voyelles sont des signaux
quasi stationnaires). Pour le premier modèle, cela correspond à
une moyenne de l'énergie transmise. Pour le deuxième
modèle, cela correspond au pourcentage d'activation du canal (car
l'énergie a pour valeur 0 ou 1). Pour chaque voyelle on obtient un
vecteur à 20 dimensions correspondant aux 20 canaux. Afin de pouvoir
comparer les deux modèles on normalise les
vecteurs. 20
18 111Modèle 1
16 · Modèle 2 14 12 10
8
11
Figure 28: Exemple de vecteurs
normalisés représentant la voyelle le/ pour les deux
modèles.
Reconnaissance des voyelles
Le principe de la reconnaissance est de déterminer par
la liste d'apprentissage la voyelle théorique de laquelle se rapproche
le plus la voyelle à reconnaître. Pour cela, il suffit de calculer
la distance euclidienne entre la voyelle à reconnaître et le
barycentre de chacun des groupes de voyelles de la liste d'apprentissage. La
plus petite distance correspond à celle de la voyelle la plus
probable.
Le pourcentage de reconnaissance entre les quatre voyelles est
supérieur à 90 % pour les deux modèles (cf tableau I).
Une comparaison de pourcentage ne trouve pas de différence statistique
entre les performances des deux modèles étudiés
(p=0.90, p=0.93 avec n=288). L'énergie de stimulation de
chaque électrode ne semble pas apporter d'informations
supplémentaires pour la reconnaissance de ces 4 voyelles.
Modèle tonotopie + énergie
|
/a/
|
/3/
|
/i/
|
/u/
|
/a/
|
0.85
|
0.07
|
0.00
|
0.00
|
/3/
|
0.15
|
0.85
|
0.01
|
0.01
|
/V
|
0.00
|
0.01
|
0.91
|
0.00
|
/u/
|
0.00
|
0.07
|
0.08
|
0.99
|
0.90
Modèle tonotopie sans énergie
|
/a/
|
/3/
|
/i/
|
/u/
|
/a/
|
0.89
|
0.03
|
0.01
|
0.00
|
131
|
0.11
|
0.93
|
0.01
|
0.03
|
/i/
|
0.00
|
0.04
|
0.92
|
0.00
|
/u/
|
0.00
|
0.00
|
0.06
|
0.97
|
0.93
Tableau I: Matrice de confusion
entre les 4 voyelles testées pour les deux modèles
utilisés (n= 288 par modèle).
Distance statistique entre deux populations de voyelles A et
B
Nous avons calculé la distance statistique entre les
différentes populations de voyelles (24 items par groupe et par
locuteur) les pourcentages de reconnaissance étant proches de 100 %, une
comparaison de pourcentages semble insuffisante pour dissocier les deux
modèles étudiés.
La formule de la distance statistique entre deux populations A et
B est la suivante
(o-,, + ol,)
i IM A - M BI D(21,B)=
Distances statistiques
|
énergie + tonotopie
|
tonotopie
|
131-/u/
|
22.80
|
26.46
|
/i/-/a/
|
23.63
|
22.74
|
Ii/-131
|
18.59
|
17.35
|
131-/a/
|
13.75
|
13.56
|
/i/-/u/
|
25.13
|
26.73
|
/a/-/u/
|
30.10
|
33.41
|
Moyenne
|
22.33
|
23.38
|
Tableau II: Distances
statistiques entre chaque population de voyelles deux à deux, pour
les deux modèles étudiés.
Tout comme les matrices de confusion, les distances
statistiques des groupes de voyelles ne différent pas statistiquement en
fonction du modèle étudié. L'énergie ne semble donc
pas apporter d'informations supplémentaires.
Faut-il pour autant négliger l'enveloppe du signal
envoyé par l'implant ? Est-ce que tous les implantés n'utilisent
que l'information tonotopique pour la reconnaissance des voyelles?
b/ Modèle de compréhension
|