WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Préservation de l'enveloppe temporelle pour la compression du signal de parole

( Télécharger le fichier original )
par Stéphane GALLEGO
Université Lyon I -  1998
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

DEGRADATION DE L'ENVELOPPE ET INLIGIBILITE

Des études chez le normo-entendant, principalement investiguées par l'équipe de Drullman (Drulman et al, 1994a,b,1995, 1996 ; Noordhoek & Drullman, 1997) ont caractérisé la perte d'intelligibilité en fonction de la dégradation de l'enveloppe temporelle des mots. Les résultats montrent que l'information est principalement contenue dans les fréquences comprises entre 1 à 32 Hz. Plus le spectre de l'enveloppe est réduit plus l'intelligibilité est faible.

Envelope cutoff frequency

I Hz 2 Hz 4 Hz 8 Hz 16 Hz 32 Hz

LP

0.17

0.29

0.49

0.70

0.82

0.89

HP

0.94

0.84

0.60

0.37

0.20

0.15

Tableau I : Intelligibilité en fonction du filtrage de l'enveloppe du signal de parole
(en passe-bas et en passe-haut). D'après Drullman et al, 1994.

ETUDE

EXPERIMENTALE

SUR

L'ENVELOPPE TEMPORELLE

RECONNAISSANCE DE LA PAROLE PAR L'ENVELOPPE

OBJECTIF

L'étude bibliographique a montrée l'importance de l'enveloppe du signal de parole sur l'intelligibilité. Contrairement à la structure fine du signal, l'analyse de l'enveloppe du signal ne demande pas une analyse très complexe par le système auditif périphérique. En effet, l'intégration temporelle des sons (mesures de TMTF) n'est pas affectée par une atteinte cochléaire.

Nous avons voulu évaluer l'importance de l'enveloppe de la parole en éliminant toute la structure fine du signal. Ce genre de traitement peut présenter un intérêt pour les surdités ayant une forte dégradation de la sélectivité fréquentielle ou seul le facteur temporel peut intervir (par exemple les surdités profondes ou sévères ont une tonotopie cochléaire très frustre, seules les caractéristiques temporelles du signal peuvent être codées ; ce traitement peut aussi être intéressant pour l'implant cochléaire).

Son principe de base est de garder l'enveloppe du signal pour différents canaux (1 à 4) et de remplacer la structure fine de chaque canal par un bruit passe-bande équilibré en énergie.

Contrairement aux travaux de Shannon (1995), nous ne voulons pas qu'il y ait une séance d'entraînement longue qui permet d'améliorer les scores de reconnaissance (8 à 10 heures par sujet testé). Cela permet, d'éviter un recodage des sons. L'expérience sans entraînement permet de mesurer l'intelligibilité correspondant à celle obtenue par un traitement de la voix le plus naturelle possible.

MATERIEL ET METHODE

TRAITEMENT DU SIGNAL

Afin d'analyser l'intelligibilité de l'enveloppe du signal de parole, nous avons due développer un traitement du signal qui extrait l'enveloppe temporelle pour différents canaux fréquentiels et qui remplace la structure fine par un bruit ayant un spectre moyen équivalent.

8

3 4 5

2

2

5

0 -6 -12 -18 -24 -30

Les bandes passantes de chaque canal

Figure 24 : Spectre de la parole à long terme et spectre procurant la meilleure intelligibilité. Les échelles de décibels portées en ordonnées sont arbitraires. D'après Gelis, 1993.

I

100 200 500 1000 2000 5000 10000 Hz

Le choix des bandes de fréquences à utiliser est délicat car il va influencer directement l'intelligibilité du signal traité.

Beaucoup de travaux sur les vocodeurs et sur la reconnaissance de la parole ont étudié l'intelligibilité en fonction des zones de fréquences du signal.

La zone des fréquences médium (1000-4000 Hz) est celle qui fournit le plus d'informations sur le signal de parole. La zone des fréquences graves (0-500 Hz) comporte peu d'informations pertinentes et beaucoup de bruit. Des études récentes, notamment dans le domaine de l'implant cochléaire ont aussi démontré l'importance des fréquences comprises entre 4000 et 8000 Hz sur l'intelligibilité.

Afin d'obtenir un compromis entre le nombre restreint de canaux, l'équilibre en énergie de chaque canal et l'intelligibilité, nous avons choisi quatre bandes d'un octave chacune comprises entre 500 et 8000 Hz (500-1000, 1000-2000, 2000-4000 et 4000-8000 Hz).

Bruit de remplacement

Dans chaque canal la structure fine est remplacée par un bruit passe-bande filtré dont le spectre moyen doit correspondre au spectre moyen de la structure fine contenue dans le canal. Comme le montre la figure 24 le spectre à long terme de la parole correspond grossièrement au spectre moyen d'un bruit rose.

densité spectrale dB/Hz

bruit blanc

fréquence

densité spectrale dB/oct


·

. .
· :
·
· :
· :
· :
· :
· :
· :

· :
· : :
· : :
· : :
· :
· : :
·

bruit blanc


·
:
· :
·

t 3 dB

·
·
·

bruit

octaves

Figure 25 : Spectres de bruit blanc et de bruit rose en bandes fines et en bandes d'octaves. D'après Gelis, 1993.

Plutôt que d'utiliser comme Shannon, un bruit blanc filtré en passe bande nous avons préféré utiliser un bruit rose filtré en passe bande. Cela a permis d'équilibrer chaque bande d'octave en énergie sans qu'il y ait de correction à faire. Le bruit rose avant filtrage est le même dans tout les canaux, cela évite d'engendrer des problèmes de perception de fréquences fantômes situées à la jonction de chaque bruit filtré.

Mesure et bande passante de l'enveloppe :

L'enveloppe de chaque canal est obtenu en redressant le signal puis en le filtrant par une fonction de type passe-bas. La fréquence de coupure à été choisie à 250 Hz pour faire passer l'enveloppe et une partie de la périodicité. Une voix d'homme à été utilisée pour les tests (le fondamental laryngé est à environ 100-110 Hz dans ce cas).

./\ A

vm411iMMINYIPOPPOPM

Figure 26 :Exemple avec le mot 'terrain' avant et après traitement sur 4 canaux.

Comme le montre la figure 26, le signal traité préserve l'enveloppe et une partie de la périodicité du signal d'origine, par contre la structure fine du signal a disparu.

Un schéma général sur le traitement effectué pour un système à quatre canaux est représenté figure 27. Pour les cas où l'on n'utilise que 1, 2 et 3 canaux, le principe de traitement est le même (il suffit de supprimer une partie du schéma).

0


·


·

 
 
 

Redressement

Filtre passe bas

 

500-1000 Hz

 

250 Hz

 
 

Filtre

Redressement

Filtre passe bas

Signal de

 

1000-2000 Hz

 

250 Hz

Parole

 

Filtre

Redressement

Filtre passe bas

 
 

2000-4000 Hz

 

250 Hz

 

Filtre

Redressement

Filtre passe bas

 

4000-8000 Hz

 

250 Hz

 

Filtre

500-1000 Hz

Bruit rose

Filtre
1(100-2000 Hz

Filtre
2000-4000 Hz


·

Filtre

4000-8000 Hz

Signal
Traité

Figure 27 : Schéma simplifié du traitement de signal effectué
pour remplacer les structures fines de chaque canal par un bruit rose filtré.

LISTE DE MOTS

Nous avons choisi les listes utilisées classiquement en cabinet d'audioprothèse pour mesurer
l'intelligibilité. Ce sont 40 listes de 10 mots dissyllabiques numérisées sur CD ROM, elles ont
été élaborées par monsieur Fournier. Elles sont prononcées par deux locuteurs différents de

sexe opposé, seule la voix d'homme a été utilisée dans cette expérience (la mesure de son fondamental laryngé est comprise entre 100 et 110 Hz).

EXPERIMENTATION

Pour chaque sujet testé nous avons passé deux listes par condition sur l'oreille droite. L'intensité de stimulation est à environ 30 dB SL

Pour chaque sujet normo-entendant quatre conditions dans un ordre aléatoire ont été choisies :

- un canal (2000-4000 Hz),

- 2 canaux (1000-2000, 2000-4000 Hz),

- 3 canaux (1000-2000, 2000-4000, 4000-8000 Hz),

- 4 canaux (500-1000, 1000-2000, 2000-4000, 4000-8000 Hz)

Pour chaque sujet presbyacousique une condition a été choisie ; le nombre de conditions a été réduits par rapport aux normo-entendants car le test était plus difficile pour eux :

- 4 canaux (500-1000, 1000-2000, 2000-4000, 4000-8000 Hz).

Pour ne pas surprendre le sujet testé et pour l'habituer au signal déformé, avant de commencer le test, une liste de mots traités avec quatre canaux a été passée.

Chaque mot de chaque liste a été écouté 3 fois, une seule réponse était demandée à la fin de la troisième passation.

Pour chaque mot deux mesures d'intelligibilité ont été effectuées :

1- la reconnaissance du mot (0 ou 100%),

2- le pourcentage de phonèmes reconnus dans la liste de mots (de 0 à 100%).

SUJETS TESTES

20 sujets normo-entendants ayant une perte auditive sur l'oreille droite inférieure à 10 dB sur les fréquences 125, 250, 500, 1000, 2000, 4000 et 8000 Hz ont participé à cette étude. L'âge des sujets est en moyenne de 28 ans (déviation standard de 5 ans). La population est composée de 10 hommes et 10 femmes.

4 sujets atteints d'une surdité de perception (presbyacousie) ayant une perte auditive moyenne sur l'oreille droite de 12 dB à 125 Hz, 14 dB à 250 Hz, 16 dB à 500 Hz, 19 dB à 1000 Hz, 26 dB à 2000 HZ, 48 dB à 4000 Hz et 65 dB à 8000 Hz ont participé à cette étude. L'âge des sujets est en moyenne de 83 ans (déviation standard de 7 ans). La population est composée de 4 femmes.

100

80

so

-V" 40 20 0

100

80


· 60 40 20

RESULTATS & DISCUSSION

1 2 3 4 1 2 3 4

Nombre de tonus Nombre de comme

Figure 28 : Pourcentage et déviation standard de phonèmes reconnus (graphe de gauche)
et pourcentage et déviation standard de mots reconnus (graphe de droite) en fonction du
nombre de canaux pour une population de 20 normo-entendants.

Les mots et phonèmes sont très bien reconnus par les normo-entendants (90 % pour les mots et 95 % pour les phonèmes chez certains sujets). Les résultats sont similaires à ceux décrit par Shannon et al, 1995, mais dans ses conditions expérimentales, il y avait un entraînement au préalable d'une dizaine d'heures. Ces résultats corroborent aussi ceux de Lawson et al, 1992 obtenus chez les sujets implantés cochléaires.

L'intelligibilité (des mots et des phonèmes) croit en fonction du nombre de canaux. Une analyse statistique par Anova montre des différences statistiques de performances en fonction du nombre de canaux utilisés (p<0.001 : 43, 42, 41, 32, 32, 21).

Les résultats montrent qu'un système auditif qui peut faire la différence entre les quatre fréquences 750, 1500, 3000 et 6000 Hz et qui a une résolution temporelle normale peut avoir un intelligibilité d'environ 95 % sans qu'il soit besoin de recoder l'information auditive sous une forme différente.

60

40

· _

cr

· _

20

C

0

Phonème

Mot

Figure 29 : Pourcentage et déviation standard de phonèmes et mots reconnus avec 4 canaux
pour une population de 4 sujets presbyacousiques.

Les résultats obtenus chez les presbyacousiques sont loin d'être médiocre en effets les sujets ont environ 45% de reconnaissance sur les phonèmes et 15% sur les mots. Il est bon de noter que le signal est envoyé à 30 dB SL et qu'il n'y a pas de facteur correcteur d'amplification de chaque bande en fonction de l'audiogramme des sujets. Les performances seraient sûrement améliorés si l'on corrigeait les amplification de chaque canal en fonction de la perte de chaque sujet.

CONCLUSION

Cette expérience a démontré l'intérêt de l'enveloppe du signal de parole sur l'intelligibilité. Quatre canaux fréquentiels, où l'on fait uniquement passer l'enveloppe temporelle, sont suffisants pour obtenir 90 à 95 % de reconnaissance phonétique.

Cela peut en partie expliquer les bonnes performances obtenues, chez certains enfants sourds profonds utilisant la prothèse à transposition de fréquence de Lafon (Lafon, 1996), chez certains patients implantés cochléaires en mono-électrode (Hochmair & Hochmair-Desoyer, 1985) ou avec le système Inaired à 4 canaux (Dorman et al, 1990).

Il serait intéressant de poursuivre cette étude sur des populations plus importantes de sujets sourds (pour différents types et niveaux de surdités). De plus, il serait bon d'équilibrer en énergie, chaque canal en fonction de la perte auditive du sujet testé.

L'utilisation de l'enveloppe chez les sujets atteints d'une surdité de perception est actuellement mal adaptée avec les appareils conventionnels.

Lorsque l'on adapte l'énergie acoustique par une aide auditive au sujet atteind d'une surdité de perception, on utilise actuellement des systèmes de compression qui ont des seuils de déclenchement avec des temps d'attaque et de retour variables. Cela entraîne évidemment des distorsions de l'enveloppe temporelle du signal en dynamique (par contre pour un signal stationnaire, il n'y a pas de distorsions fréquentielles ; cf figure 30). Une compression qui permettrait de ne pas déformer l'enveloppe tout en préservant le spectre fréquentiel instantané serait sûrement plus avantageuse.

Signal d'entrée

Effet du temps de réponse

Signal de sortie

Effet du
temps de retour

Figure 30 : Circuit classique de compression en régime dynamique. Le temps d'attaque et le temps de retour modifient la forme de l'enveloppe mais aussi engendrent des distorsions sur la structure fine. D'après Gelis, 1993.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle