CHAPITRE 2
REPRESENTATION DES SIGNAUX NON-STATIONNAIRES
Le choix de la représentation est un paramètre
crucial qu'il faut savoir le choisir de manière adéquate pour
augmenter les performances de tout système de discrimination des signaux
non stationnaires. Ce choix consiste à définir un espace de
représentation discriminant permettant d'extraire l'information
significative portée par le signal, donc qui mette en avant les
différences entre les classes et gomme les ressemblances.
Pour les signaux non stationnaires, devant la
complexité et la variété des situations rencontrées
et compte tenu qu'il n'existe pas de solution universelle valable pour tous
signaux, il s'avère nécessaire de faire une étude
spécifique pour chaque cas afin de sélectionner les
représentations les plus appropriées. Dans ce sens, Marr [211]
note que «Chaque représentation particulière fournit
explicitement certaines informations au dépend d'autres mises en
arrière et qui peuvent être difficiles à retrouver. Ce
point est important car la manière dont l'information est
représentée peut fortement modifier la facilité avec
laquelle on en percevrait les différents
éléments».
Le but de ce chapitre est, d'une part, de mettre en
évidence les différents outils de représentation des
signaux non stationnaires et, d'autre part, de concevoir une nouvelle ondelette
plus adéquate aux signaux sismiques. Nous commençons par les
représentations temporelle et fréquentielle pour lesquelles nous
illustrons le fait qu'en présence de la non stationnarité, ces
deux représentations à une dimension ne sont plus
adaptées. Nous proposons alors d'utiliser des représentations
conjointes en temps et en fréquence (ou échelle). La
démonstration de nouvelles versions du principe d'Heisenberg-Gabor, pour
le spectrogramme, la représentation de Wigner-Ville et la
transformée en ondelette continue font aussi l'objet de ce chapitre.
2.1 Représentations temporelle et fréquentielle
2.1.1 Représentation temporelle
La représentation temporelle (ou spatiale dans certains
cas) constitue la forme la plus simple et naturelle pour représenter les
signaux dérivant d'un phénomène donné. Elle ne
nécessite aucun outil mathématique pour la générer
et son observation révèle plusieurs informations temporelles ou
atemporelles. Par exemple, pour le cas des signaux sismiques où la
figure (2.1) donne des signaux relatifs à une explosion chimique, un
séisme local et un séisme lointain; la représentation
temporelle pourrait nous indiquer la durée de l'événement
sismique, le temps d'arrivée des phases, la magnitude, etc. Cependant,
ces paramètres ne sont pas toujours facile à avoir, et donc
généralement inadaptés pour la discrimination de ces
signaux. En effet, pour le cas d'un signal sismique à faible ratio
signal/bruit ou tronqué, il est très difficile d'avoir tous ces
paramètres même par un expert du domaine. La figure (2.2) permet
d'expliciter ce problème pour deux signaux sismiques relatifs au
même événement et enregistrés par les stations MIF
et TGT.
Remarque:
Malgré les problèmes posés par les bruits de
fond pour l'analyse des signaux sismiques, ils sont très utiles dans
d'autres domaines tels que le génie civil [95].
2.1.2 Représentation fréquentielle
Une alternative à la représentation temporelle du
signal consiste à représenter son contenu fréquentiel.
Celui-ci est obtenu en calculant sa transformée de Fourier (FT:
Fourier Transform) définie, pour un signal x(t)
d'énergie finie (c'est à dire appartenant
àl'ensemble des fonctions de carré sommable
L2), par:
FTx : L2(R) ? L2(R)
x(t) ? FTx(í) = R8 -8x(t)e-i2ðítdt
(2.1)
ou x(t) ? FTx(ù) = R8 -8x(t)e-iùtdt
17
(a)
(b)
Es0429-JBB -2005-05-06 02:47:39
2000
1500
1000
500
0
-500
-1000
-1500
-2000
Time [sec]
-2500
0 20 40 60 80 100 120 140
(c)
Es0319-CZDV-2005-09-16 00:50:27
1500
1000
500
0
-500
-1000
Time [sec]
-1500
0 20 40 60 80 100 120 140
Es0001-TIS -2003-01-22 13:11:23
800
600
400
200
0
-200
-400
Time [sec]
-600
0 10 20 30 40 50 60 70 80
Figure 2.1: Représentation temporelle d'une explosion
chimique (a), d'un séisme local (b) et d'un séisme lointain
(c)
-1000
0 10 20 30 40 50 60 70 80
-500
1500
1000
500
0
Es0103-TGT -2003-01-23 12:32:42
Time [sec]
-100
-150
-200
-250
0 10 20 30 40 50 60 70 80
200
-50
150
100
50
0
Es0103-MIF -2003-01-23 12:32:42
Time [sec]
(a) (b)
qui pourra s'écrire, en notant respectivement
|FTx(u)| et ?(u) le module et la phase de FTx, sous la
forme:
FTx(u) = |FTx(u)|ei?(í)
(2.2)
Cette transformée étant inversible:
Z 8
x(t) = IFTFTx(u) =F
Tx(u)ei2ðítdu (2.3)
-8
La FT mesure donc un indice de similarité entre le
signal et une collection d'ondes (exponentielles complexes) de longueur
infinie, où FT x(u) représente la contribution de
l'onde de fréquence u au signal x(t). La FT est en faite une
transformée en ondes du signal, dans laquelle toute information
temporelle disparaît.
Dans l'étude des signaux, FT x(u), qui est
appelé représentation fréquentielle, fournit une
représentation plus simple à interpréter par rapport
à la représentation temporelle. Dans le cadre de la propagation
des ondes sismiques, on peut considérer le milieu de propagation comme
étant une fonction de transfert entre la source et les
sismomètres qui agit séparément sur chaque
fréquence. La vitesse et l'atténuation du signal sismique
dépendent de la fréquence considérée. Une
modélisation en fréquence de la dispersion d'onde est donc
possible.
Le signal sous sa forme fréquentielle FT
x(u) est le plus souvent étudié par l'analyse de la
courbe |FTx(u)| définissant l'amplitude du signal à
chaque fréquence. Cette description est riche mais elle ne suffit pas
à caractériser complètement le signal. En effet, il est
possible d'avoir des signaux dont les représentations temporelles sont
différentes mais ayant le même contenu fréquentiel comme le
montre l'exemple ci-dessous.
Exemple 2.1: La FT de deux signaux différents en temps
ayant le même con-
tenu fréquentiel.
19
Nous considérons les deux signaux S1 et S2 définis
par:
S1 = sin(2ð.25.t) + sin(2ð.50.t), t ? [0, T]
S2=
|
|
sin(2ð.25.t), t ? [0, T1] sin(2ð.50.t), t ?]T1,T]
|
Bien que leurs représentations temporelles sont
différentes (figure (2.3)), les contenus fréquentiels des signaux
S1 et S2 représentés sur la figure (2.4) sont les mêmes.
(a) (b)
-0.2
-0.4
-0.6
-0.8
0.8
0.6
0.4
0.2
-1
0
1
0 005 01 015 02 025
Time[sec]
Signal S2
-0.5
-1.5
0.5
1.5
-1
-2
2
0
1
0 005 01 015 02 025
Time[sec]
Signal S1
Figure 2.3: Représentation temporelle des signaux S1 (a)
et S2 (b)
(a) (b)
40
60
50
30
20
10
0
0 100 200 300 400 500
Modulus of Fourier transform: S2
Frequency [Hz]
120
100
60
40
20
80
0
0 100 200 300 400 500
Modulus of Fourier transform: S1
Frequency [Hz]
Figure 2.4: Représentation fréquentielle des
signaux S1 (a) et S2 (b)
x 10 4 Es0259-CZDN-2003-03-24 14:49:20
-2.85
-2.95
-3.05
0 10 20 30 40 50 60 70 80
-2.9
-3
(a)
Time [sec]
(b)
4
7
6
5
3
2
0
0 5 10 15 20 25
1
x 10 4 Es0259-CZDN-2003-03-24 14:49:20
Frequency [Hz]
20
on peut caractériser un signal par son contenu
fréquentiel (figure (2.5)), dans d'autres cas, la perte de la
localisation temporelle dans la FT peut s'avérer handicapante pour
l'analyse de ces signaux. En effet, pour le cas des événements
à faibles amplitudes (ratio signal/bruit faible), la classification
basée sur la FT pourra donner de mauvais résultats à cause
du bruit. La figure (2.6) montre la différence entre la
transformée de Fourier
des signaux représentés dans les figures (2.1.
(a-b-c)) qui correspondent respectivement àune explosion
chimique, un séisme local et un séisme lointain. De plus, la
représentation
fréquentielle limite la généralisation du
système de classification automatique au niveau des classes. Par
exemple, si on veut discriminer des sous-classes du même type, il se peut
qu'elles ont le même contenu fréquentiel mais des
représentations temporelles différentes. Ceci est dû au
fait que l'information temporelle x(t) n'est pas portée par son module
en fréquence |FTx(í)| mais par sa phase en
fréquence ?(í).
(a)
(b)
21
(c)
3
2.5
2
1.5
1
0.5
Frequency [Hz]
x 10 5 Es0429-JBB -2005-05-06 02:47:39
3.5
0
0 5 10 15 20 25
3
2.5
2
1.5
1
0.5
Frequency [Hz]
0
0 5 10 15 20 25
x 10 4 Es0001-TIS -2003-01-22 13:11:23
3
2.5
2
1.5
1
0.5
Frequency [Hz]
x 10 5 Es0319-CZDV-2005-09-16 00:50:27
3.5
0
0 5 10 15 20 25
FTxa(u) =
|
? ????
????
|
2FTx(u) si u > 0,
FTx(u) si u = 0,
0 sinon.
|
Figure 2.6: Représentation fréquentielle d'une
explosion chimique (a), d'un séisme local (b) et d'un séisme
lointain (c)
2.2 Signal analytique
Les problèmes posés par la perte de la
localisation temporelle dans la représentation fréquentielle
peuvent être résolus par l'utilisation de grandeurs combinant des
informations de nature temporelle et fréquentielle, à savoir la
fréquence instantanée et le retard de groupe. Avant de
présenter ces deux concepts, il convient de définir au
préalable la notion du signal analytique xa (t).
Le signal analytique xa (t) est défini
simplement en fréquence par [68]:
Ce signal contient la même information que x (t) : la
partie des fréquences négatives (redondante de la partie positive
du fait de la symétrie hermitienne du spectre d'un signal réel,
ce qui n'altère en rien le contenu informationnel) est remplacée
par 0 et le module des fréquences positives est doublé. La
relation qui lie x(t) et xa(t) en temps est:
xa(t) = x(t) + iH[x(t)] (2.4)
où H est la transformée de Hilbert :
[Z +8 ]
1 x(t - r)
H[x(t)] = v.p. r dr (2.5)
ð -8
avec v.p signifiant la valeur principale de Cauchy
donnée par la limite, si elle existe (àcause de la
singularité en r = 0),
[Z ] [Z -å Z +8 ]
x(t - r) x(t - r) x(t - r)
v.p. r dr = lim r dr + r dr (2.6)
å?0
R -8 å
Le signal analytique xa(t) peut se mettre sous la
forme polaire:
xa(t) = |xa(t)|ei÷(t)
(2.7)
où|xa (t)|, et ÷(t) représentent
respectivement l'amplitude (aussi appelée enveloppe) et la phase
instantanée de xa (t). Une telle représentation permet
la séparation de l'information temporelle contenue dans
|xa(t) | et l'information de phase contenue dans ÷(t). De plus,
à partir cette forme polaire, on définit la fréquence
instantanée:
1 d÷(t)
íi(t) = (2.8)
2ð dt
décrivant le contenu spectral instantané du
signal. D'une façon duale, on peut souhaiter décrire le
comportement temporel local d'un signal en fonction de la fréquence.
Ainsi, en considérant la FT du signal analytique sous sa forme
polaire:
23
On peut obtenir une information sur l'instant d'arrivée
d'une fréquence grâce au retard du groupe:
1 dø(í)
ôg(í) = - (2.10)
2ð dí
Le signal analytique permet alors de définir deux
grandeurs conjointes en temps et en fréquence: la fréquence
instantanée et le retard de groupe. Cependant, ces grandeurs ne
conduisent à des représentations aisément
interprétables que dans le cas des signaux mono- composantes [66] pour
lesquels, à un instant donné (respectivement fréquence
donnée), le signal n'existe qu'au voisinage d'une fréquence
donnée (respectivement instant donné). Dans le cas des signaux
sismiques, (multicomposantes, non stationnaires), ces fonctions
unidimensionnelles locales s'avèrent inadéquates, comme le montre
la figure (2.7). Il peut alors être intéressant de
représenter les signaux sismiques conjointement dans les domaines
temporel et fréquentiel afin de caractériser leur
évolution spectrale au cours du temps.
(a) (b)
45
40
35
30
25
20
15
10
5
0
0 5 10 15 20 25
Es0001-TIS -2003-01-22 13:11:23
Frequency[Hz]
25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45
Es0001-TIS -2003-01-22 13:11:23
Time[sec]
Figure 2.7: Fréquence instantanée (a) et Retard du
groupe (b) du signal sismique représenté par la figure (2.1.a)
2.3 Représentations temps-fréquence
Les limites posées par les représentations
temporelle et fréquentielle ont fait orienter les travaux de recherche
vers l'utilisation des représentations temps-fréquence (TFRs:
Time-Frequency Representations) procurant une information localisée
simultanément dans les domaines du temps et des fréquences. Ce
type de représentations donne une description
naturelle des signaux non stationnaires dont les signaux
sismiques font partie et permet en outre de définir un espace de
représentation discriminant.
Plusieurs formulations de telles représentations ont
été proposées et selon la manière avec laquelle le
signal dépend de sa TFR, on peut répartir les TFRs en trois types
[145]: linéaires, quadratiques et non linéaires non quadratiques.
Pour les représentations quadratiques, une classification basée
sur la propriété de la covariance [148] est très
utilisée et permettant ainsi la définition de quatre classes
très connues [239], à savoir: la classe de Cohen [68], la classe
affine [258], la classe hyperbolique [237, 147] et la classe de puissance [146,
238].
Le problème reste, compte tenu qu'il n'existe pas de
solution universelle valable pour tous signaux, de savoir comment faire le bon
choix de la TFR la plus appropriée pour une application donnée
parmi une infinité de TFRs. Le choix est en fait beaucoup plus vaste,
Meyer [218] note à ce sujet «En exagérant à peine,
nous introduisons presqu'autant d'algorithmes d'analyses qu'il y a de
signaux». Donc, il s'avère nécessaire de faire le choix
selon des critères définis au préalable en
dépendance avec l'application et le signal étudié. Dans ce
sens, des TFRs dépendantes du signal ont été
conçues [22, 141, 80, 124]. Mais la mise en oeuvre de ces
représentations n'est pas possible dans le cas des systèmes de
classifications modulaires. En effet, le noyau d'une représentation
dépendante est toujours liés à un problème
d'optimisation où la connaissance de plusieurs paramètres de
classification au préalable est nécessaire. Par
conséquent, il est justifiable d'utiliser des TFRs indépendamment
du signal étudié. Le compromis consiste à choisir entre
une bonne concentration des motifs et une suppression des termes croisés
d'interférences tout en tenant compte d'autres propriétés
mathématiques telles que la régularité, la
positivité, la marginalité, l'inversibilité, etc.
2.3.1 Transformée de Fourier à court terme
de Fourier à court terme (STFT: Short-Time Fourier
Transform), est définie ainsi:
STFTx : L2(R) ? L2(R)
f 8 (2.11)
x(t) ? ST F Tx(t, í) = x(u)h*(u -
t)e-i2ð"udu
De nombreux choix de h sont possibles. En général,
cette fonction est choisie àsupport compact, suffisamment
régulière et bien localisée en temps et en
fréquence.
Le Signal x(t) peut être reconstruit à l'aide d'une
fenêtre de synthèse g différente de la fenêtre
d'analyse h grâce à la relation:
x(t) = Z8 Z8 STFTx(u,
í)g(t - u)ei2ð"tdudí (2.12)
-8 -8
à condition que g et h vérifient: f8
g(t)h*(t)dt = 1.
La STFT est donc une représentation linéaire
à deux dimensions dépendant du temps et de la fréquence et
permettant la mesure de la contribution de la fréquence í au
signal x à l'instant t. Cependant, cette description n'est pas stricte,
dans la mesure où pour évaluer le contenu spectral pour un
instant choisi, il faut nécessairement observer le signal sur un horizon
non nul autour de cet instant [229]. La fenêtre d'analyse h, dont
plusieurs cas ont été étudiés dans [135, 232], est
ainsi caractérisée par ses extensions temporelles Lt et
fréquentielle Lí. Elle mélange donc l'information contenu
dans le signal entre les instants t #177; Ät
2 dans la bande de fréquence í #177;
Ä" 2 . Ainsi, une localisation arbitrairement précise d'un
événement dans les domaines temporel et fréquentiel n'est
pas possible. En effet, l'augmentation de la résolution temporelle
(respectivement fréquentielle) de cette représentation
nécessite une fenêtre d'analyse plus localisée en temps
(respectivement en fréquence), ce qui a pour effet de dégrader sa
résolution fréquentielle (respectivement temporelle). Par
conséquent, le choix de cette fenêtre repose sur la recherche d'un
compromis entre l'hypothèse de la quasi-stationnarité du signal
sur l'intervalle d'analyse et les résolutions temporelle et
fréquentielle de la représentation. Ceci est dû, au
principe d'incertitude d'Heisenberg-Gabor exprimant le fait qu'un signal ne
puisse être parfaitement localisé à
1/2 ? 1/2
R8 |x(t)|2dt
4ð (2.13)
la fois en temps et en fréquence [273, 252]:
? ? ?
Z8 Z8
-8 -8
?t2|x(t)|2dt ? ? í2|F
Tx(í)|2dí ? =
S2=
|
? ?
?
|
sin(2ð.100.t), t ? [0, T1] sin(2ð.300.t), t
?]T1,T]
|
Cet inégalité a été l'objet de
plusieurs travaux. Ainsi, Rassias [252, 251] a pu la démontrer pour des
ordres supérieurs, Loughlin et Cohen [205] ont abouti à formuler
une version locale, Shinde et Gadre [276] ont pu la reformuler pour le cas de
la transformée de Fourier fractionnaire. Cependant, plusieurs critiques
ont été évoqués tant sur la manière avec
laquelle cet inégalité est interprétée [322, 235]
que sur la limite minimale du terme droite [67]. L'inégalité
(2.13) est un principe général qui tient compte seulement du
signal et de sa FT. Donc, elle ne nous permet pas d'avoir aucune mesure sur
l'influence de la STFT et de la fenêtre d'analyse. Afin d'atteindre cet
objectif, on démontre, dans le paragraphe concernant le spectrogramme,
une nouvelle inégalité en se basant sur le principe
général d' Heisenberg-Gabor.
La visualisation de l'image du module de STFT permet une
interprétation sur le nombre de composantes et sur le contenu
temps-fréquence à la limitation de la résolution
près. Ce qui est explicité par l'exemple ci-dessous.
Exemple 2.2: Le module de la STFT de deux signaux
différents en temps
ayant le même contenu fréquentiel.
Nous considérons les deux signaux S1 et S2 suivants:
S1 = sin(2ð.100.t) + sin(2ð.300.t), t ? [0, T]
27
représentation bidimensionnelle de ces deux signaux via
le module de la STFT permet de montrer leurs contenus fréquentiels
à tout instant contrairement au module de la FT qui nous donne juste le
contenu fréquentiel sans aucune information temporelle. Ainsi, pour le
signal S1 le module de la STFT nous montre que les deux fréquences 100Hz
et 300 Hz existent sur tout l'intervalle [0, T] alors que pour le signal S2 les
deux fréquences existent mais sur deux intervalles indépendants
[0, T1] et ]T1, T].
(a) (b)
200
400
100
300
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120
20 40 60 80 100
Hanning window (128 pts)
Modulus
FT
-1.5
200
300
400
100
1.5
0.5
0.5
-1
0
0
1
0 0.05 0.1 0.15 0.2 0.25
0 0.05 0.1 0.15 0.2 0.25
Modulus of STFT
Time [sec]
Signal S1
4.5
4
3.5
3
2.5
2
1
0.5
1.5
200
300
400
100
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120
10 20 30 40 50 60
Hanning window (128 pts)
Modulus
FT
-0.2
-0.6
200
300
400
100
0.8 0.6 0.4 0.2
0.4
0.8
0
0
0 0.05 0.1 0.15 0.2 0.25
0 0.05 0.1 0.15 0.2 0.25
Modulus of STFT
Time [sec]
Signal
4.5
4
3.5
3
2.5
2
1
0.5
1.5
Figure 2.8: Le module de la STFT pour deux signaux
différents S1 (a) et S2 (b) mais ayant le même contenu
fréquentiel
En comparison avec le module du spectre, l'information du
module des coefficients de la STFT est plus complète. En fait, cette
image d'amplitude suffit à caractériser le signal à un
déphasage près [68]. Cependant, les coefficients de la STFT,
malgré leur
nécessité pour la synthèse du signal, sont
peu utilisés directement à cause de la difficultéde les
interpréter [303]. Quant à l'information de la phase de la STFT,
elle peut être
utilisée pour définir la fréquence
instantanée locale et le retard du groupe local dans le plan
temps-fréquence [131].
Pour le cas de signaux sismiques, la visualisation du module
de la STFT nous permet de différencier entre les différents types
de signaux. Il est clair sur la figure (2.10) que le contenu
temps-fréquence d'une explosion chimique (a), d'un séisme local
(b) et d'un séisme lointain (c) sont différents. En effet, les
fréquences où il y a une grande concentration de l'énergie
sismique (dômes énergétiques en rouge) et même
l'ordre de
28
Hanning window (128 pts)
Es0103-TGT -2003-01-23 12:32:42
1000
0.9
0.8
500
0.7
0.6
0.5
0
0.4
0.3
-500
0.2
0.1
0 20 40 60 80 100 120
10 20 30 40 50 60 70
Modulus of STFT
FT
0
0
1600
1400
5
5
1200
10
1000
10
800
15
15
600
400
20
20
200
0 10 20 30 40 50 60 70
Time [sec]
1 2 3 4 5
Modulus x 104
(a)
(c)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
1000 2000 3000 4000 5000
Hanning window (128 pts)
Modulus
FT
-100
-150
-200
-50
150
100
50
20
10
15
0
0
5
0 10 20 30 40 50 60 70
0 10 20 30 40 50 60 70
Es01 03-MIF -2003-01-23 12:32:42
Modulus of STFT
Time [sec]
250
200
350
300
50
150
100
grandeur de cette dernière (voir l'échelle
énergétique) sont différents entre les trois types
représentés. Et même dans le cas d'un signal trop
bruité ou tronqué, les composantes fréquentielles
principales sont faciles à distinguer et par conséquent une
discrimination visuelle est possible (figure (2.9)).
29
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
0.5 1 1.5 2 2.5
Modulus x 104
Hanning window (128 pts)
FT
-200
-400
400
600
200
20
10
15
0
0
5
0 10 20 30 40 50 60 70
10 20 30 40 50 60 70
Es0001-TIS -2003-01-22 13:11:23
Modulus of STFT
Time [sec]
800
600
400
200
1200
1000
(a)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
0.5 1 1.5 2 2.5 3
Modulus x 105
Hanning window (128 pts)
FT
-1000
-1500
-2000
-500
1500
1000
500
20
10
15
0
0
5
0 20 40 60 80 100 120
0 20 40 60 80 100 120
Es0429-JBB -2005-05-06 02:47:39
Modulus of STFT
Time [sec]
4500
4000
2500
2000
3500
3000
500
1500
1000
(b)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
0.5 1 1.5 2 2.5 3
Modulus x 105
Hanning window (128 pts)
FT
-1000
-500
1000
500
20
10
15
0
0
5
0 20 40 60 80 100 120
20 40 60 80 100 120
Es031 9-CZDV-2005-09-16 00:50:27
Modulus of STFT
Time [sec]
4000
2000
5000
3000
1000
(c)
Figure 2.10: Le module de la STFT pour une explosion chimique
(a), un séisme local (b) et un séisme lointain (c)
2.3.2 Spectrogramme
Le module carré de la STFT (2.11) conduit à une
représentation quadratique communément appelée
spectrogramme (SPEC: Spectrogram). Cette représentation, qui dis-
tribue l'énergie du signal dans le plan
temps-fréquence, est la plus ancienne qui ait
étéproposée, mais aussi l'une des plus
utilisées. Elle est précisément définie par
[145]:
SPECx : L2(R) ? L2(R)
x(t) ? SPECx(t, í) = | i8
x(u)h*(u - t)e-i2ðíudu|2 (2.14)
= |STFT |2
où h désigne une fenêtre d'analyse. Comme
pour la STFT, le choix de la fenêtre repose sur la recherche d'un
compromis entre l'hypothèse de la quasi-stationnarité du signal
sur l'intervalle d'analyse et les résolutions temporelle et
fréquentielle de la représentation. Afin de mettre en evidence
l'influence du fenêtre d'analyse et du SPEC sur la localisation
temporelle et fréquentielle, nous démontrons le
théorème ci-dessous.
Théorème 2.1 (Version spectrogramme de
l'inégalité d'Heisenberg-Gabor en í). Soit x ?
L2(R) et h ? L2(R) \ {0} une fenêtre d'analyse,
alors on a l'inégalité:
1/2 ? 1/ 2
8
? ?
fZ8
8 Z
?
-8 -8 -8
t2|x(t)|2dt ? ?
?
(R)
4ð (2.15)
khkL2(R)IIxII2 L2
í2SP ECx(u, í)dudí ?
=
~ i8 ) 1/2 ( i8 )1/2
avec hML2(R) = |h(t)|2dt et
xML2(R) = |x(t)|2dt .
-8 -8
Démonstration. Supposons que les deux
intégrales dans l'inégalité (2.15) sont finies. Par la
propriété de l'invariance par translation de l'intégrale
au sens de Lebesgue et par utilisation du fait que la STFT d'un signal x par
une fenêtre d'analyse h n'est que la FT
> 1 -- 4/r
|
8
f
|
8
f
|
|ST FTx(u, í))|2 dí du
= 14/r11h112L2
(R)11x112L2 (R)
|
de x multiplié au préalable par le conjugué
de la fenêtre d'analyse h translatée, on a:
8 8 8
11h112L2(R) f t2| x (t) | 2 dt = f | h (u)
| 2 du f t2| x (t)| 2 dt
= = =
|
8
f
8
f
8
f
|
8
f
8
f
8
f
|
t2 | h (t -- u) |2 | x (t) |2 dtdu
t2|I FT* (ST FTx(u,
í))(t)|2dtdu
t2| I FT (ST FTx(u,
í))(t)|2dtdu
En appliquant l'inégalité d'Heisenberg-Gabor (2.13)
et l'égalité de Plancherel-Parseval (conservation de
l'énergie):
ci | x (t)| 2 dt = ci |
FTx ( í) | 2 dí
on a:
1/2 8 1/2
( f88 í2|STFTx (u,
í))|2dí) x ( f t2|IFT(STFTx(u,
í))(t)|2dt) -8
8
f
> 1 -- 4/r
|ST FTx(u, í))|2 dí
par intégration par rapport à u et par application
de l'inégalité de Cauchy-Schwarz, on obtient:
(
f8 í2|STFTx(u,í))|2dídu) 1/2 (f
|h(t)12dt)1/2 (f t2|x(t)|2dt)1/2 -8 -8 -8-8 7 7
1/2 ,21STFTx(u, 0)12 ch idu)
( 7 7 1/2
t2lIFT(STFTx(u, v))(t)12
dtdu)
= (
-8 -8 -8 -8
f88 ( f88 í2|STFTx(u, í)) |2dí) (
f: t2 | IFT(STFTx(u, í))(t)|2 dt) du
1/21/2
De la même façon, nous pourrons prouver le
théorème ci-dessous.
Théorème 2.2 (Version spectrogramme de
l'inégalité d'Heisenberg-Gabor en t). Soit x E
L2(118) et h E L2(118) \ {0} une
fenêtre d'analyse, alors on a l'inégalité:
(f8 í2 |FTx(í)|2dí ( I f
t2SPECx(t, í)dtdhí
)1/2 8 8 -8
(2.16)
11h11L2(R)11x112L2(R)
>
4ð
) 1/2
1/2 1/2
avec 11h11L2(R) = ( 78 f h(t)|2dt) et
11x11L2(R) = (78 |x(t)|2dt) .
Démonstration. La même démarche que le
théorème (2.1).
A partir des deux théorèmes ci-dessus, nous avons
le résultat suivant:
Corollaire 2.1. Soit x E L2(118) et h E
L2(118) \ 101 une fenêtre d'analyse, alors on a
l'inégalité:
1/2 8 8 1/2
( 0f0 8
t2SPECx(t, í)dtdí) (
f f í2SPECx(u,
í)dudhí)
-8 -8 -8 -8
8 1/2 ( 8 1/2
11h112 11x114 (2.17)
X ( f t2|x(t)|2dt) f
í2|FT(í)|2dí) > L2
(R) L2 (R)
-8 -8 16ð2
1/2 1/2
avec 11h11L2(R) = ( 78 f h(t)|2dt) et
11x11L2(R) = (78 |x(t)|2dt) .
Démonstration. Il suffit de multiplier les termes
des inégalités (2.15) et (2.16) pour obtenir
l'inégalité (2.17).
Remarques:
· A partir de l'inégalité (2.17), nous
constatons qu'il y a un dilemme entre la résolution de la
transformée de Fourier à court terme et celle de la
transformée de Fourier. Ce qui met en cause certaines
interprétations de la résolution des représentations
temps-fréquence basées sur l'inégalité
d'Heisenberg-Gabor standard (2.13).
· Pour le cas d'une fenêtre d'analyse de norme
unité, nous trouvons dans les inégalités (2.15) et (2.16)
la même borne minimale que celle de l'inégalité (2.13).
Le spectrogramme est une représentation
bilinéaire et covariante aux translations en temps et en
fréquence, donc est un élément de la classe de Cohen.
Cependant, le principal problème posé est les
interférences. En effet, le spectrogramme est une représentation
quadratique qui respecte par conséquent le principe de la superposition
quadratique qui s'écrit pour une TFR quadratique T appliquée
à un signal à deux composantes x(t) = P2 ckxk(t):
k=1
Tx(t, u) = |c1|2Tx1(t, u) +
|c2|2Tx2(t, u) + c1c* 2Tx1,x2(t, u)
+ c2c* 1Tx2,x1(t, u) (2.18)
Ainsi, pour un signal N composantes x(t) = PN ckxk(t),
on a [144]:
k=1
· pour chaque composante du signal ckxk, il
correspond une auto-composante |ck|2Txk(t, u);
· pour chaque pair de composantes ckxk
et clxl avec k =6 l, il correspond un terme inter-composantes
(ou terme d'interférences) ckc* kTxk,xl (t, u) + clc*
kTxl,xk (t, u).
Par conséquent, pour N composantes, on a N auto-composante
et N(N-1)
2 termes
d'interférences. Ceci influence la visualisation de la
TFR quadratique d'un signal multicomposantes et la rend difficile. Mais pour le
spectrogramme, les interférences sont de nature oscillatoire et existent
seulement dans les régions du plan temps-fréquence
oùles composantes se superposent et sont proches [167]. Les
exemples (2.3), (2.4) et (2.5) permettent d'expliciter ce
phénomène.
Exemple 2.3: Le SPEC d'un signal à deux composantes non
superposables.
Nous considérons le signal S2 de l'exemple (2.2)
constitué de deux composantes de fréquences 100Hz et 300hz non
superposables. Le SPEC de ce signal, en utilisant une fenêtre de Hanning
de 128 points, est donné par la figure (2.11) où il est clair
qu'il n'y a pas d'interférences entre les deux composantes.
34
400
200
300
100
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120
10 20 30 40 50 60
Hanning window (128 pts)
Modulus
FT
-0.2
-0.4
-0.6
-0.8
200
400
300
0.8
0.6
0.4
0.2
100
0
0
0 0.05 0.1 0.15 0.2 0.25
0 0.05 0.1 0.15 0.2 0.25
Time [sec]
ignal S2
SPEC
20
5
15
10
Figure 2.11: Le SPEC d'un signal à 2 composantes non
superposables
400
200
300
100
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120
20 40 60 80 100
Hanning window (128 pts)
Modulus
FT
-0.5
-1.5
400
200
300
100
0.5
1.5
-1
0
0
1
0 0.05 0.1 0.15 0.2 0.25
0 0.05 0.1 0.15 0.2 0.25
Time [sec]
Signal S1
SPEC
20
5
0
15
10
Figure 2.12: Le SPEC d'un signal à 2 composantes
superposables et non proches Exemple 2.4: Le SPEC d'un signal à deux
composantes superposables et non
proches.
Nous considérons le signal S de l'exemple (2.2)
constitué de deux composantes de fréquences 100Hz et 300hz
superposables mais non proches. Le SPEC de ce signal, en utilisant une
fenêtre de Hanning de 128 points, est donné par la figure (2.12)
où il apparaît clairement que malgré la superposition des
deux composantes il n'y a pas d'interferences.
35
Exemple 2.5: Le SPEC d'un signal à deux composantes
superposables et proches.
Nous considérons le signal S de l'exemple (2.2) mais
cette fois-ci constitué de deux composantes de fréquences 100Hz
et 110hz superposables et proches. Le SPEC de ce signal, en utilisant une
fenêtre de Hanning de 128 points, est donné par la figure (2.13)
où on ne peut plus différencier entre les différentes
composantes à cause des interférences dues à la
superposition et la proximité fréquentielle.
400
200
300
100
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120
20 40 60 80 100 120
Hanning window (128 pts)
Modulus
FT
-1.5
400
200
300
100
0.5
0.5
1.5
0
0
1
1
0 0.05 0.1 0.15 0.2
0 0.05 0.1 0.15 0.2
Time [sec]
Signal S1
PEC
0.25
0.25
40
35 30 25
20
15 10 5
Figure 2.13: Le SPEC d'un signal à 2 composantes
superposables et proches
Pour le cas des signaux sismiques, signaux multicomposantes
non stationnaires, le SPEC est caractérisé par des
interférences très difficiles à étudier à
cause, d'une part, du nombre indéfini des composantes et, d'autre part,
de la non connaissance de leurs contenus spectraux à tout instant d'une
façon précise. Mais comme les signaux sismiques sont
constitués de composantes principales (phases) alors, dans le SPEC,
elles seront caractérisées par des dômes d'énergie
plus fort que les autres composantes. Ce qui nous permet de caractériser
la catégorie du signal étudié. La figure (2.14) donne le
SPEC d'une explosion chimique (a), d'un séisme local (b) et d'un
séisme lointain (c).
Si le SPEC présente, d'une part, l'avantage d'avoir des
interférences atténuées et d'être positif partout,
d'autre part, il présente l'inconvénient d'être une
transformation singulière [143, 125], en plus de la difficulté du
choix de la fenêtre d'analyse malgré les propositions de combiner
plusieurs types [204, 114].
36
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 50 100 150 200 250
0.5 1 1.5 2 2.5
Modulus x 104
Hanning window (256 pts)
FT
-200
-400
400
600
200
20
10
15
0
0
5
0 10 20 30 40 50 60 70
10 20 30 40 50 60 70
Es0001-TIS -2003-01-22 13:11:23
Time [sec]
SPEC
x 105
4
2
8
6
14
12
10
(a)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 50 100 150 200 250
0.5 1 1.5 2 2.5 3
Modulus x 105
Hanning window (256 pts)
FT
-1000
-1500
-2000
-500
1500
1000
500
20
10
15
0
0
5
0 20 40 60 80 100 120
0 20 40 60 80 100 120
Es0429-JBB -2005-05-06 02:47:39
Time [sec]
SPEC
x 106
4
2
8
6
16
14
12
10
(b)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 50 100 150 200 250
0.5 1 1.5 2 2.5 3
Modulus x 105
Hanning window (256 pts)
FT
-1000
-500
1000
500
20
10
15
0
0
5
0 20 40 60 80 100 120
20 40 60 80 100 120
Es031 9-CZDV-2005-09-16 00:50:27
Time [sec]
SPEC
x 107
2.5
2
3
0.5
1.5
1
(c)
Figure 2.14: Le SPEC d'une explosion chimique (a), d'un
séisme local (b) et d'un séisme lointain (c)
2.3.3 Représentation de Wigner-Ville
La représentation de Wigner-Ville (WV: Wigner-Ville)
peut être considérée comme la plus importante TFR. Elle a
été définie au début, dans un contexte de la
mécanique quantique, par Wigner en 1932 et ensuite, introduite dans le
domaine d'analyse des signaux par Ville en 1948. Cependant, elle n'est devenu
très utilisée qu'après la publication des articles de
Claasen et Mecklenbrauker [63, 64, 65]. L'importance de cette
représentation provient de ses caractéristiques
intrinsèques par rapport à d'autres TFRs et son application aux
différentes situations [214]. La distribution de WV est définie
à partir de la représentation temporelle du signal par [63,
109]:
WVx : L2(R) ?
L2(R2)
f 8 (2.19)
x(t) ? W Vx(t, í) = x(t -u 2)x*(t
+u 2)e-i2ðíudu
En comparaison avec la STFT, la WV a un avantage pratique:
l'utilisateur n'a pas à se soucier du choix de la fenêtre
d'analyse ni de sa longueur. En fait, l'equation (2.19) montre que la
fenêtre d'analyse du signal x(t) est le signal lui-même
renversé. Ce fenêtrage adaptatif permet une concentration
excellente des motifs et permet à la WV de présenter la meilleur
précision temps-fréquence des TFRs actuelles [172]. Cependant,
comme pour le spectrogramme, cette TFR souffre aussi de la limitation de la
résolution temps-fréquence pour lesquelles nous démontrons
les inégalités ci-dessous.
Théorème 2.3 (Version Wigner-Ville de
l'inégalité d'Heisenberg-Gabor en í). Soit x ?
L2(R), alors on a l'inégalité:
? ? 1/2 ? ? 1/2
f 8 f 8 f 8 kxk3 L2(R)
?
t2|x(t)|2dt ? ? í2|W
Vx(u, í)|2dudí ? = 2ð (2.20) -8 -8
-8 ( f8 )1/2
avec xML2(R) = |x(t)|2dt .
-8
Démonstration. Supposons que les intégrales
de l'inégalité (2.20) sont finis. Nous avons, pour un signal x
réel à énergie finie,
WVx(t,í) =
|
Z8
-8
|
u u
x(t - 2)x(t +
2)e-i2ðíudu
|
En faisant le changement de variable y = t +u
2, nous obtenons:
WVx(t,í) = Z8 x(y) [2x(2t - y)e-2
iðí(v-2t)] e-2iðívdy
-8
donc la représentation de WV d'un signal réel,
n'est que la STFT de ce signal par une fenêtre d'analyse h où:
h*(t - y) = 2x(2t - y)e-2iðí(v-2t)
Par conséquent, pour obtenir l'inégalité
(2.20), il suffit de changer la norme de h dans l'inégalité
(2.15) par 2 x L2 (R). ~
De la même façon, nous pouvons prouver le
théorème ci-dessous, en utilisant cette fois-ci
l'inégalité (2.16).
Théorème 2.4 (Version Wigner-Ville de
l'inégalité d'Heisenberg-Gabor en t). Soit x ? L2(R),
alors on a l'inégalité:
( f 8 ) 1/2 ( f8 )1/2
f 8
í2|F
Tx(í)|2dí t2|W Vx(t,
í)|2dtdí
-8 -8 -8
( f8 )1/2
avec xML2(R) = |x(t)|2dt .
-8
|
(2.21)
IIxII3 ,2(R)
= 2ð
|
A partir de ces deux théorèmes, nous avons le
résultat suivant:
Corollaire 2.2. Soit x ? L2(R), alors on a
l'inégalité:
((f 8 ) 1/2 ( f 8 )1/2 f 8 f 8 t2|W
Vx(t, í)|2dtdí í2|W
Vx(u, í)|2dudí -8 -8 -8 -8 f 8 )
1/2 ( f 8 )1/2 = iixii6 L2(R)
t2|x(t)|2dt í2|F
Tx(í)|2dí4ð2 -8 -8
|
(2.22)
|
1/2
( f8 )
avec xML2(R) = |x(t)|2dt .
-8
Démonstration. Il suffit de multiplier les termes
des inégalités (2.20) et (2.21) pour obtenir
l'inégalité (2.22). ~
Remarque:
De l'inégalité (2.22), nous constatons qu'il y a
un dilemme entre la résolution temps- fréquence de la
représentation de Wigner-Ville et celle de la transformée de
Fourier. En effet, en augmentant la résolution de l'une, l'autre diminue
et vice-versa.
La WV est une transformation régulière, ce qui
la permet d'avoir des performances supérieures en comparaison avec les
transformations singulières dans certains problèmes de
classification des signaux [143, 139, 125]. En plus de sa vérification
de plusieurs propriétés
mathématiques désirables dans une TFR [143] et
particulièrement la covariance
(propriétéfortement souhaitable pour discriminer les
signaux [79]), toutes les représentations de la classe de Cohen [68]
s'obtienent par la double convolution temps-fréquence de la WV:
Cöx: L2(R) ?
L2(R2)
x(t) ? Cö x(t, õ) = f8
f8 ç(u - t, f - õ)WVx(u, f)dudf (2.23)
où ç est le noyau de la TFR. Par conséquent,
le SPEC peut être obtenu par un noyau ç(t, í) = WVh(t,
í).
Comme toutes les représentations quadratiques, la
représentation de WV entraîne des termes d'interférences
à cause du principe de la superposition quadratique. Ces termes
d'interférences, dont la géométrie a été
l'objet de plusieurs études [16, 144], se car-
40
actérisent par l'apparition d'un point d'interference
pour chaque deux points du plan temps-fréquence provenant de deux
composantes différentes. Ce qui apparaît sous formes
d'oscillations dont la direction est perpendiculaire à la droite liant
les deux points du signal.
Exemple 2.6: La WV d'un signal à deux composantes non
superposables.
Nous considérons le signal 82 de l'exemple (2.2)
constitué de deux composantes de fréquences 100Hz et 300hz non
superposables. La WV du signal est donné par la figure (2.15).
En comparaison avec le SPEC, nous constatons l'apparition des
termes d'interférences dans la représentation de WV même si
les deux composantes sont non superposables. Ceci est justifiable par le fait
que dans ces régions, la WV ne présente que des
interférences fluctuant rapidement entre valeurs positives et
négatives et se compensent si nous faisons une moyenne locale. Ce qui
amène le SPEC à avoir des valeurs proches de zéro dans ces
régions.
0 50 100 150 200 250 300 350 400 450
10 20 30 40 50 60
Modulus
FT
-0.2
-0.4
-0.6
-0.8
0 50 100 150 200 250 300 350 400 450
0.8
0.6
0.4
0.2
0
0 0.05 0.1 0.15 0.2
0 0.05 0.1 0.15 0.2 0.25
Time [sec]
ignal S2
WV
0.25
20
0
-10
-20
-30
10
Figure 2.15: Le WV d'un signal à 2 composantes non
superposables
La représentation des signaux sismiques par le module
de la WV est illustrée par la figure (2.16) où l'influence des
interférences rend très difficile la caractérisation du
type de l'événement par la voie visuelle.
41
Es0001-TIS -2003-01-22 13:11:23
600
400
200
0
-200
-400
0 10 20 30 40 50 60 70
WV
FT
x 106
0
0
5
5
5
10
10
0
15
15
20
20
-5
0 10 20 30 40 50 60 70
Time [sec]
0.5 1 1.5 2 2.5
Modulus x 104
(a)
(c)
Es0429-JBB -2005-05-06 02:47:39
1500
1000
500
0
-500
-1000
-1500
-2000
0 20 40 60 80 100 120
x 107
FT
WV
0
0
4
3
5
5
2
1
10
10
0
-1
15
15
-2
20
-3
20
-4
0 20 40 60 80
100 120
Time [sec]
0.5 1 1.5 2 2.5 3
Modulus x 105
Es0319-CZDV-2005-09-16 00:50:27
1000
500
0
-500
-1000
0 20 40 60 80 100 120
WV
FT
x 107
0
0
6
4
5
5
2
10
10
0
15
15
-2
-4
20
20
-6
0 20 40 60 80 100 120
Time [sec]
0.5 1 1.5 2 2.5 3
Modulus x 105
(c)
Figure 2.16: Le module de la WV d'une explosion chimique (a),
d'un séisme local (b) et d'un séisme lointain (c)
42
2.3.4 Représentations à interférences
réduites
La lisibilité des représentations
temps-fréquences étant un facteur essentiel pour l'analyse des
signaux non stationnaires. Ainsi, il est souhaitable de diminuer le nombre et
l'amplitude des interférences. Une première étape, dans ce
cadre, consiste à ne représenter que des signaux analytiques afin
d'éliminer les termes interférentiels provenant des interactions
entre les composantes portées par les fréquences positives et
celles portées par les fréquences négatives (figure
(2.17)). Une seconde étape consiste alors à exploiter la
structure oscillante des interférences, ce qui suggère
d'introduire une opération de lissage
dans le plan temps-fréquence. Appliqué à
la représentation de WV, ce lissage conduit
àl'évaluation du produit de convolution
suivant: öTF(t, u) * WVx(t, u)
Ce qui conduit explicitement aux éléments de la
classe de Cohen. Donc, le SPEC peut être vu comme une version
lissée de la WV du signal par un noyau égal à la WV de la
fenêtre d'analyse h, ce qui atténue les interférences.
Cependant, ce lissage provoque l'étalement de la distribution
d'énergie dans les régions associées au signal, conduisant
le SPEC à une perte de concentration [167, 174, 144].
200
400
100
300
0
10 20 30 40 50 60
Modulus
FT
-0.2
-0.6
200
300
400
100
0.8 0.6 0.4 0.2
0.4
0.8
0
0
0 0.05 0.1 0.15 0.2 0.25
0 0.05 0.1 0.15 0.2 0.25
Time [sec]
Signal
WV
20
10
0
20
30
10
200
300
400
100
0
10 20 30 40 50 60
Modulus
FT
-0.2
-0.6
200
300
400
100
0.8 0.6 0.4 0.2
0.4
0.8
0
0
0 0.05 0.1 0.15 0.2 0.
0 0.05 0.1 0.15 0.2 0.25
Time [sec]
Signal
WV
60
40
20
0
-20
-40
-60
(a) (b)
Pour le choix de öTF, plusieurs alternatives
sont envisageables. En effet, nous pouvons choisir un noyau de lissage fixe ou
adapté. Pour le premier cas, la solution la plus naturelle consiste
à utiliser un filtre passe-bas bidimensionnel indépendant du
signal analysé. Un certain nombre de représentations repose sur
ce principe, parmi lesquelles on compte celle de Choï-Williams (CW) et la
pseudo Wigner-Ville lissé (SPWV: Smoothed Pseudo Wigner-Ville) [109].
Pour le deuxième cas, la solution consiste à paramétrer un
noyau de lissage et à l'optimiser au sens d'un critère
donné dépendant du signal à analyser. La figure (2.18)
donne la représentation de trois signaux sismiques via la SPWV où
les fenêtres de lissage sont de type Gauss de largeur 128 points. Il est
clair, après la réduction des interférences, qu'il est
possible de caractériser le type d'événement de la
même façon qu'on a fait pour le SPEC.
44
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
0.5 1 1.5 2 2.5
Modulus x 104
Gauss window (128 pts)
FT
-200
-400
400
600
200
20
10
15
0
0
5
0 10 20 30 40 50 60 70
10 20 30 40 50 60 70
Es0001-TIS -2003-01-22 13:11:23
Time [sec]
SPWV
x 105
4
2
8
6
0
(a)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
0.5 1 1.5 2 2.5 3
Modulus x 105
Gauss window (128 pts)
FT
-1000
-1500
-2000
-500
1500
1000
500
20
10
15
0
0
5
0 20 40 60 80 100 120
0 20 40 60 80 100 120
Es0429-JBB -2005-05-06 02:47:39
Time [sec]
SPWV
x 106
4
2
8
6
0
10
(b)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 20 40 60 80 100 120
0.5 1 1.5 2 2.5 3
Modulus x 105
Gauss window (128 pts)
FT
-1000
-500
1000
500
20
10
15
0
0
5
0 20 40 60 80 100 120
20 40 60 80 100 120
Es031 9-CZDV-2005-09-16 00:50:27
Time [sec]
SPWV
x 10
4
2
8
6
0
12
10
6
(c)
Figure 2.18: La SPWV d'une explosion chimique (a), d'un
séisme local (b) et d'un séisme lointain (c)
2.4 Représentations temps-échelle
Les méthodes basées sur la STFT ont des
résolutions temporelles et fréquentielles fixes. Il est par
conséquent difficile de faire une mesure précise des composantes
d'un signal à la fois dans les hautes et les basses fréquences.
Pour vaincre ce problème, les représentations
temps-échelle (TSRs: Time-Scale Representations) présentent une
alternative intéressante dans la mesure de pouvoir analyser les
composantes de hautes et de basses fréquences du signal en adoptant
automatiquement une résolution temps-fréquence adéquate.
Dans ce sens, ces représentations sont considérées aussi
comme des TFRs [145]. Mais nous utilisons, dans ce mémoire, la
nomination originale temps-échelle pour les caractériser des TFRs
à résolution fixe.
Comme les TFRs, les TSRs peuvent être réparties
en des représentations linéaires et quadratiques. Pour le cas
linéaire, on trouve les ondelettes et pour le cas quadratique, la classe
affine constitue la classe la plus intéressante des TSR covariantes
[258, 145, 109, 239]. En effet, cette classe, comme la classe de Cohen, est
unitairement équivalente aux classes de puissance et hyperbolique [79]
et admet une formulation similaire à l'equation (2.23) à partir
de la WV par le biais d'une transformation affine [110, 258, 145]. Parmi les
éléments de cette classe, en plus de la WV, on trouve le
scalogramme, la distribution de Bertrand [39] et la distribution de Flandrin
[109] (le lecteur pourra se référer à [239] pour d'autres
représentations).
Dans ce paragraphe, nous restreignons à la
présentation de la transformée en ondelettes continues (CWT:
Continuous Wavelet Transform) et au scalogramme (SCAL: Scalogram). Ces deux
représentations ont montré une grande efficacité dans le
domaine de la géophysique [117] et plus particulièrement dans le
traitement des signaux sismiques utilisés dans la caractérisation
des sous-sols [48, 263].
2.4.1 Transformée en ondelettes continues
La définition de la CWT est proche de celle de la STFT,
où la fenêtre modulée h(t)ei2ðõt a
été remplacée dans l'équation (2.11) par une
ondelette [222, 130, 109]:
CWT x ø : L2(R) ?
L2(R2)
x(t) ? CWT x ø (a, t) =
|
|
x(u) * a,t(u)du
|
(2.24)
|
où a > 0 est le paramètre d'échelle (ou
de dilatation), t est le paramètre de position (ou de translation) et
a,t : u?1 va (u-t
a ) représente une famille de fonctions appelées
ondelettes analysantes (ou ondelettes filles) dérivant toutes de la
même ondelette mère .
L'équation (2.24) donne les coefficients d'ondelette
(nombre à valeur généralement complexe) contenant toutes
les informations dont on a besoin pour conduire une analyse
multi-échelle. En effet, changer la valeur de a permet de dilater (a>
1) ou de contracter (a < 1) la fonction a,t
(propriété d'analyse multi-échelle); changer t autorise
l'analyse de la fonction x(t) au voisinage de différents points t
(propriété d'analyse locale). Lorsque le paramètre
d'échelle a croît, l'ondelette couvre une plus grande fraction du
signal permettant d'extraire le comportement à long terme de x(t). Au
contraire, lorsque a diminue,
la fraction du signal analysée diminue et rend possible
l'étude des variations locales àhautes
fréquences. Pour une étude comparative entre l'analyse de Fourier
et l'analyse par ondelettes le lecteur pourra se référer à
[312].
Ainsi par ses propriétés de
dilatation-contraction et de translation, la CWT est caractérisée
dans le plan espace-échelle par une fenêtre dont la largeur
diminue lorsque on se focalise sur les structures de petite échelle
(haute fréquence) ou s'élargit lorsque'on s'intéresse au
comportement à grande échelle (basse fréquence). Cette
capacité d'adaptation en fonction de l'échelle d'analyse lui a
valu la dénomination de «microscope mathématique» dont
le grossissement est donné par1 a et dont l'optique est
donné par le choix de la fonction mère [219].
le domaine fréquentiel par la condition
d'admissibilité suivante:
Cø =
|
Z8
-8
|
|F Tø(!)|2
|!| d! <+8 (2.25)
|
et on dit que est admissible. Cette condition étant
relativement souple, un assez grand nombre de fonctions peuvent convenir. Aussi
impose-t-on souvent des contraintes supplémentaires de
régularité, de décroissance rapide ou de compacité
suivant les besoins. Il convient de bien cerner le problème à
étudier et d'être guidé par diverses considérations
incluant, en particulier, une base physique [175] ou à défaut la
ressemblance entre le signal analysé et la famille d'ondelette choisie
[119].
Outre ses propriétés de localisation, une
ondelette possède la propriété de s'annuler en zéro
dans le domaine de Fourier, ce qui simplifie énormément la
condition d'admissibilitédans certains cas comme le montre le
théorème ci-dessous.
Théorème 2.5. Soit ? L2(R) fl
L1(R). Alors les deux assertions suivantes sont équivale
ntes:
1. est admissible,
2. 78 (t)dt = 0 soit FTø(0) = 0.
Démonstration. La démonstration de ce
théorème se trouve dans [278]. ~
La condition d'admissibilité assure la possibilité
de reconstruire un signal à partir de ses coefficients d'ondelettes.
Cette transformée inverse est donnée par [278]:
1
x(t) = Cø
|
Z8 Z8
-8 8
|
a-2CWT x ø (a, u) a,u(t)dadu (2.26)
|
Remarque:
Dans les cas où il n'est pas nécessaire de
reconstruire le signal, la fonction ? L2 (R)
Comme toutes les TFRs, la CWT soufre de la limitation de ses
résolutions temporelle et fréquentielle à cause du
principe d'incertitude d'Heisenberg-Gabor (2.13). Le théorème
ci-dessous donne une version de ce principe en t pour la CWT.
Théorème 2.6 (Version ondelette de
l'inégalité d'Heisenberg-Gabor). Soit x E
L2(118) et e une ondelette, alors on a
l'inégalité:
00
8-8
avec 11x11L2(R) = ( i: 1/2
lx(t)12dt) .
8 1/28 81/2
(I y2|FTx (y)|2dy) (
iit2 a- 12 |CWTxe (a,
t)|2dadt > ,V4re
lx112L2(R) (2.27)
Démonstration. Supposons que les deux
intégrales dans l'inégalité (2.27) sont finies. A partir
de la condition d'admissibilité (2.25), nous avons:
Ce f8
y2|FTx(y)|2dy = f8
|'i3(|â|)|2
dâ f8
y2|FTx(y)|2dy
=
|
f8
|
f8
|
y2|FTe(ay)|2|FTx(y)|2|a|-1dady
|
(2.28)
|
et en utilisant l'expression de la CWT par le biais de l'IFT:
CWT (a, t) = I FT (FTx (y) ,V|a|
FT*e (ay))(t)
on obtient:
i88-i88
|
y2|FT ø (y)| 2 a2 dady = C
nWTx (a,t) -- e
|
I
|
y2|FTx(y)|2dy (2.29)
|
En appliquant l'inégalité d'Heisenberg-Gabor
(2.13), nous avons:
8
1/2 8
(
O'8 t2| CWTxe (a, t)
| 2 dt) (f y2|FTn/uxø (a,t) (y)|2dy) 1/2
-8
7 |nWTxø(a,t)|2dt
8
>
4ð
d'où
1/2 1/2
f [( f8 t2|CWTxø(a, t)|2dt) ( f
í2|FTCWTxø(a,t)(í)|2dí) 1 a2
-8 -8 -8
>
I, I, |CWTxø(a,t)|2 ada dt
4ð
et par la propriété de la conservation
d'énergie,l'inégalité de Cauchy-Schwarz et en utilisant
l'égalité (2.29), nous obtenons:
1/2 ( 8 8 ) 1/2
( f f t2| CWTxø (a, t)|2dtdj
WT
,t
(a,t)(í)|2dídaaffí2|FTC
) 1/2 ) 1/288
o
= ( f f |CWTxø(a,
t)|2dtd; ,VCø ( f í2|FTCWTx
ø (a,t) (í)|2 dí
-8 -8 -8
1/2 8 1/2
> f [( cf°
t2|CWTxø(a, t)|2dt) ( f
í2|FTCWTxø(a,t)(í)|2dí) 1 da2
-8 -8 -8
> C4/r111x112L2(R)
Finalement, en divisant par ,VCø , nous obtenons
l'inégalité (2.27).
2.4.2 L'ondelette de Ben
Dans la littérature, on trouve plusieurs ondelettes qui
ont été utilisées, particulièrement pour
l'exploration du sol par analyse des signaux sismiques. Nous citons:
l'ondelette de Morlet [78], l'ondelette de Berlage [7], l'ondelette de Ricker
[254, 62] et l'ondelette chapeau Mexicain [78]). Dans ce paragraphe, nous
essayons de présenter une nouvelle ondelette complexe dite ondelette de
Ben qui a été utilisée avec succès par l'auteur
dans plusieurs travaux de classifications des signaux non stationnaires dont
les signaux sismiques en font partie [36, 75, 31].
Deux ondelettes particulièrement populaires pour la CWT
sont l'ondelette chapeau mexicain (dérivée seconde d'une
gaussienne) et l'ondelette de Morlet [78]. La première est une ondelette
réelle et symétrique donnée par [190]:
)
-8 -8
2
3
ømh(t) = ð-1/4(1 --
t2)e-t2/2
(2.30)
.V
Ce qui permet de ne pas introduire de déphasage dans la
transformée en ondelettes contrairement à des ondelettes non
symétriques (comme le sont les ondelettes orthonormales à support
compact d'Ingrid Daubechies [78]. De plus, comme étant issue de la
dérivée d'une ondelette (Gaussienne), elle est
particulièrement adaptée à la détection des
discontinuités. Quant à l'ondelette de Morlet complexe, sa forme
complète est donnée par [4]:
ømc(t) = -1/4(eiù0t -
e-ù2 0/2)e-t2/2 (2.31)
où w0 est sa fréquence centrale. Le terme
e-ù2 0/2 est un terme de correction utilisé
pour remplir la condition de moyenne nulle nécessaire pour
l'admissibilité. En pratique, ce terme devient négligeable pour
des valeurs w0 = 5 (la valeur proposée par Morlet est 5.33). Ce qui a
poussé la majorité des chercheurs à utiliser une forme
dite standard de l'ondelette Morlet [102, 190, 4, 3]:
øms(t) = -1/4eiù0te-t2/2 (2.32)
Cette ondelette est à valeurs complexes et à
oscillations faibles [4], permettant ainsi à extraire des informations
sur l'amplitude et la phase du processus analysé [302].
Numériquement, on peut la considérer à support compact.
Enfin, le meilleur avantage de cette ondelette est qu'avec une fenêtre
gaussienne, les composantes sont caractérisées par des ensembles
de points connexes contenant un maximum local sur l'image du module. Une
composante apparaît alors comme un dôme d'énergie [57] ce
qui facilite la compréhension de l'image temps-fréquence.
Pour les signaux sismiques (non stationnaires,
multicomposantes), afin de profiter des propriétés
intrinsèques de l'ondelette de Morlet et l'ondelette chapeau Mexicain,
nous considérons, la fonction ci-dessous (2.33) que nous l'appellerons
par la suite « ondelette de Ben» [30, 36, 75, 31, 35, 32]:
2
øben(t) = v3 -1/4(1 - t2)eiù0te-t2/2
(2.33)
avec w0 = 7. En vérifiant la condition
d'admissibilité cette fonction peut être
considérée
comme ondelette admissible (voir les théorèmes
(2.5) et (2.7)).
Théorème 2.7. La fonction donnée par
l'équation (2.33) est une ondelette asymptotique- ment admissible.
Démonstration. Afin de montrer que la fonction
'l/)ben(t) = 2 v3ð-1/4(1 -
t2)eiù0te-t2/2 est une ondelette asymptotiquement admissible, nous
montrons que 'l/)ben ? L2 fl L1 et qu'elle a une moyenne nulle quand
w0 ? 8 (voir théorème (2.5)).
· 'l/)ben ? L2:
R8 | 'l/)ben(t) |2 dt = R8 |
'l/)mh(t).eiù0t |2 dt
= R8 | 'l/)mh(t) |2 . |
eiù0t |2 dt
= R8 | 'l/)mh(t) |2 dt
et puisque 'l/)mh est une ondelette normalisée
[190], c'est-à-dire, R8 | 'l/)mh(t) |2 dt = 1,
alors R8 | 'l/)ben(t) |2 dt = 1.
· 'l/)ben ? L1:
R8 | 'l/)ben(t) | dt = R8 |
'l/)mh(t).eiù0t | dt
= R8 | 'l/)mh(t) | . | eiù0t |
dt
= R8 | 'l/)mh(t) | dt
et puisque 'l/)mh est une fonction absolument
integrable, c'est à dire, R8 | 'l/)mh(t) | dt <
8, alors R8 | 'l/)ben(t) | dt < 8.
· R8 'l/)ben(t)dt = 0:
-8
R8 'l/)ben(t)dt =
v3ð-1/4(1 -
t2)eiù0te-t2/2dt
2
R8
4 0
v6ð1/4w2 0e-
ù2 2
= -
= FT * ømh(w0)
0
Il est clair que le terme - 4 v6ð1/4w20e- ù2 2
n'est pas nul. Mais numériquement ce terme est négligeable pour
des valeurs de w0 grandes. Ainsi, pour w0 = 7 sa valeur absolue est
inférieur à 2.5 × 10-9. Et on a
lim
ù0?8
|
(
|
4 0
v6ð1/4 w2 0e- ù2 2) = 0.
|
|
Par conséquent, la fonction 'l/)ben est
asymptotiquement admissible. ~
Afin que la condition de la moyenne nulle soit remplie
exactement, nous pouvons ajouter à 'l/)ben un terme de
correction et la fonction résultante devient une ondelette admissible.
Ce qui est explicité par le théorème ci-dessous.
Théorème 2.8. La fonction
2
'l/)benc(t) =
0)eiù0te-t2/2 (2.34)
v3ð-1/4(1 -
t2 + w2
est une ondelette admissible.
Démonstration. Il est clair que 'l/)benc ? L2 fl
L1. Et on a R8 'l/)benc(t)dt = 0. En effet,
R8 'l/)benc(t)dt =
v3ð
2-1/4(1 - t2 +
w20)eiù0te-t2/2dt
R8
= FT* ømh(w0) + 2ù2
v3 0 F T * øms(0)
= -
4 0
v6ð1/4w2 0e-
ù2 2 + 2
0
2
v3w2 v2ð1/4e - ù2
0
=0
Donc d'après le théorème (2.5),
'l/)benc est une ondelette admissible. ~
Remarques:
· 'l/)ms et 'l/)ben sont,
respectivement, la modulation d'une Gaussienne et de 'l/)mh.
· 'l/)ben est plus oscillatoire que 'l/)mh. Ce
qui est explicité par la figure (2.19).
53
· Comme pour la STFT, le module de la CWT permet une
interprétation facile des composantes du signal (exemple (2.7)).
Exemple 2.7: Le module de la CWT d'un signal à deux
composantes non
superposables.
Nous considérons le signal 82 de l'exemple (2.2)
constitué de deux composantes 100Hz et 300Hz. Le module de la CWT du
signal en utilisant les ondelettes 'l/)ms, 'l/)mh et
'l/)ben présentées sur la figure (2.19), est donné par la
figure (2.20) pour le cas d'une échelle entre 0.1 et 30 avec un pas de
0.5. Nous constatons que les trois ondelettes permettent de détecter le
changement de fréquence et le nombre de composantes.
-0.2
-0.4
-0.6
-0.8
0.8
0.6
0.4
0.2
20
25
10
15
0
0
5
0 0.05 0.1 0.15 0.2 0.25
0.05 0.1 0.15 0.2 0.25
Modulus- Mexican hat wavelet
Time [sec]
Signal S2 Modulus- Morlet wavelet
20
25
20
25
30
10
15
10
15
0
5
0
5
0 0.05 0.1 0.15 0.2 0.25
0 0.05 0.1 0.15 0.2 0.25
Modulus- Ben wavelet
Time [sec]
Time [sec]
2.5
2
0.5
1.5
1
Figure 2.20: Le module de la CWT d'un signal à 2
composantes non superposables
Pour le cas des signaux sismiques come étant des
signaux non stationnaires multicomposantes, la visualisation du module de la
CWT nous permet de différencier entre les différents types de
signaux. Ce qui est explicité dans la figure (2.2 1) pour le cas d'une
explosion chimique, d'un séisme local et d'un séisme lointain.
Cependant
Mexican hat wavelet
Real part Imag part
0.8
0.6
0.4
0.2
0
-0.2
t
-5 -4 -3 -2 -1 0 1 2 3 4
(a)
(c)
Morlet wavelet
Real part Imag part
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
t
-5 -4 -3 -2 -1 0 1 2 3 4
(c)
Ben wavelet
0.8
Real part Imag part
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
t
-5 -4 -3 -2 -1 0 1 2 3 4
55
-200
-400
400
200
600
20 40 60 80 100
120
0
0
0 10 20 30 40 50 60 70
0 10 20 30 40 50 60 70
Es0001 -TIS -2003-01-22 13:11:23
Modulus- Mexican hat wavelet
Time [sec]
Time [sec]
60 80 100 120
60 80 100 120
40
40
20
20
0 10 20 30 40 50 60 70
0 10 20 30 40 50 60 70
Modulus- Morlet wavelet
Modulus- Ben wavelet
Time [sec]
Time [sec]
400
200
800
600
1200
1000
(a)
Es0429-JBB -2005-05-06 02:47:39
Modulus- Morlet wavelet
1500
1000
500
0
-500
-1000
-1500
-2000
0 20 40 60 80 100 120
Time [sec]
Time [sec]
Modulus- Mexican hat wavelet
Modulus- Ben wavelet
3500
2
3000
2500
4
2000
6
1500
1000
8
500
10
0 20 40 60 80 100 120
Time [sec]
Time [sec]
5 10 15 20 25 30 35
40
0 20 40 60 80 100 120
5 10 15 20 25 30 35
40
0 20 40 60 80 100 120
(b)
(d)
Es0319-CZDV-2005-09-16 00:50:27
Modulus- Morlet wavelet
1000
500
0
-500
-1000
0 20 40 60 80 100 120
100 120
Time [sec]
Time [sec]
Modulus- Mexican hat wavelet
Modulus- Ben wavelet
7000
10 20 30 40 50 60 70 80 90 100
20 40 60 80 100 120 140 160 180 200
6000
5000
4000
3000
2000
1000
0 20 40 60 80 100 120
0 20 40 60 80 100 120
Time [sec]
Time [sec]
20 40 60 80 100 120 140 160 180
200
0 20 40 60 80
Figure 2.21: Le module de la CWT pour une explosion chimique (a),
un séisme local (b) et un séisme lointain (c)
2.4.3 Scalogramme
Le scalogramme (SCAL: Scalogram) est l'équivalent dans la
classe affine du SPEC dans la classe de Cohen (sa version Q-constant [145]). Il
est donné par [107, 108]:
SCALø x : L2(R) ?
L2(R2)
(2.35)
x(t) ? SCALø x(a,t) = | CWT x ø (a,t)
|2
Il s'obtient aussi par un lissage de la WV du signal avec un
noyau qui est lui même la WV du signal de référence qui
utilise la transformée linéaire qui lui est associée
à savoir l'ondelette ø:
SCALø x : L2(R) ?
L2(R2)
x(t) ? SCALø x(a, t) = (2.36)
WVx(s, î)WVø(s-t
a , aî)dsdî
2ð
Le SCAL présente les mêmes
propriétés que celles du SPEC. Cependant, le SCAL est
préférable pour les signaux sismiques que le SPEC grâce
à la propriété Q-constant qui est adaptée à
la nature physique de ces signaux et même la raison de la
définition des ondelettes par Morlet et al. [222]. Ce point de vue est
repris par les articles de synthèse [56] et [190] en
géophysique.
La figure (2.22) présente, respectivement, les
scalogrammes de trois événements sismiques: explosion chimique,
séisme local et séisme lointain pour l'ondelettes de Morlet,
l'ondelette chapeau mexicain et l'ondelette de Ben. Nous constatons qu'à
l'aide du SCAL, nous pouvons différentier entre les trois
événements sismiques de la même façon que le SPEC.
Cependant, le choix des échelles d'analyse pour chaque ondelette reste
un facteur essentiel pour avoir une meilleur représentation.
Généralement, ce choix est empirique mais cela n'exclut pas
l'existence de certaines suggestions comme celles présentées dans
[302]. De plus, nous notons que les SCALs relatifs au séisme local ne
sont pas tellement clairs pour pouvoir visualiser les composantes à
cause de la faiblesse du signal.
57
-200
-400
600
400
200
2
3
4
5
6
7
8
9
10
0
1
0 10 20 30 40 50 60 70
0 10 20 30 40 50 60 70
Es0001-TIS -2003-01-22 13:11:23
SCAL- Mexican hat wavelet
Time [sec]
Time [sec]
5 10 15 20 25 30 35
40
0 10 20 30 40 50 60 70
20
25 30 35
40 0
0 10 20 30 40 50 60 70
5 10 15
SCAL- Morlet
SCAL- Ben wavelet
Time [sec]
Time [sec]
wavelet
x 105
8
6
4
2
16
14
12
10
(a)
-1000
-1500
-2000
-500
1500
1000
500
10
2
4
0
6
8
0 50 100
0 50 100
Es0429-JBB -2005-05-06 02:47:39
SCAL- Mexican hat wavelet
Time [sec]
Time [sec]
5 10 15 20 25 30 35 40
5 10 15 20 25 30 35
40 0
0 50 100
0 50 100
SCAL- Morlet wavelet
SCAL- Ben wavelet
Time [sec]
Time [sec]
x 106
5
15
10
(b)
-1000
-500
1000
500
10 20 30 40 50 60 70 80 90 100
0
0 20 40 60 80 100 120
0 20 40 60 80 100 120
Es0319-CZDV-2005-09-16 00:50:27
SCAL- Mexican hat wavelet
Time [sec]
Time [sec]
20 40 60 80 100 120 140 160 180
200
0 20 40 60 80
20 40 60 80 100 120 140 160 180 200
0 20 40 60 80 100 120
SCAL- Morlet
SCAL- Ben wavelet
Time [sec]
Time [sec]
wavelet
100 120
x 107
5
4.5
4
3.5
3
2.5
2
1.5 1 0.5
(c)
Figure 2.22: Les scalogrammes relatifs à une explosion
chimique (a), un séisme local (b) et un séisme lointain (c)
2.5 Conclusion
Nous avons présenté dans ce chapitre les
différentes représentations possibles pour les signaux non
stationnaires en générales et les signaux sismiques en
particulier. Dans ce sens, des versions du principe d'Heisenberg-Gabor ont
été démontrées pour le cas du spectrogramme, la
représentation de Wigner-Ville et la transformée en ondelette
continue. Pour cette dernière, nous avons conçu une nouvelle
ondelette complexe dite ondelette de Ben permettant de mieux représenter
les signaux sismiques. En ce qui concerne l'analyse des performances de ces
représentations dans le cadre de la discrimination des signaux sismiques
via un système modulaire, le lecteur pourra se référer au
chapitre 5.
Nous notons que ce chapitre présente avec certains
détails les éléments de bases de ce qui est appelé
discrimination visuelle dans le logiciel MSSSA (Moroccan Software for Seismic
Signals Analysis) présenté dans l'annexe I.
La représentation des signaux non stationnaires dans un
espace bidimensionnel temps-fréquence ou temps-échelle conduit
généralement à des images de grandes dimensions en
fonction de la durée du signal, de la fréquence
d'échantillonnage et du nombre de points de la fenêtre d'analyse.
Ainsi, il est très difficile à les utiliser directement pour la
discrimination à cause du problème de la malédiction de la
dimensionnalité. Pour vaincre ce dernier et augmenter la
séparabilité des classes, une réduction de la
dimensionnalité de ces images s'avère nécessaire. Ce volet
fera l'objet du prochain chapitre.
CHAPITRE 3
REDUCTION DE LA DIMENSIONNALITE
Les représentations bidimensionnelles des signaux
sismiques dans les espaces temps- fréquence et temps-échelle
fournissent généralement des images de grandes dimensions. Or,
Les espaces vectoriels de grandes dimensions possèdent des
propriétés qui réduisent sensiblement les performances des
méthodes automatiques de classification à cause du
problème de la malédiction de la dimensionnalité (Curse of
dimensionality). Par conséquent, la réduction de la
dimensionnalité doit être une partie intégrante du
processus global de classification automatique des signaux sismiques.
Pour les signaux sismiques, à la différences des
autres signaux non stationnaires, les images fournies par les TFRs et les TSRs
sont de dimensions variables sur l'axe temporel. En effet, la durée des
événements sismiques diffère de l'un à l'autre
même pour des événements de même nature. Ceci est
dû au fait que la longueur du signal sismique enregistré est
lié aux instants d'activation et de désactivation de l'algorithme
de détection qui dépendent aussi de la magnitude et de la
distance hypocentrale de l'événement. Ainsi, pour avoir des
images sismiques ayant la même taille, tous les travaux
précédents font un découpage du signal en conservant des
durées bien déterminées avant et après le temps
d'arrivée. Or, avec cette méthode, on pourra enlever
l'information pertinente et, par conséquent, les performances de
classification se dégradent.
Le but de ce chapitre est, d'une part, de mettre en
évidence l'objectif de la réduction de la dimensionnalité
des données de grandes dimensions et, d'autre part, de présenter
deux méthodes, à savoir, l'analyse en composantes principales et
la projection aléatoire. Enfin, pour les signaux sismiques, nous
proposons trois algorithmes de réduction de la dimensionnalité
invariantes aux translations temporelles.
3.1 Espaces de grandes dimensions
Les espaces de grandes dimensions possèdent des
propriétés mathématiques particulières qui
affectent le comportement des méthodes d'analyse et de traitement des
données dans ces espaces. Ce problème est connu sous le nom de la
malédiction de la dimensionnalité qui fait
référence aux difficultés du traitement des données
qui apparaissent dans les espaces de grandes dimensions.
3.1.1 La malédiction de la dimensionnalité
Selon Donoho [89], l'expression « malédiction de la
dimensionnalité » a été utilisépour
la première fois par Bellman [28] qui l'a utilisé ce terme en
référence à la difficultéde faire l'optimisation
par des méthodes exhaustives dans les espaces de grandes dimen-
sions. Optimiser une fonction à plusieurs variables par
une méthode exhaustive consiste à partitionner le domaine de
chacune des variables à intervalles réguliers, ce qui permet
d'instaurer une grille cartésienne dans l'espace de recherche. Chaque
point d'intersection de cette grille est un optimum possible. Il s'agit alors
d'évaluer la fonction de coût en chacun de ces points et de
choisir l'optimum global. Seulement, le nombre d'optimums possibles, et donc
d'évaluations nécessaires, croît exponentiellement avec la
dimension de l'espace de recherche (le nombre de variables). Ainsi, si l'on
souhaite optimiser une fonction à d variables par une méthode
exhaustive et si cette fonction est lipschitzienne alors
(1/å)d évaluations sont nécessaires pour obtenir
une approximation minimale avec une erreur å sur les variables.
L'expression «malédiction de la
dimensionnalité» est aussi utilisée en statistique. Elle
fait référence à la relation entre la taille de
l'échantillon de données et la précision de l'estimation.
Dans [89], il a été démontré que le nombre
d'échantillons doit augmenter exponentiellement avec la dimension pour
garder le même niveau de précision de l'estimation.
61 Plusieurs travaux se sont intéressés à
ce problème et ont montré que les performances des techniques
d'apprentissages se dégradent lorsque la dimension des données
augmente [308, 309]. Ainsi, pour le cas de données de grandes
dimensions, le phénomène de la «concentration de la
mesure» [287] implique que plus la dimension des données augmente,
plus les vecteurs ont tendance à se concentrer autour de leur moyenne.
Par conséquent, les arguments utilisés par les réseaux de
neurones sont constants [310] et aucune adaptation ne peut être faite.
3.1.2 Normes des vecteurs aléatoires
Les propriétés des espaces de grandes dimensions
sont très différentes de ce que l'on peut imaginer dans les
espaces à une, deux ou trois dimensions. Dans ce sens, il a
étéprouvé par Demartines [82] que
l'écart type de la norme de vecteurs aléatoires converge vers une
constante quand la dimension augmente. Plus précisément, nous
avons le résultat ci-dessous.
Théorème 3.1. Soit X un vecteur en n dimensions
[X1, X2, · · · , Xn] dont les composantes
sont aléatoires, indépendantes, de loi identique et
possédant un moment d'ordre 8 fini. On a:
/1kxk = E(kXk) = van - b + O(1/n)
(3.1)
u2 kxk =Var(MXM) =b+O(1/n)
où a et b sont des paramètres dépendant
uniquement des moments centrés d'ordre 1,2,3 et 4 des Xi:
a = /12 + u2
4/12u2 - u4 + 4/1/13 +
/14
b = 4(/12+u2)
où /1r est le moment centré d'ordre r:
/1r = E[(Xk - /1)r], /1 est la moyenne E(Xk) et u2 la
variance Var(Xk)
La signification de ce résultat est que, à
partir d'un certain nombre de composantes, les vecteurs x semblent
normalisés. En effet, quel que soit le type de distribution des
composantes xk,l'~ecart-type ó11x11de la norme tend vers une
constante lorsqu'on augmente la dimension n, tandis que la moyenne
,u11x11 croît en /n. Plus précisément, à
cause de
l'inégalité de Chebychev:
11x11
P( MxM - ,u11x11 ~ å) = ó2
å2
la probabilité que la norme MxM tombe en dehors d'un
intervalle de taille fixé autour de ,u11x11 devient approximativement
constante quand n augmente. Comme ,u11x11 lui-même continue
à augmenter, l'erreur relative commise en prenant ,u11x11au
lieu de MxM devient négligeable. Ainsi en grandes dimensions, des
vecteurs aléatoires (dont les composantes suivent une loi donnée)
semblent tous répartis à la surface d'une sphère de rayon
,u11x11. Ce qui engendre le phénomène de la
concentration de la mesure.
Les implications de ce phénomène sont multiples.
Pour un n fixé, outre la norme elle-même des vecteurs qui semble
invariable d'un tirage à l'autre, la distance Euclidienne entre deux
vecteurs semble aussi invariable (quel que soit le couple de vecteurs choisi).
En effet, la distance Euclidienne est la norme de la différence entre
les deux vecteurs aléatoires, différence qui est aussi un vecteur
aléatoire; donc cette distance suit les règles (3.1). Ce qui
rejoigne les conclusions du théorème ci-dessous.
Théorème 3.2. Soient q un vecteur requête
choisi indépendamment d'un ensemble de vecteurs aléatoires xi,
où 1 i m de dimension n constituant l'ensemble de données et
soit dist(q, x) une variable aléatoire qui suit la distribution de la
distance entre le
vecteur requête q Fq et le vecteur de
données x Fdata leurs densités de
probabilitérespectivement. Si
|
lim
n?+8
|
Var(dist(q, x))
|
= 0 (3.2)
|
alors, quel que soit å> 0,
|
E(dist(q, x))2
|
lim
n?+8
|
P [|(DMAXn/DMINn) - 1 > å] = 0
(3.3)
|
dist(q, x) : fonction qui donne la distance entre les vecteurs q
et x; DMAXn = max {dist(q, xi), 1 = i = m};
DMIN n = min {dist(q, xi), 1 = i = m}.
Démonstration. La démonstration de ce
théorème se trouve dans [40]. ~
A partir de ces résultats, il est ainsi très
important de s'assurer de l'existence d'une réelle similarité
entre les vecteurs de données avant d'envisager leur classification.
Donc, le recours aux techniques de réduction de la
dimensionnalité, pour les données de grandes dimensions, est
nécessaire.
3.2 Techniques de réduction de la
dimensionnalité
Plusieurs méthodes pour la réduction de la
dimensionnalité ont été développées dans
divers travaux. Ces méthodes permettent de transformer les
données dans un nouvel espace de dimension réduite n gardant le
maximum d'information portée par les données dans leur espace
original. Mathématiquement, le problème que visent à
résoudre ces méthodes peut se formuler de la manière
suivante: étant donnée une variable aléatoire dimension d,
il s'agit de trouver une autre représentation de dimension
réduite p < d, qui exprime la même information que les
données originales selon un certain critère.
Les méthodes de réduction de la
dimensionnalité sont classées généralement en deux
grandes catégories: les méthodes linéaires et les
méthodes non linéaires. Dans cette section, on présente
deux méthodes linéaires, à savoir, l'analyse en
composantes principales (PCA: Principal Component Analysis) et la projection
aléatoire (RP: Random Projection).
3.2.1 L'analyse en composantes principales
La PCA est sans doute la méthode de réduction de
la dimensionnalité la plus connue et la plus utilisée. Selon la
littérature, elle trouve ses origines dans les travaux de Hotelling dans
les années 30, de Karhunen et Loève dans les années 40.
C'est une méthode de second
ordre car elle se base uniquement sur l'étude de la
matrice de covariance des variables (les moments d'ordre 2). Il existe
plusieurs variantes de la PCA, en fonction du domaine d'application, elle est
connue sous le nom de décomposition en valeurs singulières (SVD),
transformée de Karhunen-Loève (KLT), transformée de
Hotelling ou bien encore méthode de fonction orthogonale empirique
[111]. Dans [121], une analyse approfondie des relations entre PCA, KLT et SVD
est donnée.
La PCA consiste à chercher un nouvel espace de
représentation dont les axes sont orthogonales et assurent une
dispersion maximale des données selon chacun d'eux. Ces axes sont
appelés axes principaux. La quantité d'information portée
par chacun des axes est relative à la variance des données: plus
la variance des données selon un axe est
grande, plus l'information portée par celui-ci est
importante. En fait, la PCA consiste àeffectuer une
translation suivie d'une rotation du repère de l'espace. La
réduction de la dimensionnalité s'effectue en éliminant
les axes qui portent peu d'information.
Plusieurs méthodes ont été
développées pour accomplir la PCA [53]. On se limite dans ce
paragraphe à la présentation d'une méthode matricielle
basée sur la matrice de la covariance pour les deux cas unidimensionnel
(PCA1D: One-Dimensional PCA) et bidimensionnel (PCA2D: Two-Dimensional PCA).
3.2.1.1 PCA unidimensionnelle
Soit A1, A2, · · · , AN l'ensemble des
données dont on dispose, sous la forme de vecteurs de n.
Supposons que ces données sont centrées et notons W la matrice
constituant une base orthonormée du sous-espace de dimension d où
on veut représenter les données. Ainsi, la projection orthogonale
des vecteurs A avec i = 1, · · · , N sur W E
n×d est donnée par:
Apca1d = W'A (3.4)
et par conséquent la matrice de covariance des
données projetées peut s'écrire:
où la matrice Sdata est la matrice de
covariance des données initiales:
1
Sdata = N
|
XN
=1
|
A A' (3.6)
|
Le critère à maximiser, basé sur la
dispersion des données projetées, est donc:
J(W) = tr(W'SdataW) (3.7)
On peut montrer que les colonnes de W sont constituées
des d vecteurs propres orthonormés de la matrice Sdata
associées aux plus grandes valeurs propres [171]. La valeur propre
associée à chaque vecteur propre est une mesure du pourcentage de
variance expliqué par ce vecteur propre. Ainsi, pour déterminer
la valeur de la dimension d, on peut se baser sur l'étude du spectre des
valeurs propres À de Sdata en fixant la valeur de la
fraction:
qui exprime la quantité d'information qu'on désire
conserver.
Le sous-espace principal vérifie donc deux
propriétés majeures. La première est que, pour une
dimension d fixée, il minimise l'erreur Euclidienne moyenne de
reconstruction å, calculée selon:
å =
|
1 N
|
XN
=1
|
kA -
|
Xd j=1
|
(WjW ' jA )M (3.9)
|
La seconde est que la PCA1D permet de décorréler
les variables, dans un sens que les matrices de covariance des données W
' jA projetées sur chacun des axes discriminants Wj sont
diagonales, pour tout j allant de 1 à d. Cette propriété
assure la non-redondance des variables projetées, et donc le
caractère optimal du sous-espace principal choisi, pour une dimension d
fixée.
3.2.1.2 PCA bidimensionnelle
L'application de la PCA unidimensionnelle pour les images
consiste à les transformer en vecteurs par simple concaténation
des lignes ou des colonnes. Or, cette modélisation unidimensionnelle
engendre dans une certaine mesure la perte d'une partie de la structure
bidimensionnelle des images initiales. De plus la dimension des vecteurs-images
ainsi obtenus est généralement très grande, ce qui pose un
certain nombre de problèmes.
Afin de pallier ces inconvénients, Yang et autres
auteurs [328, 329] ont introduit une technique qu'ils ont baptisée
PCA2D, qui consiste en l'application de la PCA directement sur les matrices
images, utilisant pour cela une matrice de covariance
généralisée calculée directement depuis les lignes
des images.
Soit A1, A2, · · · ,AN l'ensemble des
données dont on dispose, sous la forme de matrices de
n×g . Supposons que ces données sont centrées et
notons W la matrice de projection de taille g x d dans le sous-espace de
dimension d où on veut représenter les données. Ainsi, la
projection des matrices A avec i = 1, · · · , N est
donnée par:
Apca2d = A W (3.10)
où Apca2d est la matrice de taille n x d correspondant
à la projection de la matrice-image A sur W. On cherche à
déterminer la matrice W qui, pour une taille g x d donnée,
maximise le critère J(W):
J(W) = tr(W'SdataW) (3.11)
avec
|
1
Sdata = N
|
XN
=1
|
A' A (3.12)
|
Ce critère est appelé critère de
dispersion totale généralisé. On peut montrer que les
colonnes de la matrice W maximisant le critère (3.11) sont les vecteurs
propres de la matrice Sdata, associés aux d plus grandes
valeurs propres [329].
les performances de la PCA2D par rapport à la PCA1D.
Cependant, la modélisation des données n'est pas totalement
bidimensionnelle (comme pourrait le laisser penser le nom de la technique),
mais bidimensionnelle orientée en lignes (PCA2DRO: PCA2D Raw Oriented).
Ce résultat est exprimé par le théorème suivant
[318]:
Théorème 3.3. La PCA2D est équivalente
à la PCA1D appliquée sur l'ensemble des lignes des images.
Démonstration. La démonstration de ce
théorème se trouve dans [319, 183]. ~
A partir de ce théorème, il est clair que la
PCA2D est unidirectionnelle. Ce qui implique une perte de l'information
incorporée dans les colonnes des images. Afin d'avoir une
modélisation bidirectionnelle, plusieurs solutions ont été
proposées [334, 335, 183, 158], mais il est difficile de les mettre en
oeuvre dans le cas général. Dans ce sens, nous proposons une
méthode, dite par la suite PCA2D orientée en colonnes (PCA2DCO:
PCA2D Column Oriented), basée sur la transposée des matrices
images et qui est équivalente à la méthode dite
»Aternative 2DPCA» dans [335] mais dont la mise en oeuvre suit la
même démarche que la PCA2DRO.
Théorème 3.4. La PCA2D appliquée sur la
transposée des images est équivalente à la PCA1D
appliquée sur l'ensemble des colonnes des images.
Démonstration. Soit A1, A2,... ,AN l'ensemble
des données dont on dispose, sous la forme de matrices de
n×g . Et soit B1, B2,... , BN leurs transposées.
Appliquer la PCA2D sur les matrices Bi avec i = 1,... , N, n'est que la PCA1D
appliquée sur les lignes des Bi d'après le théorème
3.3. Or les lignes des Bi ne sont rien d'autre que les colonnes des Ai. ~
Afin d'avoir une analyse en composantes principales
bidimensionnelle en lignes et en colonnes, on pourra utiliser la forme
bidirectionnelle de la PCA2D (PCA2D2D: PCA2D bidirectional), qui consiste
à effectuer la PCA2DRO et PCA2DCO et de faire la projection dans les
deux sens:
68 Remarques:
· La PCA2DCO est équivalente à l'alternative
2DPCA montré par Zhang et Zhou [335]. En effet, la matrice (3.12) des
matrices Bi avec i = 1,··· , N se calcule par:
Sdata = 1 N PN B' iBi
i=1
=
|
1 N
|
PN i=1
|
Pg j=1
|
Bi(j, .)Bi(j, .)'
|
(3.14)
|
|
Ai(., j)Ai(., j)'
1 N
=
PN i=1
Pg j=1
d'où la formule donnée par Zhang et Zhou [335].
· Pour la PCA2D2D, une méthode a
été proposée par Kong et al. [183] qui consiste à
trouver simultanément les deux matrices Wpca2dro
et Wpca2dco en applicant un algorithme d'optimisation.
3.2.2 La projection aléatoire
La RP est considérée, ces dernières
années, parmi les méthodes les plus performantes de
réduction de la dimensionnalité pour les données de
très grandes dimensions. Elle a été appliquée avec
succès dans divers domaines: [21, 201, 126, 268, 289, 20, 105, 112, 207,
52, 41, 76, 191, 236, 176, 157, 181].
L'intérêt de cette méthode provient d'un
lemme dite de «Johnson-Lindenstrauss» [170] présenté
ci-dessous:
Lemme 3.1. Soit > 0 etsoientn etk deux entiers positifs
tel que k = k0 = O( -2log(n)). Alors, pour tout ensemble P de n
points dans Rd, il existe f : Rd ? Rk tel que
pour tout u, v ? P
(1- )Mu - vM2 = Mf(u) - f(v)M2 = (1+ )Mu
- vM2
69 Depuis, ce lemme a connu plusieurs versions au niveau de
sa formulation et au niveau des méthodes de démonstration
[113, 157, 77] et même des extensions ont
étéprouvées [217, 6]. Cependant, la forme de
l'application f dite «application de Johnson-
Lindenstrauss» reste un champ ouvert pour les
chercheurs. Ainsi, il existe plusieurs démonstrations du lemme (3.1) qui
considèrent f comme une application linéaire
représentée par une matrice aléatoire. Une breve
description de son évolution est donnée par Achlioptas [1].
Une première solution consiste à faire une
projection par le biais d'une matrice aléatoire orthonormale. Ainsi, la
projection aléatoire d'une matrice A de taille n × g est
donnée par [113]:
Arp = AR (3.15)
où R est une matrice aléatoire orthonormale de
taille g × d.
Afin de surmonter les difficultés posées par
l'othogonalisation de la matrice R, dont l'objectif est de preserver les
similarités entre les vecteurs d'origine dans les espaces de petites
dimensions, on pourra profiter d'un résultat de Hecht-Nielsen [140]:
«Dans les espaces de grandes dimensions, il existe un grand nombre de
directions presque orthogonales que orthogonales». Ainsi, la matrice R
pourra être prise comme matrice aléatoire normalisée [41,
126].
Dans un but de simplifier les calculs, plusieurs travaux ont
été effectués pour trouver d'autres formes de la matrice
de projection R. Dans ce sens, Arriaga et Vempala [15, 14] ont montré le
théorème suivant:
Théorème 3.5. Soient > 0,u, v ?Rn
et u1 et v1 leurs projections dans Rk par une matrice
aléatoire R ? Rn×k dont les éléments sont
choisis indépendamment à partir de N(0, 1) ou U(-1, 1). Alors,
Prob[(1 - )Mu - vM2 = Mu1 - v1M2 = (1+
)Mu - vM2] = 1 - 2e-(å2-å3) k 4
probabilitée déefinie par:
Rij =
|
? ?
?
|
+1 avec une probabilitée 1/2 --1 avec une
probabilitée 1/2
|
|
Démonstration. La démonstration de ce
théorème se trouve dans [15]. ~
Remarque:
Ce théorème a été
présenté la première fois dans [14], mais nous avons
préféré citer la version existant dans l'article [15].
Une autre forme de la matrice de projection, appelée par
Li et al. [199] «projection aléatoire creuse», a
été présenté par Achlioptas [1] en montrant le
théorème ci-dessous. Théorème 3.6. Soit P un
ensemble arbitraire de n points dans Rd, repréesentées
par la
matrice A de taille n x d. Soient , â ~ 0 et
4+ 2â
k0 = 2/2 -- 3/3log(n)
pour tout entier k ~ k0, soit R une matrice aléeatoire de
taille d x k, où les éeléements Rij sont déefinis
indéependamment selon l'une des distributions de probabilitée
suivantes:
Rij =
|
? ?
?
|
+1 avec une probabilitée 1/2 --1 avec une
probabilitée 1/2
|
,
|
|
Soit
|
V'
Rij = 3
|
? ????
????
|
+1 avec une probabilitée 1/6 0 avec une
probabilitée 2/3 --1 avec une probabilitée 1/6
|
.
|
|
1
E= V' AR
k
et soit f : Rd , Rk qui lie la
ime ligne de A avec la ime ligne de E. Avec une
probabilitée
71
au moins 1 - n-â, pour tout u, v ? P, on a:
(1- )Mu - vM2 = Mf(u) - f(v)M2 = (1+ )Mu
- vM2
Démonstration. La démonstration de ce
théorème se trouve dans [1]. ~
Ce théorème a été étendu
par Li et al. [199] pour d'autres types de distributions de probabilité
en définissant ce qu'ils ont appelé «la projection
aléatoire générale» et «la projection
aléatoire très creuse». Un résultat très
récent de Baraniuk et al. [21] permet de définir la matrice de
projection à partir des distributions de probabilité
vérifiant une inégalité dite «inégalité
de concentration» relative au phénomène de la concentration
de la mesure (section: La malédiction de la dimensionnalité).
3.3 Algorithmes pour les images sismiques
Les signaux sismiques, à la différence de la
plupart des autres signaux non stationnaires, ont des dimensions variables sur
l'axe temporel. En effet, la durée des événements
sismiques diffère de l'un à l'autre même pour des
événements de même nature. Ceci est dû au fait que la
longueur du signal sismique enregistré est liée aux instants
d'activation et de désactivation de l'algorithme de détection.
Ainsi, pour avoir des images sismiques ayant la même taille, tous les
travaux précédents font un découpage du signal en
conservant des durées bien déterminées avant et
après le temps d'arrivée. Or, avec cette méthode, on
pourra enlever l'information pertinente et, par conséquent, les
performances de la discrimination se dégradent.
Dans ce sens, nous proposons trois algorithmes permettant la
réduction de la dimensionnalité des images sismiques en se basant
sur les méthodes présentées ci-dessus.
3.3.1 Algorithme 1
d'une machine de classification. Et soit A la matrice
correspondante au signal sismique que l'on veut classifier. Afin de
réduire la dimensionnalité de cette représentation, nous
proposons l'algorithme suivant qui a été utilisé avec
succès dans plusieurs travaux [30, 31, 35, 36, 75]:
Etape 0: Fixer les paramètres du descripteur atemporel,
de la RP et de la PCA1D; Etape 1: Calculer la RP de l'ensemble des matrices
Ai pour parvenir à des matrices
Arp
i ayant même taille;
Etape 2: Calculer les valeurs du descripteur atemporel selon
lignes de chaque ma-
trice Arp
i ;
Etape 3: Faire la PCA1D à la matrice
générée par les vecteurs colonnes tirés de
l'étape 2, pour trouver les composantes principales;
Etape 4: Calculer la RP à la matrice A pour parvenir
à une matrice Arp ayant la même taille que les matrices
Arp
i ;
Etape 5: Appliquer le descripteur atemporel selon les lignes de
la matrice Arp;
Etape 6: Faire multiplier le vecteur issue de l'étape 5
par la matrice des composantes principales issue de l'étape 3.
|
|
Algorithme 3.1: Réduction de la dimensionnalité
des images sismiques via la RP et la PCA1D
Cet algorithme, grâce à la projection
aléatoire, permet de surmonter le problème de la détection
de l'origine temporel des signaux non stationnaires avec une longueur variable
dont les signaux font partie. Le calcul du descripteur atemporel (par exemple
la moyenne) au niveau de chaque canal fréquentiel est une façon
de caractériser une classe de signaux. Cependant, cette technique est
généralement très sensible aux bruits et seul le choix du
descripteur adéquat au cas étudié permet
d'améliorer sa robustesse. Quant
au calcul des composantes principales, il peut être
considéré, en plus de la réduction de la
dimensionnalité, comme une classification préliminaire des
signaux étudiés.
3.3.2 Algorithme 2
Soient A1, A2, · · · , AN les
matrices correspondantes à la représentation bidimensionnelle,
par une TFR ou une TSR, des signaux sismiques constituants la base
d'apprentissage d'une machine de classification. Et soit A la matrice
correspondante à un signal sismique que l'on veut classifier. Afin de
réduire la dimensionnalité de cette représentation, nous
proposons l'algorithme suivant [34, 37]:
Etape 0: Fixer les paramètres de la RP et de la
PCA2D2D;
Etape 1: Calculer la RP de l'ensemble des matrices Ai pour
parvenir à des matrices
Arp
i de même taille;
Etape 2: Faire la PCA2DOR aux matricesArp
i pour générer la matrice de com-
posantes principales selon les lignes;
Etape 3: Faire la PCA2DOC aux matricesArp
i pour générer la matrice de com-
posantes principales selon les colonnes;
Etape 4: Calculer la RP de la matrice A pour parvenir à
une matrice Arp de même taille que les matrices Arp
i ;
Etape 5: Faire la PCA2D2D à la matrice Arp en
utilisant les composantes principales issues des étapes 2 et 3.
|
|
Algorithme 3.2: Réduction de la dimensionnalité
des images sismiques via la RP et la PCA2D2D
des composantes principales se fait selon les deux dimensions
sans avoir besoin d'une étape intermédiaire comme pour la PCA1D
et sans perdre la structure bidimensionnel des images initiales. Ce qui la rend
plus robuste que le premier algorithme envers les bruits.
3.3.3 Algorithme 3
Soient A1, A2, · · · , AN les
matrices correspondantes à la représentation bidimensionnelle,
par une TFR ou une TSR, des signaux sismiques constituants la base
d'apprentissage d'une machine de classification. Et soit A la matrice
correspondante à un signal sismique que l'on veut classifier. Afin de
réduire la dimensionnalité de cette représentation, nous
proposons l'algorithme ci-dessous.
Etape 0: Fixer les paramètres de la subdivision
(Géométrie et taille), du descripteur (temporel ou atemporel), de
la RP et de la PCA1D;
Etape 1: Calculer la RP de l'ensemble des matrices Ai pour
parvenir à des matrices
Arp
i de même taille;
Etape 2: Subdiviser les images correspondantes aux
matricesArp
i en zones;
Etape 3: Calculer pour chaque image subdivisée la valeur
du descripteur pour toutes les zones;
Etape 4: Faire la PCA1D à la matrice
générée par l'étape 3, pour trouver les composantes
principales;
Etape 5: Appliquer les étapes 1, 2 et 3 à la
matrice A;
Etape 6: Faire la PCA1D à la matrice résultante de
l'étape 5 en utilisant les composantes principales issues de
l'étapes 4.
Dans cet algorithme, nous avons essayé de proposer une
solution intermédiaire entre l'algorithme (3.1), où il y a une
perte de toute information locale à cause de l'utilisation d'un
descripteur atemporel pour toute l'image avant le calcul des composantes
principales, et l'algorithme (3.2) où cette dernière
opération se fait sur l'image sans aucune étape
intermédiaire. En effet, dans l'algorithme (3.3), la subdivision des
images en zones (par exemples rectangulaires) et le calcul des valeurs du
descripteur pour chacune d'elle permet de conserver dans certaine mesure
l'information locale. Cependant, le bon choix de la géométrie des
zones et du descripteur restent des facteurs déterminants pour avoir de
bonnes performances.
3.4 Conclusion
Nous avons présenté dans ce chapitre, d'une
part, certaines propriétés des espaces de grandes dimensions, et
d'autre part, certaines techniques de réduction de la
dimensionnalité. Parmi ces techniques, nous avons explicité
l'analyse en composantes principales (en une et deux dimension) et la
projection aléatoire.
Pour les signaux sismiques et signaux similaires (signaux
physiologiques par exemple), tenant comptes de leur particularités, nous
avons conçue trois algorithmes basés sur
la projection aléatoire et l'analyse en composantes
principales. Ces algorithmes ont ététestés sur
des signaux acquis par l'Institut National de Géophysique via le
logiciel MSSSA
(Moroccan Software for Seismic Signals Analysis)
présenté dans l'annexe I. Le lecteur pourra se
référer au chapitre 6 pour une comparaison des trois algorithmes
en utilisant la moyenne comme descripteur et une géométrie
rectangulaire pour les zones.
Ce chapitre avec le précédent constituent deux
étapes essentiels dans notre système modulaire de discrimination
des signaux sismiques. L'étape suivante est la classification de ces
signaux mais avant de l'aborder, nous consacrons le prochain chapitre à
la présentation des différentes méthodes de
classification.
CHAPITRE 4
METHODES DE CLASSIFICATION
Les méthodes de classification ont pour but
d'identifier les classes auxquelles appartiennent des objets à partir de
certains traits descriptifs. Elles s'appliquent à un grand nombre
d'activités humaines et conviennent en particulier aux problèmes
de la prise de décision automatisée. Il s'agira, par exemple,
d'identifier un événement sismique ou de déclencher un
processus d'alerte à partir des signaux reçus par le
sismomètre. Une première approche possible pour résoudre
ce type de problème est l'approche «systèmes experts».
Dans ce cadre, la connaissance d'un expert (ou d'un groupe d'experts) est
décrite sous forme de règles. Cet ensemble de règles forme
un système expert qui est utilisé pour classifier de nouveaux
cas. Cette approche, largement utilisée dans les années 80,
dépend fortement de la capacité à extraire et à
formaliser les connaissances de l'expert. Nous considérons ici une autre
approche pour laquelle la procédure de classification sera extraite
automatiquement à partir d'un ensemble d'exemples. Un exemple consiste
en la description d'un cas avec la classification correspondante. Par exemple,
on dispose d'un ensemble de signaux sismiques pré-classifiés par
des sismologues. Un système d'apprentissage doit alors, à partir
de cet ensemble d'exemples, extraire une procédure de classification
qui, au vu des caractéristiques du signal, devra décider du type
de l'événement. Il s'agit donc d'induire une procédure de
classification générale à partir d'exemples. Le
problème est donc un problème inductif, il s'agit en effet
d'extraire une règle générale à partir de
données observées. La procédure
générée devra classifier correctement les exemples de
l'échantillon mais surtout avoir un bon pouvoir prédictif pour
classifier correctement de nouvelles descriptions.
Les méthodes utilisées par les systèmes
d'apprentissage sont très nombreuses et sont issues de domaines
scientifiques variés. Les méthodes statistiques supposent que les
descriptions des objets d'une même classe se répartissent en
respectant une structure spécifique à la classe. On fait des
hypothèses sur les distributions des descriptions à
l'intérieur
des classes et les procédures de classification seront
construites à l'aide d'hypothèses probabilistes. La
variété des méthodes viendra de la diversité des
hypothèses possibles. Ces méthodes sont appelées
paramétriques. Des méthodes non paramétriques (sans
hypothèse a priori sur les distributions) ont été
également proposées en statistiques. Les méthodes issues
de l'intelligence artificielle sont des méthodes non
paramétriques. On distingue les méthodes symboliques (la
procédure de classification produite peut être écrite sous
forme de règles), et les méthodes non symboliques (la
procédure de classification produite est de type «boîte
noire»). Parmi les méthodes non symboliques, les plus
utilisées sont basées sur les réseaux de neurones.
Le but de ce chapitre est, d'une part, de présenter
avec certains détails les différentes méthodes de
classification citées ci-dessus et, d'autre part, de donner les
différents paramètres influençant les performances du
réseau perceptron multicouches et les méthodes permettant de les
améliorer. Enfin, tenant compte du fait qu'une approche
multi-décisionnelle est plus performante qu'un seul classificateur, nous
allons présenter différentes façons de combiner les
classificateurs.
4.1 Notion de classificateur
Soit la représentation d'un objet quelconque au moyen
d'un vecteur de caractéristiques X = [x1x2 · ·
· xd]'. Tous les vecteurs qui représentent
l'ensemble des objets peuvent être positionnés dans l'espace
Euclidien Rd, où ils correspondent chacun à un point.
Ceux- ci peuvent alors être regroupés en amas, chacun de ces amas
étant associé à une classe particulière.
Le rôle d'un classificateur est de déterminer,
parmi un ensemble fini de classes, àlaquelle appartient un
objet donné. Donc, il doit être capable de modéliser au
mieux
les frontières qui séparent les classes les
unes des autres (figure (4.1)). Cette modélisation fait appel à
la notion de fonction discriminante, qui permet d'exprimer le critère de
classification de la manière suivante:
79
+
+
-
-
-
-
-
-
+
+
+
+
+
+
-
+
-
-
-
-
-
-
+
-
Figure 4.1: Schéma d'une classification à deux
classes
valeur de la fonction discriminante de la classe w est
supérieure à celle de la fonction discriminante de n'importe
quelle autre classe w3».
Ou encore, sous forme mathématique:
X ?w ? Ö (X) = Ö3(X)?j = 1,2,... ,C;j=6i (4.1)
oùÖ (X) est appelé fonction discriminante de
la classe w , et C est le nombre total de classes.
Soit une fonction cout(i|j), qui désigne le coût
encouru lorsque la classe w est assignée à un objet appartenant
à la classe w3. Le classificateur optimal est celui qui minimise le
coût total obtenu, étant donné une fonction coût
particulière. Une telle fonction peut être définie par la
fonction «zero-one loss» [93]:
ë(i | j) =
|
|
0, i=j 1, i =6 j
|
|
Cette définition signifie que les classifications
correctes n'introduisent aucune perte, et que les classifications incorrectes
introduisent chacune un coût égal, de valeur unitaire. Dans ce
cas, le coût global obtenu sur un ensemble fini d'objets vaut simplement
le nombre d'erreurs de classification. Le classificateur optimal,
également appelé « Bayesien », est alors celui qui
minimise la probabilité d'erreur, c'est-à-dire la
probabilité qu'une classe
incorrecte soit assignée à un objet. Le
critère de classification devient ainsi [93]:
X ?wi ?p(wi|X) =p(wj|X), ?j = 1,2,··· ,C;j =6 i
(4.2)
où p(wi|X) est la probabilité à
posteriori de la classe wi. La classe attribuée à l'objet
représentée par le vecteur X est alors celle dont la
probabilité étant donné X est supérieure à
la probabilité de n'importe quelle autre classe, étant
donné X.
Le calcul exact des probabilités à posteriori
est cependant rarement possible, et des modèles de classificateurs ont
été développés sur base d'autres fonctions
discriminantes que la probabilité à posteriori. Ces
classificateurs peuvent être séparés en trois
catégories distinctes:
· les classificateurs paramétriques, qui sont
entièrement définis par un ensemble fini de paramètres
qu'il suffit de calculer,
· les classificateurs non paramétriques, qui ne
dépendent d'aucun paramètre en particulier,
· les classificateurs dits
«neuronaux», qui intègrent
des fonctions discriminantes à la suite d'un apprentissage par des
exemples.
Pour chaque catégorie ci-dessus, on peut associer trois
types de classificateurs:
· Type classe: dans ce cas, l'avis du classificateur est
binaire. On peut alors représenter la réponse du classificateur
par un vecteur binaire dans lequel '1'indique la classe proposée par le
classificateur. Un classificateur peut aussi produire un ensemble de classes.
Il considère alors qu'un objet appartient à une des classes de
cet ensemble sans donner d'autres informations permettant de discriminer les
classes,
· Type rang: il s'agit d'un classement sur les classes.
Le classificateur indique ce classement en fournissant en sortie un vecteur de
rangs. La classes placée au premier rang de la liste proposée par
le classificateur est considérée comme la plus probable pour un
objet et la classe du dernier rang est la moins probable,
· Type mesure: dans ce cas, le classificateur indique
le niveau de confiance dans sa proposition. La sortie du classificateur est
donc un vecteur de mesures. Cette mesure, normalisée ou non, peut
être une distance, une probabilité à posteriori, une valeur
de confiance, un score, une fonction de croyance, une possibilité, une
crédibilité, une mesure floue, etc.
Chaque type de sortie (classe, rang ou mesure) correspond
à un niveau d'information différent par le classificateur. La
sortie de type classe est la plus simple mais la moins riche en informations.
La sortie de type rang reflète l'ordre de préférence des
propositions fournies par le classificateur. La sortie de type mesure est la
plus riche en informations puisqu'elle reflète le niveau de confiance du
classificateur dans ses propositions.
On note que lorsque les sorties sont de type rang ou de type
mesure, on peut évidemment les transformer en type classe avec perte
d'informations. Ceci consiste à tenir compte uniquement de la
première solution de la liste proposée par chaque classificateur.
pour le type rang, il suffit de choisir la classe qui est placée au
premier rang et les autres classes ne seront pas prises en compte. Pour le type
mesure, il suffit de choisir la classe ayant la meilleur mesure (valeur
minimale ou maximale, selon que la mesure est croissante ou
décroissante).
4.2 Les classificateurs paramétriques
4.2.1 Les classificateurs linéaires
Il s'agit de l'un des plus simples classificateurs qui
puissent être conçus et qui dépendent des techniques
très connues telles que les correlations et les distances Euclidiennes.
Cependant, au sens Bayesien, les classificateurs linéaires ne sont
optimaux que pour les distributions normales avec des matrices de covariance
égales, chose qui n'est pas toujours valable [116].
distributions non normales. Dans ce sens, les fonctions
discriminantes sont de la forme suivante [93]:
Ö (X) = V '
X + v (4.3)
où les valeurs optimales des V et v sont à
déterminer.
Il faut noter que les frontières de décision de
ce classificateur sont convexes, chose qui limite sa flexibilité et sa
précision, et qu'aucun des classificateurs linéaires ne peut
donner des résultats souhaitables pour les distributions qui sont
séparées par la différence de covariance
(covariance-difference) et non par la différence de moyenne
(mean-difference). Dans ce cas, il n'y a aucun choix que d'adopter un
classificateur plus complexe tel que le classificateur quadratique.
4.2.2 Les classificateurs quadratiques
Comme leur nom l'indique, les frontières de
décision fournies par ce modèle de classificateur sont
quadratiques. L'expression générale des fonctions discriminantes
s'expriment:
Ö (X) = X'Q X + V '
X + v (4.4)
où les valeurs optimales des Q , V et v sont à
déterminer.
Parmi les formes utilisées pour ces classificateurs:
Ö (X) = -2(X - M
)'Ó-1
1 (X - M ) (4.5)
où M est le vecteur de caractéristiques moyen des
éléments de la classe w etÓ est la matrice de covariance
des vecteurs de caractéristiques de la classe w .
4.2.3 Le classificateur Gaussien
Les fonctions discriminantes utilisées ici sont
basées sur une estimation paramétrique des fonctions de
répartition des vecteurs de caractéristiques. Ce classificateur
suppose que les éléments de chaque classe possèdent une
distribution Gaussienne multi-variable. Dans
83 la mesure où cette hypothèse s'avère
exacte, le classificateur Gaussien permet d'obtenir les frontières
optimales de décision de Bayes. En effet, le théorème de
Bayes permet de calculer les probabilités à posteriori p(wi |X)
à partir des probabilités à priori p(wi) et des fonctions
de répartition (ou vraisemblances) p(X|wi) selon:
p(wi|X) = p(wi)p(X|wi) (4.6)
p(X)
et la règle de décision optimale (4.2) peut
dès lors être reformulée comme suit:
X ? wi ? p(wi)p(X|wi) = p(wj)p(X|wj)?j =
1,2, · · · ,C;j =6 i (4.7) Lorsque les vecteurs de
caractéristiques suivent une distribution Gaussienne, les vraisemblances
sont estimées par [93]:
1 1
p(X|wi) = exp(-2(X -
Mi)'Ó-1
i (X - Mi)) (4.8)
(2ð)d 2 |Ói|1 2
Le terme (2ð)d 2, constant, peut être omis
pour la classification. En prenant le logarithme, les fonctions discriminantes
du classificateur Gaussien s'écrivent:
Öi(X) = - 2(X -
Mi)'Ó-1
1 i (X - Mi) - 1 2 ln(|Ói|) + ln(p(wi)) (4.9)
Les fonctions discriminantes du classificateur Gaussien ne
diffèrent de celles du classificateur quadratique (4.5) que par un biais
spécifique à chaque classe. Les frontières de
décision entre les classes sont de formes quadratiques. En pratique, les
probabilités a priori p(wi), les vecteurs de caractéristiques
moyens Mi, et les matrices de covariances Ói, sont remplacés par
leurs estimations expérimentales.
4.3 Les classificateurs non paramétriques
4.3.1 L'estimation des probabilités à posteriori
qu'ils sont capable de modéliser à la suite d'un
apprentissage. En outre, l'estimation des fonctions de densités de
probabilité p(X|w ) est le plus souvent contournée, et ce sont
directement les probabilités à posteriori p(w |X) qui sont
estimées. Le principe de cette estimation est le suivant :
Soit N le nombre total de prototypes de vecteurs de
caractéristiques disponibles, de classe connue. Supposons que l'on
place, autour d'un vecteur de caractéristiques X de classe inconnue, une
hypersphère de volume V qui contient k prototypes de classe connue, dont
k sont de classe w . Dans ce cas, une estimation de la probabilité
conjointe p(X, w ), est simplement donnée par :
k /N
pN(X, w ) = (4.10)
V
Une estimation de p(w |X) est alors obtenue selon :
pN(w |X) = pN(X, w )
C
P pN(X,wj)
j=1
k
= (4.11)
k
Cela signifie qu'une estimation de la probabilité
à posteriori que la classe w soit celle de l'objet
représenté par X est simplement fournie par la fraction des
prototypes de classe w contenus dans l'hypersphère. Afin de minimiser le
taux d'erreur de classification, la classe à assigner au vecteur X devra
donc être choisie comme étant celle la plus fréquemment
représentée dans cette hypersphère. Lorsque le nombre de
prototypes disponibles tend vers l'infini, et que l'hypersphère devient
infiniment petite, cette procedure permet d'atteindre asymptotiquement des
performances optimales de classification. En outre, des performances
comparables peuvent également être obtenues en se basant
uniquement sur la classe du seul plus proche voisin de X, comme le montre la
section suivante.
4.3.2 La méthode du plus proche voisin
Le méthode du plus proche voisin (Nearest Neighbor)
consiste à calculer la distance euclidienne entre l'objet à
classifier et tous les vecteurs de caractéristiques disponibles, et la
classe assignée à l'objet est celle du prototype le plus proche
de celui-ci. Les fonctions
discriminantes sont donc de la forme:
1 (X - Xk)'(X - Xk) (4.12)
~i(X) = -min
Xk Eùi
2
Les frontières de décision entre classes sont
linéaires et constituées de nombreux petits polygones convexes,
chacun contenant un seul prototype d'une seule classe. Chaque classe est alors
délimitée par un polygone très complexe, qui n'est pas
nécessairement convexe, ni même d'une seule pièce. Ce
classificateur permet ainsi d'établir des frontières de
décision relativement complexes lorsque suffisamment d'exemplaires de
chaque classe sont disponibles. Ces performances sont toutefois atteintes au
détriment du volume de calcul à effectuer et de la
quantité de mémoire nécessaire, lesquels deviennent alors
prohibitifs.
Cover et Hart [70] ont montré qu'il existe une relation
entre le taux d'erreur minimal de Bayes et le taux d'erreur obtenu à
l'aide de la règle de décision du Plus Proche Voisin. Cette
relation n'est cependant valable qu'asymptotiquement, en considérant que
le nombre de prototypes disponibles pour chaque classe tend vers l'infini. Pour
un problème à C classes, elle se définit comme suit:
C
R* = R = R*(2 - C - 1R*)
(4.13)
où R* est le taux d'erreur de classification
de Bayes, et R le taux d'erreur obtenu asymptotiquement par la règle du
Plus Proche Voisin. En pratique, cette grandeur ne peut qu'être
estimée pour un nombre de prototypes fini N, qui doit être
suffisamment grand pour que l'estimation soit valable.
L'expression (4.13) permet d'obtenir une estimation de la
borne inférieure de la probabilité d'erreur de Bayes:
C - 1 1 - C
R* = C (1 - C - 1R) (4.14)
Ce résultat est très important, car il permet de
comparer les performances d'un classificateur à une valeur
mathématique théorique qui est une borne inférieure du
taux d'erreur de Bayes.
4.3.3 La méthode des K plus proches voisins
Un des inconvénients majeurs de la méthode du
Plus Proche Voisin est que celle-ci présente une sensibilité
élevée aux abords des frontières entre classes. Le plus
proche voisin d'un objet peut être d'une classe incorrecte, alors que la
majorité de ses voisins ne le sont pas. Afin de contrer cet effet, la
classe assignée à un objet peut être celle qui est la plus
représentée parmi les k plus proches prototypes trouvés.
La méthode porte dans ce cas le nom de «k Plus Proches
Voisins» (K-Nearest Neighbor ou K-NN). La fonction discriminante d'une
classe est alors simplement le nombre de prototypes de cette classe qui se
situent parmi les k plus proches voisins de l'objet à classifier:
Öi(X) = > |Xj ? Øk(X)| (4.15)
Xj ?ùi
où Øk (X) désigne les k plus proches voisins
de X.
Un inconvénient majeur de K-NN reste le temps qu'il met
pour classer un nouveau objet: il faut calculer la similarité entre k
prototypes et le nouveau objet, puis décider quelle classe choisir.
Le volume de calcul, ainsi que la quantité de
mémoire, exigés par les classificateurs du type K-NN, sont
cependant souvent prohibitifs, au vu du grand nombre de prototypes à
prendre en considération et de distances à calculer: pour classer
un nouveau objet, il faut calculer la similarité entre k prototypes et
le nouveau objet, puis décider quelle classe choisir. Bien qu'une
recherche exhaustive puisse être évitée en tenant compte
des propriétés triangulaires de la distance Euclidienne, ou du
fait que seuls les prototypes particuliers qui déterminent effectivement
les frontières entre classes soient réellement
déterminants, la mise en application pratique de tels classificateurs
requiert souvent des ressources de calcul très élevées.
4.4 Les classificateurs neuronaux
4.4.1 Introduction
La reconnaissance du fait que le cerveau fonctionne de
manière entièrement différente de celle d'un ordinateur
conventionnel a joué un rôle très important dans le
développement des réseaux de neurones artificiels. Les travaux
effectués pour essayer de comprendre le comportement du cerveau humain
ont menés à représenter celui-ci par un ensemble de
composants structurels appelés neurones, massivement
interconnectés entre eux. Le cerveau humain en contiendrait plusieurs
centaines de milliards, et chacun de ceux- ci serait, en moyenne,
connecté à dix mille autres. Le cerveau est capable d'organiser
ces neurones, selon un assemblage complexe, non-linéaire et
extrêmement parallèle, de manière à pouvoir
accomplir des tâches très élaborées. Par exemple,
n'importe qui est capable de reconnaître des visages, alors que c'est
là une tâche quasiment impossible pour un ordinateur classique.
C'est la tentative de donner à l'ordinateur les qualités de
perception du cerveau humain qui a conduit à une modélisation
électrique de celui-ci. C'est cette modélisation que tentent de
réaliser les réseaux de neurones artificiels.
Haykin [138] en propose la définition suivante:
« Un réseau de neurones est un processus
distribué de manière massivement parallèle, qui a une
propension naturelle à mémoriser des connaissances de
façon expérimentale et de les rendre disponibles pour
l'utilisation. Il ressemble au cerveau en deux points:
1. la connaissance est acquise au travers d'un processus
d'apprentissage;
2. les poids des connections entre les neurones sont
utilisés pour mémoriser la connaissance».
C'est sur la base de cette définition que repose
l'élaboration des réseaux de neurones artificiels.
4.4.2 Du neurone biologique au neurone artificiel
Le neurone biologique est composé de quatre parties
distinctes (figure (4.2)):
le corps cellulaire (cell body) , qui contient le noyau de la
cellule nerveuse; c'est en cet endroit que prend naissance l'influx nerveux,
qui représente l'état d'activité du neurone;
les dendrites (dendrites) , ramifications tubulaires courtes
formant une espèce d'arborescence autour du corps cellulaire; ce sont
les entrées principales du neurone, qui captent l'information venant
d'autres neurones;
l'axone (axon) , longue fibre nerveuse qui se ramifie à
son extrémité; c'est la sortie du neurone et le support de
l'information vers les autres neurones;
la synapse (synapse) , qui communique l'information, en la
pondérant par un poids synaptique, à un autre neurone; elle est
essentielle dans le fonctionnement du système nerveux.
Figure 4.2: Schéma d'un neurone biologique [138]
Figure 4.3: Schéma d'un neurone artficiel
Chaque neurone réalise une opération très
simple, qui est en fait une somme pondérée de ses entrées.
Le résultat est comparé à un seuil et le neurone devient
excité si ce seuil est dépassé. L'information contenue
dans le cerveau est représentée par les poids donnés aux
entrées de chaque neurone. Du fait du grand nombre de neurones et de
leurs interconnections, ce système possède une
propriété de tolérance aux fautes. Ainsi, la
défectuosité d'un élément mémoire (neurone)
n'entraînera aucune perte réelle d'information, mais seulement une
faible dégradation en qualité de toute l'information contenue
dans le système. C'est pourquoi nous pouvons reconnaître le visage
d'une personne, même si celle-ci a vieilli, par exemple.
Selon Lippmann [200], la première étude
systématique du neurone artificiel est due au neuropsychiatre McCulloch
et au logicien Pitts qui, s'inspirant de leurs travaux sur les neurones
biologiques, proposèrent en 1943 le modèle de la figure (4.3).
Ce neurone formel est un processeur élémentaire
qui réalise une somme pondérée des signaux qui lui
parviennent. La valeur de cette sommation est comparée à un seuil
et la sortie du neurone est une fonction non linéaire du
résultat:
w x - è (4.16)
Dans le modèle original de McCulloch et Pitts, la non
linéarité était assurée par la fonction seuil de
Heaviside.
4.4.3 Le perceptron
Le perceptron est un réseau présenté
originalement par Rosenblatt en 1959 [187] et constitue la forme la plus simple
de réseaux de neurones. Il permet de classifier des objets appartenant
à deux classes linéairement séparables. Il consiste en un
seul neurone qui possède un seuil ainsi qu'un vecteur de poids
synaptiques ajustables et une fonction d'activation de type Heaviside ou signe,
tout comme le modèle de neurone de McCulloch et Pitts (figure 4.3).
Le perceptron associe à chaque classe une fonction
discriminante linéaire qui s'exprime par: ~i(X) = W ' iX
(4.18) avec:
· Wi = [è w1 w2 · · ·
wd]' est un vecteur de coefficients de pondérations;
· X = [-1 x1 x2 · · · xd]' est le
vecteur des caractéristiques d'un objet à classifier
augmenté par le -1 à l'indice 1.
Dans le cas d'un problème à deux classes, la
règle de classification s'écrit:
X E ù1? 1(X) ~ 2(X), X E ù1 sinon. (4.19)
Le perceptron décrit ci-dessus ne contient qu'un
neurone. Celui-ci ne permet, dès lors, que d'effectuer la classification
dans un problème à deux classes seulement. La reconnaissance de
plusieurs classes est cependant rendue possible par la mise en parallèle
de plusieurs perceptrons (figure (4.4)). Le perceptron ainsi obtenu comporte un
neurone
par classe, chacun de ceux-ci réalisant une fonction
discriminante linéaire de la classe àlaquelle il est
associé.
91
Figure 4.4: Schéma d'un perceptron à C neurones
pré-classifiées. Ceci conduit le perceptron
à partitionner l'espace des variables d'entrée en régions
correspondant chacune à une classe, selon des frontières de
décision linéaires, constituées de segments d'hyperplans,
définis par ~i(X) - ~j(X) = 0. Le seuil des neurones permet de
définir des hyperplans qui ne contiennent pas nécessairement
l'origine de l'espace des paramètres.
La règle d'apprentissage du perceptron,
développée originalement par Rosenblatt, converger converge
seulement si les données sont linéairement séparables.
Afin de vaincre cette limitation, une méthode basée sur le
critère des moindre carrés a été
développée par Widrow et Hoif [138].
4.4.4 Le perceptron Multicouches
Les limitations posées par le perceptron, avec le
fameux problème XOR (ou exclusive) de Minsky et Papert [187, 138], ont
mis la question sur l'utilité des perceptrons dans des applications
complexes. Mais c'est eux même qui ont prouvé q'un réseau
de neurones en cascade à deux couches peut surmonter les limitations du
perceptron d'où l'idée de la conception générale du
réseau perceptron multicouches (MLP: Multilayer Perceptron).
aux neurones de la couche suivante [93, 138]. La
première couche s'appelle couche d'entrée, la dernière est
nommée couche de sortie et les couches intermédiaires sont
désignées par le terme couches cachées. Il a
été montré qu'un MLP à deux couches avec des
fonctions d'activation intégrables au sens de Riemann non polynomiales
sur la première couche et une fonction d'activation linéaire sur
la seconde est un approximateur universel [73, 152]. Ceci veut dire que le
réseau est capable d'approximer n'importe quelle fonction lisse avec une
précision donnée, pourvu que l'on fournisse un nombre suffisant
de neurones dans la couche cachée. Cependant, en pratique, il n'est pas
forcément possible d'approximer toute fonction, car dans certains cas le
nombre de neurones nécessaire peut être gigantesque, et il n'est
pas garanti que l'algorithme d'apprentissage pourra converger vers le
résultat souhaité.
Figure 4.5: Schéma d'un réseau MLP à une
couche cachée
Dans le cas d'un réseau MLP à une seule couche
cachée, les fonctions discriminantes réalisées par un tel
réseau sont de la forme:
(~i(X) = ?2,i -è2,i +
|
Xh1 j=1
|
(w2,ij?1,j -è1,j +
|
Xd q=1
|
))w1,jqxq (4.20)
|
|
où:
· ?l,i représente la fonction d'activation du
neurone i de la couche l;
· èl,i est le seuil du neurone i de la couche l;
· wl,ij représente le poids entre le neurone i
de la couche l avec le neurone j de la couche l - 1;
· hl est le nombre de neurones de la couche l;
· X = [x1 x2 · · · xd]' est le
vecteur d'entrée.
Les fonctions d'activation des neurones doivent absolument
être non linéaires, sinon le perceptron multicouches ne ferait
qu'implanter une série de transformations linéaires
consécutives, qui pourraient dès lors se réduire à
une seule. Et c'est grâce à l'utilisation de fonctions
d'activations non linéaires que le perceptron multicouches peut
générer des fonctions discriminantes non linéaires.
Le choix de l'architecture optimale d'un réseau
perceptron multicouche reste toujours un problème ouvert et souvent ce
choix se fait par essaie-erreur sur un nombre limité de topologies. En
effet, une recherche exhaustive sur toutes les topologies possibles pour un
réseau MLP est, pratiquement, impossible [221]. Mais parfois certains
résultats tenant compte de l'objectif fixé pourront nous guider
dans le choix de certains paramètres.
4.4.5 Apprentissage du perceptron Multicouches
L'apprentissage des réseaux MLP constitue un point
essentiel dans leur mise en oeuvre. En effet, les performances d'un
réseau sont en étroite relation avec la méthode
d'apprentissage.
4.4.5.1 La rétro-propagation du gradient
La méthode de la rétro-propagation du gradient
(Back propagation) est une méthode d'optimisation utilisée en
particulier dans l'apprentissage des réseaux de neurones, et
conditionnée par la notion de la boucle fermée.
C'est une méthode due à Rumelhart et al. [264],
et consiste à corriger les erreurs selon l'importance des
éléments qui ont justement participé à la
réalisation de ces erreurs. Dans le cas des réseaux de neurones,
les poids synaptiques qui contribuent à engendrer
une erreur importante se verront modifi~es de manière
plus significative que les poids qui ont engendr~e une erreur marginale, de
manière à ce que le r~eseau soit capable de r~ealiser une
transformation donn~ee, repr~esent~ee par un ensemble d'exemples constitu~e
d'une suite de N vecteurs d'entr~ees Xk = [xk1 xk2 · · ·
xkd]' associ~ee à une autre suite de vecteurs de sorties
d- esir- ees T k = [t(k)
1 t(k)
2 · · · t(k)
hL ] ' . Cet objectif est r- ealis-e par
la minimisation d'une fonction coût qui est non-lin~eaire au regard des
poids synaptiques et disposant d'une borne inf~erieure. Parmi ces fonctions,
l'erreur de Minkowski-R [134] dont le critère des moindres carr~es de
l'erreur (MSE: Mean Square Error) n'est qu'un cas particulier obtenu pour R = 2
et s'exprime par:
~
y(k)
L,i - t(k)
i
2
(4.21)
2
1
E=
XhL i=1
XN k=1
où:
. N est le nombre d'exemples d'apprentissage;
. L est le nombre de couches du r~eseau;
. hl est le nombre de neurons de la couche l;
. yl, i d-esigne la sortie du neurone i de la couche l
lorsque le vecteur Xk est pr~esent~e
(k)
à l'entr~ee du r~eseau;
. t(k)
irepr~esente la valeur d~esir~ee de la sortie pour le
neurone i de la dernière couche lorsque le vecteur Xk est pr~esent~e
à l'entr~ee du r~eseau.
La minimisation de la fonction coût se fait de
manière it~erative, en utilisant l'algorithme de r~etro-propagation
(Annexe II) selon les ~etapes donn~ees par l'algorithme (4.1)[138].
Etape 1- Initialisation:
- mettre les poids et les seuils d'activation du réseau
à des valeurs aléatoires uniformément
distribuées;
- mettre la valeur du taux d'apprentissage à une petite
valeur positive;
Etape 2- Activation: consiste à présenter les
éléments de la base d'apprentissage en calculant la fonction
coût;
Etape 3- Entraînement des poids: consiste à
mettre à jour les poids du réseau en propageant les erreurs dans
le sense inverse, c'est à dire de la couche de sortie à la
première couche cachée. Cette adaptation se fait selon le mode
d'apprentissage en ligne ou hors ligne;
Etape 4- Itération: consiste à faire itérer
le processus en reprenant de l'étape 2 jusqu'à ce ce que le
critère d'arrêt soit atteint.
Algorithme 4.1: Rétro-propagation du gradient
4.4.5.2 Les algorithmes dérivés d'apprentissage
L'apprentissage des réseaux de neurones est devenu, depuis
la conception de l'algorithme de rétro-propagation du gradient par
Rumelhart et al. [264], un grand champ de recherche qui a suscité
plusieurs questions sur l'efficacité de cette méthode et les
différentes manières pour l'améliorer. La version
originale de la rétro-propagation du gradient (Annexe II) a
été basée sur la minimisation de la fonction coût
((11.1)) tout en adaptant les poids synap-
tiques selon:
?E(k)
wl,ij(ô + 1) =wl,ij(ô) - ç (4.22)
?wl,ij
De ce «problème d'optimisation», il
apparaît plusieurs paramètres sur lesquels nous pourrons apporter
des améliorations. Le premier de ces paramètres est le
critère d'arrêt
de l'algorithme. En effet, généralement la
convergence de l'algorithme n'est pas assurée et il n'y a aucun
critère bien défini pour le stopper sauf bien sure le nombre
d'itérations. Cependant, il y a certains critères empiriques:
Critère 1 [184]: la rétro-propagation est
considérée comme s'elle a convergé quand la norme
Euclidienne des vecteurs gradient atteint un seuil suffisamment faible;
Critère 2 [138]: la rétro-propagation est
considérée comme s'elle a convergé quand le taux absolu du
changement de l'erreur quadratique par itération est suffisamment
faible.
Le second paramètre est l'utilisation d'autres
distances non Euclidienne au niveau de la fonction coût ((II.1)) tel que
la distance de Minkowski de paramètre différent de 2. Ainsi,
partant du fait que si les vecteurs caractéristiques ne sont pas
Gaussiens, alors le critère ((II.1)) ne pourra être un estimateur
du maximum de vraisemblance des poids, Hanson et Burr [134] ont proposé
d'utiliser l'erreur de Minkowski-r avec r > 2 ou r < 2 pour aboutir
à certains objectifs tel que la réduction de l'effet du bruit
pour les r < 2.
Le troisième paramètre qui a été
l'objet de plusieurs travaux est la fonction coût. Ceci est du à
plusieurs raisons. Il se peut, par exemple, que le critère (II.1) ne
soit pas
la fonction objective optimale pour une tâche donnée
[197]. Le deuxième problème poséest celui des
minimums locaux provenant des faibles valeurs des gradients locaux (voir Annexe
II, equation II.13):
8(k)
l,i = _?(u(k)
l ,i )
|
hl+1X q=1
|
wl+1,qi8(k) (4.23)
l+1,q
|
En effet, lorsque le gradient local relatif à un
neurone est très faible, les corrections appliquées aux poids
synaptiques de ce neurone deviennent alors insignifiantes, conduisant ainsi
à une stagnation de l'apprentissage du perceptron multicouches. Ainsi,
pour le cas d'une fonction d'activation sigmoide:
?: x -?
le gradient local pour un neurone i vaut:
|
1(4.24) 1 + exp(-x)
|
1. si est un neurones de la couche de sortie:
8(k)
L,i = y(k)
L,i(1 - y(k)
L,i)(y(k)
L,i - t(k)
i ) (4.25)
2. si est un neurones de la couche cachée l:
8(k)
l,i = y(k)
l,i (1 - y(k)
l,i )
|
hl+1>2 q=1
|
wl+1,qi8(k)
l+1,q (4.26)
|
Le produit y(k)
l,i (1 - y(k)
l,i ) , connu sous «sigmoid-prime function» [100]),
tend vers zéro lorsque la sortie est proche de zéro ou de un ce
qui conduit à une stagnation de l'apprentissage. Ce
phénomène se produit quelque soit la valeur de saturation
obtenue, et donc également lorsque celle-ci est à l'opposé
de celle que l'on désire atteindre. Ainsi par exemple, si pour un
neurone de la couche de sortie la valeur de sortie est 0.01 et la valeur
désirée est 1 alors la valeur du gradient local est -0.0098.
Cette valeur est obtenue même pour une valeur de sortie de 0.895376. A la
limite, si une saturation absolue est atteinte, alors aucune adaptation des
poids synaptiques de ce neurone n'est possible, et par conséquent
l'apprentissage reste bloqué dans un minimum local.
Afin de vaincre ce problème, plusieurs solutions ont
été proposées.Ainsi, Fahlman [100] a essayé
d'apporter certaines modifications à la «sigmoid-prime
function» alors que Caruana et al. [54] ont fait une mise à
l'échelle des sorties pour s'éloigner des valeurs zéro et
un. D'autres chercheurs ont proposé d'utiliser des fonctions coût
basées sur l'entropie relative et l'entropie croisée afin de
l'éliminer [213, 306, 234, 233, 173]. On trouve aussi d'autres
méthodes tel que CFM (classification figure-of-merit) [132] et CB
(classificationbased objective functions) [257, 256].
Le quatrième point qui a attiré l'attention des
chercheurs est la réponse à la question: comment
accélérer la convergence de l'algorithme de
rétro-propagation? Avant de répondre à cette question, il
faut savoir pourquoi elle est lente. En fait, c'est pour deux raisons
principales:
poids synaptiques;
2. la direction du vecteur gradient pourrait être loin du
point optimal.
Pour remédier à ces causes, une des solutions
consiste à modifier la formule d'adaptation des poids synaptiques par
l'ajout d'un terme de moment. Dans ce cas, la valeur d'un poids synaptique
n'est plus seulement adaptée proportionnellement à la
dérivée de la fonction coût par rapport à ce poids,
mais est également modifiée en fonction de la correction
appliquée à l'instant précédent. Sous forme
mathématique, la formule d'adaptation des
poids synaptiques s'écrit alors [247]:
?E(k)
wl,ij(ô + 1) - wl,ij(ô) = -ç +
á(wl,ij(ô) - wl,ij(ô - 1)) (4.27)
?wl,i j
où 0 = á = 1 est appelé moment.
Cette expression peut être réécrite sous la
forme:
wl,ij(ô + 1) - wl,ij(ô) = -ç
|
Xô q=0
|
áq ?E(k-q)
(4.28)
?wl,ij
|
Grâce à l'utilisation de ce terme moment, la
direction de recherche du minimum à un instant donné, est une
somme pondérée des gradients actuel et précédents.
La pondération qui intervient, est telle que l'importance relative d'un
gradient décroît exponentiellement au fur et à mesure que
ce dernier est éloigné dans le temps. Le fait de prendre en
compte plusieurs gradients consécutifs aide les poids synaptiques
à traverser les sections plates de la surface de la fonction coût,
après qu'ils en aient descendu des sections abruptes. Ceci permet en
outre de modifier les poids synaptiques, non plus à l'aide d'un
même taux d'adaptation pour l'ensemble de ceux-ci, mais selon un taux qui
est propre à chaque poids, et qui est dépendant de son histoire
particulière.
Les valeurs des paramètres ç et á doivent
être déterminées empiriquement, de manière à
limiter la fréquence d'apparition de deux phénomènes qui
sont opposés, mais qui conduisent tous deux à un net
ralentissement de l'évolution de l'apprentissage.
l'ensemble du système n'évolue alors que
lentement.
· D'autre part, lorsque les valeurs de ces
paramètres sont élevées, des corrections d'amplitude
importante sont appliquées aux poids synaptiques dans les régions
de forte pente de la fonction coût, ce qui peut entraîner une
augmentation de la valeur de cette dernière. Il en résulte ainsi
également un ralentissement de l'évolution de l'apprentissage.
D'autres solutions ont été basées sur
l'adaptation au cours du temps du taux d'apprentissage ç. Parmi les
méthodes proposées, on trouve: Delta-Bar-Delta [160], Quickprop
[100], SuperSAB [301], Auto-détermination [321], Rprop [255].
Les méthodes ci-dessus sont considérées
de premier ordre. Afin d'accélérer l'algorithme de
rétro-propagation, des méthodes, basées
généralement sur la matrice Hessienne [42] de la fonction
coût, dites de second ordre ont été
développées. Parmi ces méthodes: le gradient
conjugué [169], le gradient conjugué régularisé
[220] et les méthodes de Newton [25].
4.4.5.3 Les modes d'apprentissage
Il existe deux modes principaux d'apprentissage, selon la
façon dont les vecteurs de poids synaptiques sont adaptés:
L'apprentissage en ligne consiste à modifier les valeurs
de ces poids synaptiques immédiatement après la
présentation d'un objet. Dans ce cas, seul le gradient
instantanéde la fonction coût est utilisé pour l'adaptation
des paramètres du système. Sous la
condition que les objets soient présentés au
réseau de neurones de manière aléatoire, l'apprentissage
en ligne rend la recherche du minimum de la fonction coût stochastique en
nature, ce qui rend moins probable, pour l'algorithme de
rétro-propagation, de tomber dans un minimum local.
L'apprentissage hors ligne consiste à accumuler les
gradients instantanés consécutifs, et à n'effectuer
l'adaptation des poids synaptiques que lorsque l'ensemble des objets
d'apprentissage ont été présentés au perceptron
multicouches. On parle alors
d'apprentissage hors-ligne. Cette dernière
méthode permet de mieux estimer le gradient réel de la fonction
coût, puisqu'elle est à présent calculée à
partir d'un ensemble d'objets, plutôt qu'à partir d'un seul.
Il existe aussi un autre mode entre les deux, dit
apprentissage mini-batch, qui consiste à présenter successivement
au réseau de neurones un seul exemplaire de chaque classe, d'accumuler
les gradients instantanés, et d'effectuer l'adaptation des poids
synaptiques lorsque, pour chaque classe, un exemplaire aura été
présenté.
L'efficacité relative des modes d'apprentissage en
ligne et hors ligne dépend essentiellement du problème
considéré. L'apprentissage en ligne présente cependant
l'avantage que, pour une seule présentation de l'ensemble de la base de
données, il implique de multiples phases d'adaptations des poids
synaptiques lorsque des données similaires se présentent, ce qui
se produit fréquemment pour des bases de données très
étendues.
4.4.6 Généralisation
Le but général de l'apprentissage
supervisé est, qu'à partir d'une base d'apprentissage, de pouvoir
décider pour d'autres éléments n'appartenant pas à
cette base. Or, le réseau pourrait nous donner de mauvais
résultats quand on lui présentera des données un peu
différentes. Pour avoir de bonnes performances à ce niveau, il
faut améliorer la généralisation du réseau ou en
langage statistique avoir un bon compromis biais-variance [120, 115]. La
formulation de ce compromis pour le cas de classification est plus complexe que
celle pour la régression, et consiste à décomposer
l'erreur de prédiction en deux termes: le premier appelé biais,
mesure l'efficacité de la prédiction; le second, appelé
variance, reflète l'influence du choix de la base d'apprentissage sur la
prédiction [300, 88, 196].
Pour avoir une meilleur généralisation, il faut,
d'une part, choisir l'architecture adéquate et , d'autre part,
»optimiser» la phase d'apprentissage afin que le
phénomène de sur ou sous apprentissage disparaisse. Cependant, il
faut noter que le choix d'une base d'apprentissage, qui reflète le plus
que possible le phénomène étudié, reste le facteur
principal pour avoir de bons résultats. Trois méthodes sont les
plus utilisées pour avoir une bonne généralisation:
La validation croisée: cette méthode,connu aussi
sous le nom K-fold, repose sur une estimation des performances à partir
d'exemples n'ayant pas servi à la conception du modèle. Pour ce
faire, on scinde la base d'apprentissage en K blocs de taille (ap-
proximativement) égale. On réalise alors K
apprentissages du modèle, en laissant àchaque fois une
des parties de côté pour le valider (figure (4.6)) où la
partie grisée
est utilisée pour la validation et les autres pour
l'apprentissage). La performance du modèle s'obtient à partir des
erreurs de validation constatées après les K apprentissages. Le
résultat de l'algorithme de la validation croisée pour un
modèle M, un ensemble de données D, un nombre de blocs K avec ED
j est la valeur de la fonction coût calculé pour le
bloc 1 = j = K de l'ensemble D, s'exprime par:
XK
1
CV (M) = K j=1
|
ED j (4.29)
|
Pour faire la selection du meilleur modèle Mopt
sur un ensemble de modèles Mod, on cherche:
Mopt = argmin (CV(M)) (4.30)
M?Mod
Figure 4.6: Schéma de la partition de la base
d'apprentissage au cours du processus de la validation croisée
Dans le contexte de réseaux de neurones, la recherche
de l'architecture optimale, par exemple, s'effectue souvent en partant d'un
modèle linéaire et en augmentant progressivement le nombre de
neurones cachés. Le modèle optimal est alors défini comme
étant celui qui présente le meilleur score de validation
croisée.
La limite naturelle de la validation croisée correspond
au cas où D est égal au nombre d'exemples dans la base
d'apprentissage. Cette méthode est connue sous le nom
de «leave-one-out» [248] car chaque apprentissage n'est
validé que sur un seul exemple.
Les difficultés de cette méthode sont de deux
ordres:
· Le temps de calcul nécessaire pour une même
base d'apprentissage est d'autant plus grand que K est élevé (il
est donc maximum dans le cas du leave-one-out),
· Des performances contrastées en termes de taille
de l'architecture sélectionnée et d'estimation des performances
à cause de la taille de la base d'apprentissage.
La régularisation: ses méthodes associées
ne cherchent pas à limiter la complexité du réseau, mais
elles contrôlent la valeur des poids pendant l'apprentissage. Il devient
possible d'utiliser des modèles avec un nombre élevé de
poids et donc un modèle complexe, même si le nombre d'exemples
d'apprentissage est faible. Bartlett [23] a montré que la valeur des
poids était plus importante que leur nombre, de telle façon que
si un grand réseau est utilisé et que l'algorithme
d'apprentissage trouve une erreur quadratique moyenne faible avec des poids de
valeurs absolues faibles, alors les performances en
généralisation dépendent de la taille des poids
plutôt que de leur nombre.
Plusieurs méthodes de régularisation existent dans
la littérature, on cite:
1. «Early stopping» ou arrêt
prématuré est une méthode qui consiste à
arrêter les itérations avant la convergence de l'algorithme
d'apprentissage. Si la convergence n'est pas menée à son terme,
le modèle ne s'ajuste pas trop finement aux données
d'apprentissage: le surajustement est limité. Pour mettre en oeuvre
cette méthode, il faut déterminer le nombre d'itérations
à utiliser pendant l'apprentissage. La méthode la plus classique
consiste à suivre l'évolution de la fonction coût sur une
base de validation, et à arrêter les itérations lorsque le
coût calculé sur cette base commence à croître.
Cependant, cette méthode peut être inapplicable, car il est
difficile de déterminer avec précision le moment exact où
il faut arrêter l'apprentissage puisque les performances sur la base de
validation ne se dégradent pas nettement.
Cette méthode, comme Sloberg et Ljung [281] ont
montré, revient à utiliser un terme de pénalisation dans
la fonction coût, ce qui justifie sa classification parmi les
méthodes de régularisation.
2. Pénalisation de la fonction coût est la
deuxième façon d'influer sur la régularitédu
modèle. Elle consiste à introduire des contraintes dans la
fonction coût à
minimiser.
Etotal = E + ÀEreg (4.31)
où E est la fonction coût ÀEreg
est le terme à introduire. L'apprentissage est réalisé en
minimisant la nouvelle fonction Etotal.
Toute la difficulté de cette méthode
réside dans le dosage optimal entre la fonction coût initiale et
le terme de régularisation. Si l'on choisit À trop grand, le
modèle risque d'avoir un biais élevé. Inversement, si
À est trop petit, l'effet du terme de régularisation est trop
faible, ce qui se traduit par une variance élevée. La grandeur
À devient donc en fait un paramètre, à estimer au
même titre que les poids du reseau: elle est souvent
désignée sous le nom d'hyperparamètre [206].
Parmi les différentes formes possibles pour la fonction
Ereg, la méthode du weight decay [186] qui est simple
à mettre en oeuvre, et plusieurs études ont montré qu'elle
conduisait à de bons résultats [118]. Elle consiste simplement
à ajouter à la fonction coût un terme proportionnel
à la norme du vecteur des poids synaptiques.
Le bruitage: est une technique empirique qui permet
d'augmenter la qualité de la généralisation. Elle consiste
à ajouter un léger bruit à chaque vecteur d'entrée
pendant l'apprentissage, alors que la sortie désirée demeurant
inchangée. De cette façon, on
associe une petite zone de l'espace d'entrée
centrée autour d'un vecteur d'entrée àune
même sortie désirée. Cela permet d'assurer un ajustement du
modèle appris
par le réseau autour des points d'apprentissage.
Plusieurs travaux ont été menés dans ce sens, nous
citons: Lee et Oh [198], Grandvalet [129], Seghouane et al. [272].
4.5 Combinaison de classificateurs
Les méthodes de classification, basées sur
différentes théories et méthodologies, sont
généralement considérées comme autant de solutions
possibles à un même problème, leur développement n'a
pas permis de mettre en évidence la supériorité
incontestable d'une méthode sur une autre pour répondre aux
contraintes des applications pratiques. En effet,
l'étude de ces techniques a fait apparaître des
différences de comportement et donc une complémentarité
potentielle qu'il semblait intéressant d'exploiter pour obtenir des
performances supérieures à celles d'un seul classificateur. En
fait, de la même manière qu'une caractéristique
supplémentaire apportant une information complémentaire permet
à un
classificateur de mieux décider, une réponse
provenant d'un autre classificateur permet àun système
de classificateurs de mieux décider à condition que cette
réponse soit complé-
mentaire aux décisions des classificateurs existants. Par
conséquent, l'idée d'en utiliser plusieurs simultanément
s'est peu à peu imposée.
4.5.1 Stratégies de combinaison
La multiplication des travaux sur la combinaison a
entraîné au point de nombreux schémas traitant les
données de manières différentes. Trois approches pour la
combinaison
de classificateurs peuvent être envisagées:
séquentielle, parallèle et hybride. Mais, malgréla
diversité des schémas de combinaison, la détermination de
la meilleur organisation reste un problème ouvert.
- La combinaison séquentielle, appelée
également combinaison en série ou en cascade, est
organisée en niveaux successifs de décision permettant de
réduire progressivement le nombre de classe possibles. dans chaque,
niveau, il existe un seul classificateur qui prend en compte la réponse
fournie par le classificateur placé en amont afin de traiter les rejets
ou confirmer la décision obtenue sur la forme qui lui est
présentée (figure (4.7)). Une telle approche peut être vue
comme un filtrage progressif des décisions dans la mesure où elle
permet de diminuer au fur et à mesure l'ambiguïté sur la
classe proposée. Cela permet généralement de diminuer le
taux d'erreur globale de la chaîne de reconnaissance. Néanmoins,
une combinaison de ce type demeure particulièrement sensible à
l'ordre dans lequel sont placés les classificateurs. En effet,
même s'ils ne nécessitent pas d'être les performants, les
premiers classificateurs invoqués doivent être robustes, c'est
à dire que la solution réelle de la forme à identifier
doit apparaître dans les listes successives quelle que soit leur taille.
En cas de mauvaise décision du premier classificateur, placé en
amont de la série des classificateurs utilisés, l'erreur va se
propager de façon irrévocable. Il faudra donc choisir
judicieusement le premier classificateur afin d'éviter -autant que
possible-
Figure 4.7: Combinaison séquentielle de
classificateurs
l'apparition d'une telle situation. La combinaison
séquentielle suppose donc une certaine connaissance à priori du
comportement de chacun des classificateurs. Notons que dans cette approche,
chaque classificateur est réglé en fonction du classificateur
placé en amont de la chaîne. Une simple modification du premier
classificateur peut provoquer un nouveau paramétrage ou apprentissage
des classificateurs suivants.
- La combinaison parallèle, à la
différence de la combinaison séquentielle, elle laisse dans un
premier temps les différents classificateurs opérer
indépendamment les uns des autres puis fusionne leurs réponses
respectives. Cette fusion est faite soit de manière démocratique,
dans le sens où elle ne favorise aucun classificateur par rapport
à un autre, soit au contraire dirigée et, dans ce cas, on
attribue à la réponse de chaque classificateur un poids en
fonction de ses performances. L'ordre d'exécution des classificateurs
n'intervient pas dans cette approche. La figure (4.8) fournit une
représentation de la combinaison parallèle des
classificateurs.
Figure 4.8: Combinaison parallèle de classificateurs
dépendante. Par contre, la décision finale est
prise avec le maximum de connaissances mises à disposition par chaque
classificateur. Dès lors se posent les problèmes de
précision
des informations fournies par les classificateurs et de la
confiance qu'on peut accorder àchacun d'eux.
- La combinaison hybride consiste à combiner à
la fois des architectures séquentielles et parallèles afin de
tirer pleinement avantage de chacun des classificateurs utilisés. La
figure (4.9) présente un exemple de combinaison hybride dans laquelle on
combine un classificateur en série avec deux classificateurs en
parallèle.
Figure 4.9: Combinaison hybride de classificateurs
Ce type d'approche permet de générer de nombreux
schémas de coopération qui peuvent rapidement devenir complexes
à optimiser. Il illustre les deux aspects de la combinaison qui sont
d'une part la réduction de l'ensemble des classes possibles et d'autres
part la recherche d'un consensus entre les classificateurs afin d'aboutir
à une décision unique.
4.5.2 Combinaison non paramétrique
Ces méthodes n'utilisent que des informations du
premier ordre (sorties de classificateurs). Elles sont faciles à mettre
en oeuvre et ne nécessitent pas de phase d'apprentissage. Cependant, le
point faible de ces méthodes est qu'elles traitent les classificateurs
de manière égale ce qui ne permet pas de tenir compte de leur
capacité individuelle. Elles peuvent être divisées en type
classe, rang et mesure.
4.5.2.1 Type classe
L'avantage de la combinaison de type classe est qu'elle peut
être utilisée pour tout type de classificateur (classe, rang ou
mesure), quelle que soit sa structure. Dans cette combinaison, chaque
classificateur fournit en sortie une réponse sur l'appartenance de la
forme inconnue à une classe ou un ensemble de classes (ayant le
même degré de préférence). Toutefois, il s'agit de
la seule information qu'on pourra utiliser.
La combinaison d'un ensemble de classificateurs de type classe
est souvent basée sur le principe du vote pour lequel on trouve, dans la
littérature, plusieurs méthodes qui ont été
proposées. Ces méthodes consistent à interpréter
chaque sortie d'un classificateur comme un vote pour l'une des classes
possibles. La classe ayant un nombre de votes supérieur à un
seuil préfixé est retenue comme décision finale. Ces
méthodes sont les plus simples à mettre en oeuvre: les votes des
classificateurs ne sont pas pondérés et chaque classe
reçoit autant de votes qu'il y a de classificateurs à combiner.
La plupart de ces méthodes ne nécessite qu'un seul niveau de
décision. On peut classer ces méthodes en trois
catégories: vote avec seuil, majorité sans conflit et
majorité notoire.
· Vote avec seuil: dans ce cas, pour qu'une classe
soit retenue comme résultat de la combinaison, une proportion À
de classificateurs devront répondre à cette classe. Ainsi, pour
À = 0, il s'agit du vote à la pluralité où la
classe qui reçoit le plus de votes est choisie comme classe finale.
Connue aussi sous le nom First past the post [71], cette méthode est la
forme de vote la plus simple et la plus facile à appliquer.
Néanmoins, il y a rejet si toutes les classes ont le même nombre
de votes. Dans ce cas, les risques de conflit sont particulièrement
importants.
Pour À = 0.5, il s'agit du vote à la
majorité. La classe finale est décidée si plus de la
moitié des classificateurs l'ont proposé. Ce vote est aussi
très simple à appliquer mais il peut produire une décision
finale erronée (quand la majorité des classificateurs ne
proposent pas la vraie classe). La production de ce cas est faible surtout
lorsqu'on a un grand nombre de classificateurs. L'utilisation du vote à
la majorité est justifiée dans les situations où il est
difficile d'obtenir d'autres types de sorties à partir
des classificateurs et surtout dans les problèmes
où on l'en combine un très grand nombre de classificateurs et
pour lesquels il est difficile d'appliquer d'autres méthodes
de combinaison plus complexes [168]. Les performances de cette
méthode ont étél'objet de plusieurs travaux,
nous citons: Ruta et Gabrys [265], Narasimhamurthy [228].
Pour ë = 1, la classe finale est choisie si tous les
classificateurs proposent cette réponse sinon la réponse finale
est le rejet. Cette méthode restrictive qui accepte le moins de risque
possible est appelée majorité unanime. S'il s'agit d'une
méthode fiable, elle présente toutefois l'inconvénient
majeur de produire un taux de reconnaissance assez faible, surtout lorsque le
nombre de classificateurs augmente.
· Majorité sans conflit: Le principe est
identique à celui de la majorité unanime, à ceci
prés qu'on autorise les classificateurs à rejeter. Un
classificateur proposant de rejeter l'élément n'a donc aucun
poids dans ce système: lorsque tous les classificateurs rejettent sauf
un, alors c'est la sortie de ce classificateur qui sera conservée comme
résultat de la combinaison. Il n'y a rejet que lorsque tous les
classificateurs ont proposé de rejeter l'élément ou en cas
de confit.
· Majorité notoire: Dans ce cas, pour être
désignée comme réponse finale, la classe majoritaire doit
de plus se distinguer de la deuxième classe d'une différence
supérieure à un certain seuil. Les résultats de tests
faits par Xu et al. [326] montrent que cette méthode est meilleure que
la majorité avec seuil surtout quand un minimum de fiabilité est
exigée.
Les méthodes que nous avons présentées se
composent d'une seule étape. Il existe d'autres méthodes de vote
qui nécessitent plusieurs étapes [305].
4.5.2.2 Type rang
Les méthodes de type rang ont été
développées essentiellement pour résoudre les
problèmes des méthodes de vote lorsqu'il n'y a pas de vainqueur
majoritaire. Plusieurs méthodes on été proposées
dans ce sens, les plus reconnues sont le Borda count [123, 304, 240, 305] et le
meilleur rang [149].
4.5.2.3 Type mesure
Les méthodes de type mesure combinent des mesures qui
reflètent le degré de confiance des classificateurs sur
l'appartenance de l'objet à reconnaître en chacune des classes.
Toutefois, comme les sorties des classificateurs ne sont pas toujours
comparables, une normalisation est souvent nécessaire [94, 332]. Les
méthodes de combinaison non paramétrique les plus
utilisées sont les méthodes fixes et la moyenne de Bayes.
· Méthodes fixes: Le principe de base
derrière les méthodes fixes est le suivant: les classificateurs
sont indépendants et estiment des probabilités à
posteriori des classes.
Ainsi, pour reconnaître une forme, on utilise une
règle de décision qui revient àchoisir la
classe pour laquelle la probabilité à posteriori est la plus
élevée. Cette
probabilité peut être calculée par l'une des
règles: maximum, minimum, médiane, produit ou linéaire.
Les trois premières règles sont connues sous le
nom d'opérateurs d'ordre statique. La règle maximum consiste
à choisir la classe pour laquelle la probabilité est la plus
élevée. Si le classificateur qui propose cette confiance a une
mauvaise performance alors la règle maximum n'est pas fiable. La
règle minimum consiste à choisir le classificateur qui propose la
probabilité la plus faible. Comme la règle maximum, il est
difficile de prédire les situations dans lesquelles cette règle
est la plus efficace. Pour la règle médiane, elle est plus
robuste que les précédentes mais ne prend pas en compte toutes
les informations de l'ensemble de classificateurs.
La règle de produit donne de bonnes performances si
les classificateurs sont indépendants. Cependant, cette règle est
sensible aux erreurs estimées par les classificateurs(dues à la
présence de bruit dans les données ou à l'utilisation de
base d'apprentissage de petite taille).
La règle linéaire n'est que la règle
somme multipliée par un facteur ë. Ainsi, pour ë = 1, on
obtient la règle somme et pour ë égale à l'inverse du
nombre des classificateurs, on obtient la moyenne simple. La somme fonctionne
bien dans le cas d'utilisation de caractéristiques différentes
par des classificateurs de même structure [150] ou de structures
différentes [180].
· La moyenne de Bayes: Les méthodes
bayésiennes sont utilisées pour fusionner des sorties de
classificateurs exprimées en probabilités à posteriori.
Parmi les méthodes de fusion les plus simples à appliquer, on
trouve la règle moyenne de Bayes. Si chaque classificateur propose une
probabilité à posteriori attribuée à une classe
donnée pour une forme à reconnaître, il est alors possible
de calculer la probabilité à posteriori moyenne de tous les
classificateurs et la décision finale est obtenue selon le
critère de Bayes.
La qualité de cette règle dépend de la
façon dont les probabilités à posteriori sont
estimées et donc du type des sorties des classificateurs à
combiner (distance, confiance,...).
4.5.3 Combinaison paramétrique
Par rapport aux méthodes précédentes, les
méthodes de combinaison paramétrique sont plus complexes à
mettre en oeuvre. Elles utilisent des paramètres supplémentaires
calculés pendant une phase d'apprentissage. La performance de ces
méthodes dépend alors de la bonne estimation des
paramètres donc de la base d'apprentissage. Dans la combinaison
paramétrique, deux cas d'utilisation de la base d'apprentissage sont
possibles:
1) Utiliser la même base pour entraîner les
classificateurs et la méthode de combinaison.
2) Utiliser deux parties, l'une pour les classificateurs,
l'autre pour la combinaison. La réutilisation de la même base
d'apprentissage au niveau de la combinaison (le premier cas) est à
éviter. Il est toujours préférable d'utiliser une
deuxième base de données.
4.5.3.1 Type classe
Les méthodes paramétriques de type classe ne
sont pas très nombreuses. Les méthodes les plus utilisées
sont principalement le vote pondéré, la théorie de Bayes,
la méthode de Dempster-Shafer et la méthode d'espace de
connaissance du comportement (Behaviour Knowledge Space ou BKS).
· Vote avec pondération: dans cette méthode,
la réponse de chaque classificateur est pondérée par un
coefficient indiquent son importance dans la combinaison. Pour
déterminer ces coefficients de pondération, ils
excitent plusieurs façons, citons: Optimisés par algorithme
génétique [192], calculés à partir de la
fiabilité estimée de chacun des classificateurs [2]. Pour plus
d'informations le lecteur pourra se référer à [12] pour le
cas des réseaux de neurones.
· Théorie de Bayes: elle consiste à
déterminer la classe pour laquelle la probabilitéà
posteriori est maximale. Cette dernière est déterminée en
supposant que les clas-
sificateurs sont indépendants et en se basant sur la
matrice de confusion obtenue pour les classificateur sur une base
d'apprentissage. Pour plus de détails le lecteur pourra se
référer à [93].
· Dempster-Shafer: Dans le cas où les
classificateurs accordent un certain crédit à plusieurs classes,
l'utilisation de la règle de Bayes peut être inadaptée
à la combinaison de ces classificateurs. En effet, la règle de
Bayes nécessite l'utilisation de probabilités dont la somme est
toujours égale à 1 ce qui n'est pas nécessaire dans la
théorie de Dempster et Shafer, appelée aussi théorie de
l'évidence et des croyances [327]. Par rapport aux approches
statistiques, cette méthode présente l'avantage d'inclure une
modélisation à la fois de l'incertitude et de
l'imprécision dans les systèmes à plusieurs
classificateurs. Par exemple, lorsque la décision d'un classificateur
est ambigue, la théorie prend en compte cela en affectant des masses
à la réunion de plusieurs classes. La théorie de Bayes se
retrouve comme un cas particulier de la théorie de l'évidence.
Cependant, elle se base sur l'hypothèse d'indépendance des
sources à combiner. Pour plus de détails sur cette méthode
utilisée avec les réseaux de neurones, on pourra se
référer à [203, 83, 18, 104].
· Espace de connaissance du comportement: la
méthode d'espace de connaissance du comportement (BKS) utilise un espace
de connaissance contenant les décisions de tous les classificateurs. Cet
espace permet de connaître le comportement des classificateurs
d'où son nom espace de connaissance du comportement. La méthode
BKS permet alors de tenir compte des informations de cet espace en les
intégrant directement dans la règle de décision afin
d'obtenir la solution finale. L'hypothèse d'indépendance de
classificateurs n'est pas nécessaire. Pour plus de détails, le
lecteur pourra se référer à [153].
4.5.3.2 Type rang
Dans le cas non paramétrique, les méthodes de type
rang ne tiennent pas compte de la différence dans la performance des
classificateurs (tous les classificateurs participent
de manière égale dans la prise de décision).
Or, il est important d'intégrer le degréde
crédibilité des classificateurs dans la combinaison surtout quand
on sait qu'un des classificateurs est plus performant que les autres. Les
méthodes de type rang les plus citées dans ce cas sont la
somme pondérée , la régression logistique, l'intersection
et l'union. Pour plus de détails, le lecteur pourra se
référer à [149, 311].
4.5.3.3 Type mesure
D'autres méthodes paramétriques qui ont
bénéficié de l'essor des travaux sur la classification
dans plusieurs domaines sont utilisées pour combiner les classificateurs
de type mesure tels que les règles pondérées qui
consistent tout simplement à appliquer des pondérations aux
sorties des classificateurs [179], les méthodes floues qui consiste
à retenir la classe ayant la mesure floue la plus élevée
[317] et les réseaux de neurones [122].
4.5.4 Comparaison des méthodes de combinaison
Les diverses méthodes de combinaison que nous avons
passées en revue montrent la diversité des approches offertes au
concepteur de systèmes de reconnaissance à plusieurs
classificateurs. Ces méthodes se distinguent essentiellement par le
niveau d'information en sortie qu'apporte chacun des classificateurs. Au niveau
classe, la sortie de chaque classificateur est une étiquette. Au niveau
rang, chaque classificateur fournit en sortie une liste ordonnée de
solutions. Au niveau mesure, les classificateurs proposent en plus des mesures
reflétant la confiance qu'ils ont dans les classes. La combinaison est
alors différente si on dispose d'un classificateur produisant des
mesures (riche en information), ou seulement des classificateurs donnant des
classes (pauvre en information). La combinaison des sorties de type classe a
reçu de la part des chercheurs une attention plus grande que la
combinaison des sorties de type mesure car elles sont très simples
à appliquer et à analyser expérimentalement et même
théoriquement. Même si les méthodes de type mesure sem-
blent à priori plus séduisantes (quand on peut
les utiliser) puisqu'elles exploitent toute l'information fournie par les
classificateurs, cela ne veut pas dire qu'elles sont toujours plus
intéressantes que les méthodes de type rang. Cette idée a
été clarifier par Parker [240] qui a montré que les
méthodes de type rang peuvent être plus performantes que les
méthodes de type classe et mesure.
Il faut noter également que le problème du choix
entre les méthodes paramétriques et non paramétriques est
toujours posé. La combinaison paramétrique est plus
intéressante que la combinaison non paramétrique surtout lorsque
la base d'apprentissage est à la fois informative et
représentative ce qui n'est pas toujours le cas. Pourtant, ce sont les
méthodes de combinaison non paramétriques qui sont les plus
utilisées par les chercheurs. Cela est du au fait que ces
méthodes sont simples à mettre en oeuvre et n'utilisent pas de
traitements supplémentaires (apprentissage).
4.5.5 Création des systèmes de classification
Pour avoir plusieurs systèmes de classification qu'on peut
combiner pour un problème donné, il y a plusieurs façons
de faire:
1. Cas mult i-sources: Si le problème a plusieurs
sources de données (utilisation de plusieurs capteurs par exemple), on
peut spécifier chaque source au même classificateur;
2. Cas multi-représentations: Selon le cas
étudiée, les données pourraient avoir des
représentations différentes où chacune permet d'extraire
des informations plus spécifiques que l'autre (représentation
dans des espaces différents), alors on peut spécifier chaque
représentation au même classificateur;
3. Cas mono-stratégie: Pour la même méthode
de classification, on peut changer certains paramètres pour
générer plusieurs occurrences du même classificateur. Par
exemple, pour un réseau MLP, on peut changer l'algorithme
d'apprentissage, l'architecture, la fonction coût, les fonctions
d'activations, etc;
4. Cas multi-stratégies: On peut associer plusieurs
occurrences de plusieurs classificateurs de natures différentes. Par
exemple, des classificateurs statistiques et neuronaux.
4.6 Conclusion
Dans ce chapitre, nous avons présenté avec
certaines limitations l'état de l'art des méthodes de
classification. Dans ce sens, nous avons défini ce qu'est un
classificateur et les paramètres qui le caractérisent. Nous avons
ensuite présenté-avec quelques détails- les
classificateurs paramétriques, non paramétriques et neuronaux.
Pour ces derniers, après un bref historique, nous avons
présenté le perceptron multicouches avec la fameuse
méthode d'apprentissage rétro-propagation du gradient et les
algorithmes dérivées. Et tenant compte de l'importance de la
généralisation pour les réseaux de neurones, nous avons
cité trois méthodes, à savoir: la validation
croisée, la régularisation et le bruitage. Enfin, tenant compte
de l'amélioration des performances de classification en combinant
plusieurs méthodes, nous avons présenté les trois
approches de combinaison: séquentielle, parallèle et hybride.
Le prochain chapitre sera consacré à la
discrimination des signaux sismiques en se basant sur certains
éléments présentés dans ce chapitre et les
résultats des chapitres précédents.
CHAPITRE 5
DISCRIMINATION DES SIGNAUX SISMIQUES
Le nombre de travaux concernant la discrimination des signaux
sismiques par les réseaux de neurones est très limité en
comparison avec ceux utilisant les méthodes classiques basées sur
les ratios et l'analyse des phases. De plus, ils ne traitent ce sujet que d'une
façon très restrictive sans prendre en considération les
caractéristiques propres des signaux sismiques et sans profiter de la
redondance fournie par les stations du réseau sismique. En effet, d'une
part, toutes ces études traitent des signaux qui ont la même
longueur en faisant un découpage du signal acquis et, d'autre part, la
classification est fait au niveau de la station sans prendre en compte ni les
autres éléments du réseau ni les autres paramètres
liés à l'événement (par exemple l'épicentre
et le foyer).
L'objet de ce chapitre est de présenter un
système intégré de discrimination des signaux sismiques.
Dans ce sens, trois méthodes de discrimination des signaux ont
étéproposés: discrimination locale,
régionale et globale en se basant sur le classificateur
perceptron multicouches (MLP: Multilayer Perceptron) dont les
paramètres font l'objet d'une étude très
détaillée.
Nous notons que les méthodes proposées dans ce
chapitre reposent seulement sur les signaux fournis par les composantes
verticales des sismomètres. Pour le cas où ces derniers ont trois
composantes, les deux autres ne sont pas prises en compte.
5.1 Discrimination sismique locale
La discrimination sismique locale consiste à faire une
classification d'un signal sismique au niveau de chaque station
indépendamment des autres stations du réseau sismique.
5.1.1 Méthode proposée
Les réseaux sismiques de la troisième
génération reposent généralement sur le traitement
des données au niveau de chaque station avant d'être
traitées au niveau de la station centrale. Dans ce sens, avec les
progrès réalisés au niveau de la rapidité des
traitements informatiques, on peut concevoir des réseaux sismiques de la
troisième génération d'une façon virtuelle en
utilisant le même matériel informatique pour toutes les stations.
Le traitement de l'information pour chaque station se fera
séquentiellement. Le schéma global de la discrimination sismique
locale est donnée par la figure (5.1).
Figure 5.1: Schéma global de la discrimination sismique
locale
La discrimination sismique locale est étroitement
liée aux paramètres de la station. C'est-à-dire que pour
chaque station, les paramètres du classificateur doivent être
choisis en correspondance avec la forme des données acquises. Ainsi,
pour un classificateur de type MLP, la majorité des données
d'apprentissages correspondant aux événements locaux doivent
être sélectionner de l'archive de la station afin d'avoir de
bonnes similarités entre les signaux de la même classe. Pour les
autres types d'événements, on peut les sélectionner
à partir des archives des autres stations du réseau sinon d'une
base de données internationale tout en tenant compte des
caractéristiques du sismomètre de la station.
Dans ce mode de discrimination, pour prendre la
décision, le classificateur ne tient compte que des
caractéristiques propres du signal acquis. Donc, afin d'avoir de bonnes
performances du classificateur, deux points cruciaux doivent être
remplis: le premier est le choix de la base de donnée d'apprentissage
qui doit décrire au maximum les différentes classes. Le
deuxième point est le choix des caractéristiques du signal
sismique qui vont
servir à la classification. Ceci est lié
à la représentation du signal et à la méthode de
réduction de la dimensionnalité et d'extraction de ces
caractéristiques. Tenant compte, d'une part, qu'on dispose aujourd'hui
d'une multitude de méthodes de représentation, de
réduction de la dimensionnalité, d'extraction de
caractéristiques et de classification et, d'autre part, il n'existe pas
un seul modèle pour tous les problèmes de classification non plus
une seule technique applicable pour tous les problèmes, nous proposons
alors un système de classification modulaire mono-source
multi-(représentationnelle, stratégies, experts) décrit
par la figure (5.2).
Pour le choix et le réglage des différents
paramètres de la classification, le logiciel MSSSA [33] fournit une
certaine flexibilité et une simplicité pour aboutir cette
tâche pour toute station sismique selon l'algorithme (5.1).
Etape 0: Choix des bases d'apprentissage et de test, des
représentations bidimensionnelles, des algorithmes de réduction
de la dimensionnalité, des classificateurs, des ensembles et des
experts;
Etape 1: Faire correspondre à chaque classificateur un
ensemble de représentations, de données et d'experts;
Etape 2: Faire l'apprentissage du système;
Etape 3: Faire les tests;
Etape 4: Refaire les étapes 1, 2 et 3 jusqu'à
l'obtention des performances désirées; Etape 5: Combiner les
résultats par un expert pour avoir la décision finale.
Figure 5.2: Schéma de la discrimination sismique locale
multi- (représentationnelle, stratégies, experts)
119
(a) (b)
(c)
-1000
-1500
-2000
-2500
-500
2000
1500
1000
500
0
20 40 60 80 100 120
ES0786-DAL -2005-05-12 09:14:17
Time [sec]
-1000
-1500
-2000
-500
1500
1000
500
0
0 20 40 60 80 100 120
ES0429-JBB -2005-05-06 02:47:39
Time [sec]
-100
-150
-200
200
-50
150
100
50
0
0 20 40 60 80 100 120
ES0928-CZDV-2005-05-31 16:11:38
Time [sec]
Figure 5.3: Signaux sismiques d'une qualité bonne (a),
moyenne (b) et mauvaise (c)
5.1.2 Application au réseau sismique Marocain
5.1.2.1 Choix de la base de données
Le choix de la base de données constitue un
paramètre crucial pour avoir une bonne généralisation des
classificateurs neuronaux. Dans ce sens, nous avons choisi un nombre suffisant
de signaux correspondant à des explosions chimiques, des séismes
locaux et des des séisme lointains . La fréquence
d'échantillonnage est de 50 Hz et les magnitudes sont entre 2 et 5 sur
l'échelle de Richter pour les séismes locaux. Ces signaux sont
sélectionnés à partir de la base de données de
l'Institut National de Géophysique et sont acquis par le système
DataSeis II de Kinemetrics dont une description est donnée dans [33].
Pour les visualiser, les convertir et les enregistrer au format adopté
par MSSSA , nous avons utilisé Kinemetrics Data Reader conçu dans
le cadre du MSSSA [33]. Les signaux sont classés par voie visuelle selon
le bruit de fond en trois catégories: Bon, Moyen et Mauvais (figure
(5.3)).
5.1.2.2 Choix des paramètres de classification
Dans cette section nous essayons de montrer, d'une part,
l'influence de paramètres d'un réseau MLP sur les
résultats de classification des signaux sismiques issus d'une station
donnée et, d'autre part, de donner les différentes façons
de régler ces paramètres pour avoir de bonnes performances.
A. Influence de la base d'apprentissage:
Comme il est déjà noté auparavant, le
choix de la base d'apprentissage constitue un paramètre crucial dans
l'amélioration ou la détérioration des performances d'un
classificateur. Dans ce sens, nous considérons un classificateur MLP
d'architecture 36-30-2 avec un algorithme d'apprentissage de type Rprop (Rank
propagation), un taux d'apprentissage 0.001, la sigmoide pour les fonctions
d'activation, la représentation de données par le spectrogramme
et pour la reduction de la dimensionnalité, l'algorithme (3.2) a
été utilisé avec 6 composantes pour chaque dimension (Voir
chapitre réduction de la dimensionnalité). Nous obtenons en
moyenne pour 100 tests le tableau (5.1) et le graphique (5.4).
Tableau 5.1: Influence de la base d'apprentissage
Cas
|
Explosions chimiques
|
|
Séismes locaux
|
Erreur
|
Apprentissage
|
|
Test
|
Apprentissage
|
|
Test
|
1
|
|
0
|
|
0
|
30
|
(100%)
|
20
|
(100%)
|
0 %
|
2
|
|
0
|
20
|
(100%)
|
30
|
(100%)
|
|
0
|
100 %
|
3
|
10
|
(25%)
|
20
|
(100%)
|
30
|
(75%)
|
|
0
|
23.1 %
|
4
|
30
|
(50%)
|
20
|
(100%)
|
30
|
(50%)
|
|
0
|
10.30 %
|
Les résultats du premier et du deuxième cas
reflètent le fait que le réseau MLP ne peut reconnaître que
les classes pour lesquelles il est entraîné. En effet, la classe
non apprise est considérée comme un nouveauté pour le
réseau MLP. Dans ce cas, généralement, la procédure
de discrimination n'est plus adéquate et il faut adopter une
procédure de reconnaissance [164, 161].
121
100
80
60
40
20
0
1
2
3
Cas
4
Explosions: Apprentissage Explosions: Test
Séismes: Aprentissage Séismes: Test
Erreur
Figure 5.4: Influence de la base d'apprentissage
La comparaison entre les résultats du troisième
cas et du quatrième cas montre l'influence de l'imbalance de classes qui
cause une perte d'exactitude des résultats de la classification. En
effet, le nombre d'exemples pour les séismes locaux dans le
troisième cas couvre bien cette classe, alors que ce n'est pas le cas
pour les explosions chimiques. Ce problème connu par certains auteurs
sous «malédiction des imbalances de classes» [189] a
été l'objet de plusieurs conférences [58, 59] et travaux
[165, 99, 202, 339]. Pour le cas sismique, il a été
étudié par Eavis et Japkowicz [97] pour les signaux de types
explosions nucléaires et séismes. Cependant, les performances de
la méthode proposée restent limitées (Erreur par
validation croisée = 16.1 %) malgré le choix et le
dépouillement manuel des signaux.
Le choix de la base d'apprentissage doit se faire
minutieusement par un sismologue, seul ayant l'aptitude de savoir quels signaux
sont capables de bien couvrir les différentes types
d'événements pour une station donnée.
B. Influence de la représentation et de la
réduction de la dimensionnalité:
La représentation des données est le
deuxième point principal dans notre système modulaire de
classification. Cette étape permet de passer d'un espace moins
discriminant à un espace plus discriminant. Dans le chapitre
représentation des signaux sismiques, nous
avons discuté les différentes
représentations possibles, tout en montrant que les
représentations bidimensionnelles quadratiques sont plus
adéquates aux signaux sismiques. La question qui se pose, est dans
quelle mesure la représentation influence-t-elle la classification?
La réduction de la dimensionnalité est aussi une
étape nécessaire pour vaincre la malédiction de la
dimensionnalité. Dans le chapitre 3, nous avons présenté
trois algorithmes basés sur la projection aléatoire et l'analyse
en composantes principales. Mais malgré les bases théoriques de
ces algorithmes, ils ne sont pas nécessairement adéquats pour
toutes les représentations à cause de la différence de la
répartition de l'énergie pour chacune d'elles. La question qui se
pose à ce niveau quel algorithme pour quelle représentation?
Pour répondre à ces deux questions, nous
considérons une base d'apprentissage formée de 80 signaux
sismiques dont 50% des explosions chimiques et 50% des séismes locaux.
Pour chaque type, les éléments d'apprentissage sont
constitués de 3/4 de signaux de bonne qualité et le 1/4 restant
est formé de signaux de moyenne qualité. Quant aux tests, nous
les avons effectué sur deux bases: la première est formée
de 20 signaux (moitié-moitié) dont 1/2 de signaux de bonne
qualité et 1/2 de signaux de mauvaise qualité et la
deuxième suit la même répartition mais avec des signaux de
bonnes qualité. Pour la représentation, nous avons
considéré six représentations quadratiques : SPEC, WV,
SPWV, SCAL de Ben, SCAL du chapeau Mexicain et le SCAL de Morlet. Pour la
réduction de la dimensionnalité, nous considérons les
trois algorithmes présentés au chapitre 3 où la projection
aléatoire permet de passer à des matrices de tailles 128 ×
512, puis on sélectionne 36 composantes principales pour l'algorithme
(3.1) en utilisant la moyenne comme descripteur atemporel, 6 composantes pour
chaque dimension pour l'algorithme (3.2) et pour le troisième algorithme
(3.3) 36 composantes choisies à partir de 1024 blocs de 4 × 16
pixels. Ainsi, pour un classificateur MLP d'architecture 36-30-2 avec un
algorithme d'apprentissage de type Rprop, un taux d'apprentissage 0.001, terme
de moment 0.95, la sigmoide pour les fonctions d'activation, une erreur
quadratique, un objectif de l'erreur d'apprentissage de 10-3 et une
valeur minimale du gradient pour l'arrêt de l'apprentissage
10-12, nous obtenons pour une moyenne de 100 tests les
résultats
123
figurant au tableau (5.2) et représentés par le
graphique (5.5) qui montrent la variation de l'erreur de classification des
signaux sismiques relatifs à la base de test 1 (B. test1) el la base de
test 2 (B.test 2) .
Tableau 5.2: Influence de la représentation et de la
réduction de la dimensionnalité
Représentation
|
Algorithme 3.1
|
Algorithme 3.2
|
Algorithme 3.3
|
B. test 1
|
B. test 2
|
B. test 1
|
B. test 2
|
B. test 1
|
B. test 2
|
SPEC
|
12.75 %
|
10.55 %
|
11.05 %
|
6.9 %
|
37 %
|
10.5 %
|
WV
|
15.75 %
|
15.65 %
|
13.95 %
|
5.15 %
|
21.5 %
|
5 %
|
SPWV
|
18.6 %
|
9.4 %
|
12.6 %
|
7.3 %
|
22.95 %
|
8 %
|
SCAL Ben
|
26.5 %
|
25.05 %
|
16.9 %
|
13.2 %
|
20.05 %
|
17 %
|
SCAL Morl
|
26.2 %
|
19.25 %
|
25.7 %
|
14.4 %
|
21.5 %
|
9.5 %
|
SCAL Mexh
|
27.25 %
|
16.6 %
|
25.5 %
|
10.09 %
|
28.5 %
|
11 %
|
40
35
30
25
20
15
10
5
0
SPEC WV SPWV SCAL
Ben
SCAL Morl
Algorithme 3.1 : Base de test 1 Algorithme 3.1 : Base de test
2 Algorithme 3.2 : Base de test 1 Algorithme 3.2 : Base de test 2 Algorithme
3.3 : Base de test 1 Algorithme 3.3 : Base de test 2
SCAL Mexh
Figure 5.5: Influence de la représentation et de la
réduction de la dimensionnalité
Nous avons aussi testé le classificateur sur les
données d'apprentissage et nous avons obtenu 0 % d'erreur pour 10 tests,
où le but de la fonction objective a été atteint au cours
de l'apprentissage.
A la première vue, ces résultats nous montrent
que les résultats concernant la base de test 2 sont meilleurs que ceux
de la base de test 1, à l'exception du cas des représentations WV
et SCAL de Ben avec l'algorithme (3.1) qui est minime. Ceci est logique,
puisque la base de test 1 contient des signaux de mauvaise qualité
où il y a trop de bruit de fond alors que la base de test 2 ne contient
que de signaux de bonne qualité. L'algorithme (3.2) présente des
résultats remarquables pour toutes représentations sauf pour le
SCAL de morlet où l'algorithme (3.3) se comporte bien. L'algorithme
(3.3) présente des meilleurs résultats, pour la base de test 2,
qui sont proches de ceux obtenus par l'algorithme (3.2), sauf pour le cas du
SCAL de Ben. Les résultats fournis en utilisant l'algorithme (3.1)
restent généralement modestes en comparaison avec les deux autres
à cause de sa grande sensibilité aux bruits de fond. En
conclusion, l'algorithme (3.2) reste le meilleur grâce au calcul
bidimensionnel des composantes principales sans aucun altération des
caractéristiques du signal fournies par la projection aléatoire
de la représentation quadratique du signal.
En ce qui concerne les représentations, nous constatons
que les représentations temps-fréquence donnent de meilleurs
résultats que les représentations temps-échelle au niveau
classification bien sure. Ceci est dû principalement au fait que les
représentations temps-échelle fournissent une image très
fidèle de toutes les changements qui se passent au cours du temps pour
un signal sismique donné. Ce qui implique l'apparition de certains
points énergétiques qui font des différences, mêmes
pour des signaux du même type, s'ils atteignent certains seuils. Pour les
représentations temps-échelle avec l'algorithme (3.2), le SCAL de
l'ondelette de Ben donne les meilleurs résultats, si nous
considérons la moyenne des résultats des deux bases de test, en
comparaison avec l'ondelette de Morlet et le chapeau Mexicain. Ce qui confirme
les remarques faites au chapitre 2. Pour les représentations
temps-fréquence avec l'algorithme (3.2), c'est le SPEC qui fournit le
bon résultat en moyenne 8.975%. Le résultat de la WV se trouve au
milieu avec une erreur moyenne de 9.55%. Ceci est dû au fait que la WV
présente des interférences qui diminuent l'influence des faibles
bruits mais permet aussi une concentration excellente des motifs qui
reflète avec précision les forts bruits, chose qui se voit
clairement en faisant la comparaison avec le SPEC et le SPWV qui ne sont qu'une
version lissée de la WV.
Ces résultats expérimentaux confirment qu'il n'y
a ni de représentation, ni une méthode de réduction de la
dimensionnalité, pour lesquelles nous pouvons confirmer ses performances
pour un problème donné avant de faire les tests. Toutefois, ce
choix reste lier aux signaux traités et aux autres paramètres de
classification.
C. Influence des fonctions d'activation:
Les fonctions d'activation restent des possibilités
cachées pour l'amélioration d'un classificateur MLP comme le dit
Duch et Jankowski [92]. En effet la forme de ces fonctions influence, d'une
part l'apprentissage, comme le montre l'equation (II.14) de l'annexe II et,
d'autre part, elle influence les valeurs de sorties. Par exemple, en
considérant des fonctions linéaires dans un réseau ne
permet de modéliser que des problèmes linéaires. Et
même, certaines propriétés des réseaux MLP ne sont
remplies que lors de l'utilisation de formes spécifiques des fonctions
d'activation (approximation universelle et réseaux RBF par exemple).
Pour la discrimination sismique, certes c'est un
problème non linéaire nécessitant un réseau MLP non
linéaire permettant de délimiter les classes. Dans ce sens, nous
faisons un ensemble de tests en prenant des combinaisons formées de la
fonction sigmoide (Sig), la tangente hyperbolique (Tanh) et la Gaussienne
(Gau). Nous considérons les conditions des tests du paragraphe
précèdent, sauf que nous utilisons l'algorithme (3.2) et la
moyenne de l'erreur pour 10 tests. Les résultats obtenus sont
données par le tableau (5.3).
Ces résultats nous montrent que pour chaque
représentation, certaines combinaisons se comportent bien que les
autres. Ainsi par exemple pour le SPEC, toutes les combinaisons donnent une
moyenne d'erreur pour les deux bases de test entre 9% et 11% sauf pour la
combinaison Tanh-Sig. La même chose pour la WV sauf pour Tanh-Tanh et
Tanh-Gau. Pour d'autres représentation, nous constatons qu'il y a des
combinaison qui améliorent largement les résultats telles que
Tanh-Gau et Tanh-Tanh pour le SCAL , Sig- Sig pour le SPWV et Sig-Gau pour le
SCAL de Mexh. Pour d'autres représentations, la variation de l'erreur
moyenne n'est pas significative pour toutes les combinaisons, c'est le cas du
SCAL de Morlet.
Tableau 5.3: Influence des fonctions d'activation(Eléments
en gras correspond à la base de test 1 et les autres à la base de
test 2)
|
SPEC
|
WV
|
SPWV
|
SCAL Ben
|
SCAL Morl
|
SCAL Mexh
|
Sig-Sig
|
12 %
|
14.5%
|
12.5%
|
16.5%
|
26.5%
|
27%
|
Sig-Sig
|
6.5%
|
4%
|
6.5%
|
12%
|
14.5%
|
11.5%
|
Tanh-Tanh
|
12.5%
|
16.5%
|
21%
|
13%
|
24%
|
26.5%
|
Tanh-Tanh
|
6%
|
9.5%
|
6.5%
|
6.5%
|
12%
|
17.5%
|
Tanh-Sig
|
19%
|
17%
|
19%
|
29%
|
27%
|
26%
|
Tanh-Sig
|
9.5%
|
5.5%
|
6%
|
10.5%
|
10%
|
20%
|
Gau-Gau
|
15.5%
|
14%
|
17%
|
16%
|
25%
|
25.5%
|
Gau-Gau
|
5.5%
|
9%
|
6.5%
|
6%
|
13%
|
17%
|
Gau-Sig
|
11.5%
|
14.5%
|
17%
|
17%
|
22%
|
26%
|
Gau-Sig
|
6.5%
|
6.5%
|
5.5%
|
9.5%
|
15 %
|
13.5%
|
Gau-Tanh
|
14.5%
|
13.5%
|
20%
|
14%
|
26.5%
|
23.5%
|
Gau-Tanh
|
4%
|
10%
|
6%
|
7%
|
12%
|
17.5%
|
Sig-Gau
|
12.5%
|
11.5%
|
16.5%
|
14.5%
|
24.5%
|
23%
|
Sig-Gau
|
8%
|
5.5%
|
8%
|
7%
|
12.5%
|
12.5%
|
Tanh-Gau
|
14%
|
17.5%
|
19.5%
|
12%
|
25.5%
|
22%
|
Tanh-Gau
|
8%
|
8%
|
7.5%
|
7%
|
11%
|
19%
|
En conclusion, le bon choix des fonctions d'activation pour un
réseau MLP, doit être basé sur des tests
expérimentaux liés aux données traitées et non sur
les suggestions faites dans d'autres études. En effet, même si
certaines fonctions sont du même type (Tanh et Sig par exemple), elles ne
fournissent pas nécessairement les mêmes résultats.
D. Influence de la phase d'apprentissage:
La phase d'apprentissage a une grande influence sur les
résultats de la classification. En effet, ces résultats sont en
étroite relation avec le choix des paramètres d'apprentissage et
de son déroulement. Les exemples ci-dessous essayent de donner certains
de ces aspects.
· Choix de l'algorithme d'apprentissage: Dans le
chapitre précédent, nous avons discuté les
différentes façons permettant d'améliorer l'algorithme de
la rétro-propagation du gradient. Mais, est ce que toutes ces
améliorations sont adéquates pour notre problème de
classification des signaux sismiques? Pour répondre à cette
question, nous avons testé les algorithmes suivants: descente du
gradient avec moment (GDM : Gradient Descent with Moment), descente du gradient
avec taux
Tableau 5.4: Influence du choix de l'algorithme d'apprentissage
en mode hors ligne
Algorithme
|
Perf. atteinte
|
N. itérations
|
Temps [sec]
|
Cause d'arrêt
|
GDM
|
0.2497
|
50000
|
1023
|
N maxi d'itérations
|
GDA
|
0.0997
|
50000
|
630
|
N maxi d'itérations
|
SCG
|
0.0750
|
50000
|
840
|
N maxi d'itérations
|
CGF
|
0.1389
|
1378
|
34.37
|
V mini du gradient
|
CGP
|
0.1038
|
1293
|
32.74
|
V mini du gradient
|
CGB
|
0.1363
|
287
|
10.85
|
V mini du gradient
|
Rprop
|
0.0250
|
141
|
4.672
|
V objectve
|
d'apprentissage variable et terme moment (GDA: Gradient
Descent with Variable Learning Rate and Moment), le gradient conjugué
régularisé (SCG : Scaled Conjugate Gradient), gradient
conjugué de Fletcher-Powell (CGF: Conjugate Gradient of
Fletcher-Powell), gradient conjugué de Polak-Ribiére (CGP:
Conjugate Gradient of Polak-Ribiére), gradient conjugué de
Powell-Beale (CGB: Conjugate Gradient of Powell-Beale) et Rprop (Rank
propagation). Les tests pour le même réseau défini
auparavant avec une valeur objective de 0.025 et un nombre maximum
d'itérations de 50000 permet de donner les résultats du tableau
(5.4) pour une moyenne de 10 tests avec la représentation SPEC et
l'algorithme (3.2).
Ces résultats, nous montrent que les trois premiers
algorithmes consomment beaucoup de temps avant d'atteindre la valeur objective.
Pour les trois autres versions du gradient conjugué, nous remarquons qu'
un arrêt d'appren-tissage se produit alors qu'on est trop loin de la
valeur objective. L'algorithme Rprop apparaît comme le meilleur
algorithme pour notre cas où l'on a utilisé des
représentations temps- fréquence et l'algorithme (3.2). Nous
avons aussi testé l'algorithme BFGS mais on atteint, au cours de
l'apprentissage, des valeurs dépassant la précision
computationnelle permise.
Le changement du mode d'apprentissage du mode hors ligne au
mode en ligne n'a pas apporté de changements significatifs comme il est
montré au tableau (5.5). Cependant, il confirme l'utilité de
l'algorithme Rprop pour notre cas.
Tableau 5.5: Influence du choix de l'algorithme d'apprentissage
en mode en ligne
Algorithme
|
Perf. atteinte
|
N. itérations
|
Temps [sec]
|
Cause d'arrêt
|
GDM
|
0.2495
|
50000
|
967
|
N maxi d'itérations
|
GDA
|
0.0994
|
50000
|
1019
|
N maxi d'itérations
|
SCG
|
0.0750
|
10398
|
840
|
V mini du gradient
|
CGF
|
0.1175
|
1573
|
27.8
|
V mini du gradient
|
CGP
|
0.1040
|
1227
|
33.42
|
V mini du gradient
|
CGB
|
0.0831
|
369
|
17.18
|
V mini du gradient
|
Rprop
|
0.0250
|
133
|
5.75
|
V objectve
|
résultats pour les données d'apprentissage, tout
en espérant que la même chose se passera pour des données
différentes. Cependant, parfois un arrêt de l'apprentissage se
produira non parce que la valeur objective a été atteinte mais
parce que le nombre d'itérations maximales ou la valeur minimale du
gradient a été atteint.
Nous prenons le même cas étudié pour
l'influence des représentations. Ainsi, pour le cas d'une
représentation par le SPEC avec une valeur de la fonction objective de
0.025 et un nombre d'itérations maximale de 1000, nous faisons
l'apprentissage par deux algorithmes: Rprop et le gradient conjugué
régularisé pour lesquels, nous obtenons les courbes
d'évolution des performances de la figure (5.6), et pour lesquels nous
constatons que Rprop permet d'atteindre la valeur objective avec une erreur
de
classification de 5% alors que ce n'est pas le cas pour le
gradient conjugué régulariséqui donne 10%. Même
lorsque l'algorithme converge ou s'approche de la valeur
objective, on ne sait pas si cette valeur objective est
adéquate pour les données traitées en tenant compte des
bruits de fonds dont la forme est chaotique pour le cas sismique. Dans ce sens,
afin de montrer l'influence de la valeur objective sur les résultats de
la classification et sa dépendance avec la base de test, nous avons
effectué deux experimentations en considérant la
représentation par SPEC et la représentation par le SCAL de Ben
avec une réduction de la dimensionnalité via
l'algorithme (3.2). Ainsi, en faisant changer la valeur
objective de 0.0005 (0.05%) à0.15 (15%) avec un pas de 0.0005
et en calculant l'erreur moyenne du réseau pour
10 test, nous avons obtenu les courbes des figures (5.7) et (5.8)
pour les deux bases de test 1 et 2 respectivement.
129
(a) (b)
Figure 5.6: Evolution de l'erreur pour l'algorithme Rprop (a)
et SCG (b)
(a) (b)
0.12
0.11
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
0.1
Test base 2 - SPEC
Goal Value
0.28
0.26
0.24
0.22
0.18
0.16
0.14
0.12
0.08
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
0.2
0.1
Test base 1 - SPEC
Goal Value
Figure 5.7: Evolution de l'erreur en fonction de la valeur
objective pour le SPEC pour la base de test 1 (a) et la base de test 2 (b)
0.16
0.14
0.12
0.08
0.06
004
0.02
0.1
0
0 002 004 006 008 01 012 014 016
Test base 2 - SCAL Ben
Goal Value
Test base 1 - SCAL Ben
0 002 004 006 008 01 012 014 016
Goal Value
0.5
045
0.4
0.35
03
0.25
0.2
(a) (b)
Tableau 5.6: Pourcentage de l'énergie
représentée pour l'algorithme (3.2) selon la dimension 2 avec 6
composantes
SPEC
|
WV
|
SPWV
|
SCAL Ben
|
SCAL Morl
|
SCAL Mexh
|
79.3%
|
59.32%
|
83.62%
|
92.25%
|
93.58%
|
97.972%
|
lure pour les deux bases de test. Pour la base de test 1,
l'erreur de classification augmente avec la valeur objective, alors que pour la
base de test 2 l'erreur de classification atteint des valeurs minimales pours
des valeur de la fonction objective vers le voisinage de 0.1 pour le SPEC et
0.12 pour le SCAL de Ben. Donc, choisir une valeur objective minimale ne donne
pas toujours de bons résultats.
E. Influence de l'architecture du réseau:
Le choix de l'architecture du réseau MLP est un facteur
déterminant dans l'obtention de meilleurs résultats. Or, la non
existence d'une règle déterministe permettant de
déterminer cet architecture implique le recours à des
méthodes heuristiques. Ce paragraphe est consacré à la
détermination de l'architecture adéquate d'un réseau MLP
à deux couches destiné à la classification des signaux
sismiques.
Pour l'algorithme (3.2), nous constatons que le choix de six
composantes pour la dimension 1 permet de représenter plus que 99%
d'énergie de l'image d'origine pour toutes
les représentations. Alors que pour la dimension 2, ce
taux varie d'une représentation àune autre pour le
même nombre de composantes comme il est illustré dans le tableau
(5.6).
Afin de bien choisir le nombre de composantes principales de
la dimension 2 dans l'algorithme (3.2), nous avons procédé
à une analyse de la sensibilité pour mesurer l'influence de
chaque entrée sur les performances du réseau. Pour cela, nous
avons utilisé le même réseau du paragraphe (influence de la
représentation) avec l'algorithme (3.2) pour la réduction de la
dimensionnalité sauf que nous avons fait varier le nombre de composantes
de la dimension 2. Ainsi, nous avons obtenu les résultats du tableau
(5.7).
Tableau 5.7: Influence du nombre de composantes principales de la
dimension 2 (B 1 et B2 désignent respectivement la base de test 1 et
2
NComp
|
4
|
5
|
6
|
7
|
8
|
Repr
|
B1
|
B2
|
B1
|
B2
|
B1
|
B2
|
B1
|
B2
|
B1
|
B2
|
SPEC
|
14.95
|
5.05
|
8.55
|
7.55
|
11.05
|
6.9
|
7.6
|
9.25
|
16.65
|
22.725
|
WV
|
14.40
|
3.6
|
11.95
|
4.55
|
13.95
|
5.15
|
15.3
|
7.95
|
16.2
|
6
|
SPWV
|
13.6
|
7.35
|
10.6
|
5.8
|
12.6
|
7.3
|
14.2
|
10.82
|
19.35
|
17.9
|
Ben
|
16.4
|
8.45
|
22.55
|
9.85
|
16.9
|
13.2
|
21.05
|
13.75
|
24.85
|
18.8
|
Morl
|
23.55
|
5.3
|
25.45
|
17.3
|
25.7
|
14.55
|
23.8
|
16.25
|
25.5
|
22.05
|
Mexh
|
24.05
|
11.55
|
24.4
|
11.45
|
25.5
|
10.09
|
26.4
|
17.75
|
23.7
|
18.1
|
pour la dimension 2 dans l'algorithme (3.2) pour les trois
représentations temps-fréquence permet d'améliorer les
performances de la classification pour la base de test 1 et en moyenne pour les
deux classes et même pour la base de test 2 sauf pour le spectrogramme.
Pour le cas des représentations temps-échelle, en choisissant un
nombre de composantes égale à 4, nous constatons une
amélioration des performances pour les deux bases de test sauf pour la
base de test 2 avec la représentation du SCAL Mexh où il y a une
légère dégradation.
Les résultats ci-dessus, nous ont montré
l'influence du nombre d'entrées sur les performances de la
classification. Cependant, ces résultats restent aussi
dépendantes du nombre de couches cachées et de ses
éléments. La déterminations du nombre optimal est de
l'impossible dans le cas général sinon très difficile pour
le cas d'un MLP à 2 couches. Pour ce dernier cas, la figure (5.9) nous
montre la variation de l'erreur moyenne du classificateur pour 10 tests
utilisant le SPEC et la base de test 1 en fonction du nombre de composantes de
la dimension 2 et de nombre d'éléments de la couche
cachée. De cette figure, nous ne pouvons pas opter pour une combinaison
ou une autre mais elle peut nous indiquer la meilleur région à
faire ce choix.
En conclusion, si l'analyse de la sensibilité nous
permet de faire le choix du nombre d'entrées, il n'est pas le cas pour
le nombre de couches cachées et ses éléments. Il existe
certaines méthodes sous-optimales tels que «network growing»
et «network pruning» mais difficile à appliquer
généralement. Ce qui fait de la méthode essaie-erreur la
bonne solution pour le moment.
132
Classification error
0.4
0.35
50
0.3
0.25
100
0.2
150
0.15
0.1
200
0.05
0
N. Component . Dim2
2 4 6 8 10 12 14
Figure 5.9: Erreur de classification en fonction du nombre
d'éléments de la couche cachée et du nombre de composantes
pour la dimension 2 de l'algorithme (3.2)
F. Influence du dilemme erreur-rejet:
Dans les paragraphes précédents, nous avons
utilisé un classificateur MLP à deux classes sans tenir compte
des confusions qui pourraient survenir au cour de la classification. Pour
traiter ces confusions, nous avons analysé le comportement des valeurs
de sorties du réseau MLP générées lors d'une
classification, en les comparant avec des seuils de la forme (u + á
ó) tirés des signaux bien classifiés en 100 tests. Cette
analyse, nous a permis de conclure que pour la majorité des erreurs, les
valeurs des sorties sont dans le mêmes intervalles des valeurs de sorties
des signaux bien classifiés. ce qui rend l'ajout d'une classe rejet ou
de faire une analyse ROC (Receiver Operating Curve) [340] sans grande
importance. En revanche, le problème pourra être résolu par
une combinaison de classificateurs.
5.1.2.3 Application de la méthode proposée
Dans le paragraphe précédent, nous avons
discuté les différents paramètres influençant les
performances de la classification par un réseau MLP et pour lesquels
nous ne pouvons que faire un compromis pour améliorer les performances.
Afin de vaincre les faiblesses d'un seul classificateur MLP, nous pouvons
combiner plusieurs classificateurs
selon le schéma donné par la figure (5.2) dont un
modèle basé sur les réseaux MLP est l'objet de ce
paragraphe.
· Cas d'une discrimination à deux classes: Dans
ce cas, nous considérons les représentations: SPEC, WV, SPWV,
SCAL de BEN et SCAL de MORL. Pour les représentations
temps-fréquence, nous associons un réseau MLP d'une architecture
30-30-2 et pour les représentations temps-échelle, un
réseau MLP 24-30-2. Les deux réseaux sont entraînés
par la base d'apprentissage décrite ci-dessus avec l'algorithme
d'apprentissage Rprop, un taux d'apprentissage de 0.001, une valeur objective
de 0.001, un minimum de gradient de 10-12, 0.95 pour le moment, 1000
comme nombre maximum d'itérations et fonctions d'activation sigmoidales.
Les bases de tests utilisées sont celles décrites ci-dessus. Les
résultats fournis par les deux réseaux sont combinés par
un expert selon une règle de combinaison fixée au
préalable. Pour les pondérations, nous avons utilisé les
pourcentages des performances des classificateurs donnés par le tableau
(5.7). Le tableau (5.8), représenté par la figure (5.10), donne
les résultats moyens de 100 tests pour certaines combinaisons
décrites au chapitre précédent.
Les résultats du tableau (5.8), nous permettent de
conclure que la combinaison des classificateurs a amélioré d'une
façon générale les performances de la discrimination.
Cependant, pour le cas du vote à l'unanimité et avec seuil, il y
a un pourcentage de signaux rejetés et qui doivent être
classés manuellement ou par une autre combinaison. Nous notons aussi que
l'augmentation de la fiabilité du système de classification
implique automatiquement une augmentation du taux de rejet (cas du vote
à l'unanimité comparé avec le vote à seuil), c'est
le dilemme erreur/rejet [133]. La pondération des classificateurs n'a
pas apporté d'amélioration significatives puisque leur
performances sont proches.
· Cas d'une discrimination à trois classes: Dans
ce cas, nous considérons les représentations SPEC, WV, SPWV, SCAL
de BEN et SCAL de MORL. Pour les représentations temps-fréquence,
nous associons un réseau MLP d'une architecture 30-30-2 et pour les
représentations temps-échelle un réseau MLP 24-30-2. Les
deux
134
Tableau 5.8: Influence de la méthode combinaison pour une
discrimination à deux classes
45
Erreur Rejet
40
35
30
25
20
15
10
5
0
Majorité avec pondération
Produit avec pondération
Majorité Unanimité Seuil
à
80%
Somme Produit Somme
avec pondération
(a)
(c)
18
Erreur Rejet
16
14
12
10
8
6
4
2
0
Majorité avec pondération
Produit avec pondération
Majorité Unanimité Seuil
à
80%
Somme Produit Somme
avec pondération
Méthode de combinaison
|
Base de test 1
|
Base de test 2
|
Erreur
|
Rejet
|
Erreur
|
Rejet
|
Majorité
|
6.85 %
|
0 %
|
4.75 %
|
0%
|
Unanimité
|
0.05 %
|
40.7 %
|
0.1 %
|
17.65 %
|
Seuil à 80 %
|
0.85 %
|
24.85 %
|
2.95 %
|
3.9 %
|
Majorité avec pondération
|
6.85 %
|
0 %
|
4.75 %
|
0%
|
Somme
|
7.05 %
|
0 %
|
4.8 %
|
0%
|
Produit
|
7.4 %
|
0 %
|
4.75 %
|
0%
|
Somme avec pondération
|
6.8 %
|
0 %
|
4.8 %
|
0%
|
Produit avec pondération
|
7.4 %
|
0 %
|
4.75 %
|
0%
|
réseaux sont entraînés par la base
d'apprentissage décrite ci-dessus augmentée de 20 signaux
relatifs à des séismes lointains dont les 2/3 de bonne
qualité et le 1/3 d'une qualité moyenne. L'algorithme
d'apprentissage utilisé est le Rprop avec les mêmes
paramètres considérés dans le cas de la discrimination
à deux classes. Les bases
de tests utilisées sont celles décrites ci-dessus
augmentées de 10 signaux relatifs àdes séismes
lointains dont le 1/2 de bonne qualité et le 1/2 de mauvaise
qualité.
Les résultats fournis par les deux réseaux sont
combinés par un expert selon une règle de combinaison
fixée au préalable. Le tableau (5.9), représenté
par la figure (5.11), donne les résultats moyens de 100 tests pour
certaines combinaisons décrites au chapitre précédent.
Les résultats du tableau (5.9), confirment les
mêmes remarques du cas précédent. Sauf pour le cas du
produit pour la base de test 1 où il y a une dégradation
remarquable des performances à cause de l'effet du veto causé par
l'existence d'une faible mesure (proche de zéro) produite par au moins
l'un des classificateurs à combiner
pour un signal où il y a une confusion totale. Les
résultats fournis par le vote àpluralité sont
les mêmes que ceux du vote à la majorité puisqu'on a une
combinaison de cinq classificateurs dans notre cas.
En conclusion, la discrimination sismique locale des signaux
sismiques, utilisant un système de classification modulaire mono-source
multi- (représentationnelle, stratégies, experts) décrit
par la figure (5.2), a permis d'atteindre des résultats meilleur qu'une
classification mono-(source, représentation, stratégie). De plus,
selon la stratégie adoptée, nous pourrons obtenir
différents niveaux de fiabilité. Ces résultats pourront
aussi être améliorer en tenant compte des résultats des
autres stations du réseau, ce qui fera l'objet du prochain
paragraphe.
136
Tableau 5.9: Influence de la méthode combinaison pour une
discrimination à trois classes
Méthode de combinaison
|
Base de test 1
|
Base de test 2
|
Erreur
|
Rejet
|
Erreur
|
Rejet
|
Pluralité
|
8.70 %
|
0.93 %
|
3.66 %
|
1.80 %
|
Majorité
|
8.70 %
|
0.93 %
|
3.66 %
|
1.80 %
|
Unanimité
|
0.36 %
|
47.70 %
|
0.033 %
|
28.20 %
|
Seuil à 80 %
|
2.63 %
|
21.46 %
|
0.93 %
|
12.53 %
|
Notoire
|
2.766 %
|
18.7 %
|
1.366 %
|
11 %
|
Somme
|
7.36 %
|
0 %
|
5.46 %
|
0%
|
Produit
|
12.93 %
|
0 %
|
5.96 %
|
0%
|
50
45
40
35
30
25
20
15
10
5
0
Pluralité Majorité Unanimité Seuil à
80% Notoire Somme Produit
Erreur Rejet
(a)
30
25
20
15
10
5
0
Pluralité Majorité Unanimité Seuil à
80% Notoire Somme Produit
Erreur Rejet
(b)
5.2 Discrimination sismique régionale
La discrimination sismique régionale consiste à
profiter des résultats de la discrimination sismique locale d'un
ensemble de stations sismiques selon un schéma statique ou dynamique.
5.2.1 Méthode proposée
5.2.1.1 Discrimination sismique régionale statique
L'administrateur d'un réseau sismique partitionne le
territoire contrôlé par le dit réseau en régions
où il attribue à chacune d'elle un ensemble de stations
sismiques. Lors de l'arrivée d'un événement sismique, un
nombre de stations d'une région, appelées par
la suite stations actives, détectent
l'événement. Les autres stations qui n'ont pas
détectéle signal, pour une raison ou une autre, seront
appelées par la suite stations inactives.
La discrimination sismique régionale statique consiste
à faire une discrimination sismique locale du signal relatif à
l'événement sismique pour chaque station active de la
région et de combiner par la suite les différentes
décisions des discriminations locales par un expert pour avoir la
décision finale (figure(5.12)). Donc, c'est une discrimination
multi(sources, représentationnelle, stratégies, experts) et
lorsqu'on se trouve avec une région ne comportant qu'une seule station
active, la discrimination sismique régionale devient identique à
la discrimination locale. Les différentes étapes de mise en
oeuvre de cette méthode sont données par l'algorithme (5.2).
L'utilisation du multi-sources permet d'améliorer la
décision lorsque la discrimination sismique locale donne une fausse
décision ou un rejet d'un signal relatif à un
événement sismique. Ceci est clarifié par l'exemple
ci-dessous.
Figure 5.12: Schéma de la discrimination sismique
régionale
Etape 0: Fixer les stations attribuées à la
région;
Etape 1: Acquisition des signaux sismiques par les stations
actives de la région; Etape 2: Faire la discrimination sismique locale
au niveau de chaque station active
de la région;
Etape 3: Combiner les résultats des discriminations
sismiques locales via un expert choisi au préalable pour avoir la
décision finale.
Algorithme 5.2: Discrimination sismique régionale
statique
Exemple 5.1: Discrimination sismique régionale.
Nous considérons trois signaux, relatifs à un
séisme lointain (ES0206-2005-05- 0119:05:38), enregistrés par
trois stations, à savoir CZD, MIF et ZFT appartenant à la region
5 qui comporte aussi la station TGT. Lors de l'arrivée de
l'événement, la station TGT a été inactive. Nous
essayons d'appliquer la discrimination sismique régionale décrite
ci-dessus en analysant la décision de la discrimination sismique locale
pour différents experts et pour les trois stations CZD, MIF et ZFT. Pour
cela, nous considérons les paramètres des classificateurs qui
sont donnés dans le paragraphe discrimination locale. L'expert
considéré pour la discrimination sismique régionale est le
vote majoritaire. Les résultats pour 10 tests sont donnés par le
tableau (5.10) où C, F, R et T indiquent respectivement, classification
correcte, classification fausse, rejet et test numéro i.
Nous constatons que la discrimination sismique locale au
niveau de la station MIF donne dans certains tests de fausses décisions
même pour le cas d'unanimité. Ces fausses décisions sont
corrigées au niveau de la discrimination sismique régionale par
vote majoritaire puisque les deux autres décisions de la discrimination
sismique locale au niveau CZDV et ZFT sont correctes.
Tableau 5.10: Exemple de la discrimination sismique
régionale statique
Méthode de discrimination
|
T1
|
T2
|
T3
|
T4
|
T5
|
T6
|
T7
|
T8
|
T9
|
T10
|
Unanimité- CZDV Unanimité- MIF Unanimité-
ZFT Régionale
|
C C C C
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C F C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
Majorité- CZDV Majorité- MIF Majorité-ZFT
Régionale
|
C C C C
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C F C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
Pluralité- CZDV Pluralité- MIF Pluralité-ZFT
Régionale
|
C C C C
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C F C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
Seuil à 80% - CZDV Seuil à 80% - MIF
Seuilà80%-ZFT Régionale
|
C C C C
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C F C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
Notoire - CZDV Notoire - MIF Notoire-ZFT Régionale
|
C C C C
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C F C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
Somme-CZDV Somme-MIF Somme-ZFT Régionale
|
C C C C
|
C F C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Produit - CZDV Produit-MIF Produit-ZFT Régionale
|
C F C C
|
C F C C
|
C F C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C F C C
|
C F C C
|
C C C C
|
5.2.1.2 Discrimination sismique régionale dynamique
Le schéma global de la discrimination sismique
régionale dynamique reste le même que celui de la discrimination
sismique régionale statique, sauf que les régions sont
formées dynamiquement en dépendance avec l'épicentre de
l'événement sismique et de l'indice d'activation des stations
selon des règles fixées par l'administrateur du réseau
sismique. Ainsi, cette approche ne traite que des événements
locaux.
Cette conception permet de mieux profiter des stations proches
de l'épicentre de l'événement sismique pour le cas des
événements locaux afin d'alléger l'effet de la distance.
En effet, la durée d'un signal sismique enregistré par une
station sismique dépend de la distance hypocentrale. De plus, elle
permet de diminuer le taux de rejet et de fausses décisions comme la
discrimination sismique régionale statique. Les différentes
étapes de mise en oeuvre de cette méthode sont données par
l'algorithme (5.3).
Etape 0: Fixer les règles de création d'une
région dynamique;
Etape 1: Acquisition des signaux sismiques par les stations
actives de la région dynamique;
Etape 2: Faire la discrimination sismique locale au niveau de
chaque station active de la région;
Etape 3: Combiner les résultats des discriminations
sismiques locales via un expert choisi au préalable pour avoir la
décision finale.
Algorithme 5.3: Discrimination sismique régionale
dynamique
5.3 Discrimination sismique globale
pour générer un système
intégré de discrimination des signaux sismiques selon le
schéma donné par la figure (5.13). Les différentes
étapes de mise en oeuvre de cette méthode sont données par
l'algorithme (5.4).
La discrimination sismique globale permet d'améliorer
les performances de la discrimination sismique régionale
particulièrement lorsqu'il y a une seule station active par
région lors de l'arrivée d'un événement sismique
(Voir exemple ci-dessous).
Etape 0: Acquisition des signaux sismiques par les stations
actives du réseau; Etape 1: Faire la discrimination sismique locale au
niveau de chaque station active;
Etape 2: Si (Localisation: Automatique) Alors Si
(Evénement: Locale) Alors
Faire la discrimination sismique régionale dynamique
Sinon
Faire la discrimination sismique régionale statique Fin
Si
Sinon
Faire la discrimination sismique régionale statique
Fin Si
Etape 3: Combiner les résultats de l'étape 2 via un
expert pour avoir la décision finale.
Algorithme 5.4: Discrimination sismique globale
Figure 5.13: Schéma de la discrimination sismique
globale
Exemple 5.2: Discrimination sismique globale.
Nous considérons trois signaux, relatifs à un
séisme lointain (ES0221-2005- 08-14 02:52:02), enregistrés par
trois stations, à savoir TZC, MIF et CIA appartenant à trois
regions 4, 5 et 6 respectivement. Nous essayons d'appliquer la discrimination
sismique globale décrite ci-dessus en analysant la décision de la
discrimination sismique régionale (même chose que la
discrimination sismique locale dans ce cas). Pour cela, nous considérons
les paramètres des classificateurs qui sont donnés dans le
paragraphe discrimination locale. L'expert considéré pour la
discrimination sismique globale est le vote majoritaire. Les résultats
pour 10 tests sont donnés par le tableau (5.11) où C, F, R et T
indiquent respectivement, classification correcte, classification fausse, rejet
et test numéro i.
Nous constatons que la discrimination sismique locale au
niveau de la région 5 représentée par la station MIF donne
dans certains tests de fausses décisions même pour le cas
d'unanimité. Ces fausses décisions sont corrigées au
niveau de la discrimination sismique globale par vote majoritaire puisque les
deux autres décisions des discriminations régionales 4 et 6 sont
correctes.
5.4 Conclusion
Dans ce chapitre, nous avons essayé de présenter
certaines méthodes de classification des signaux sismiques basées
sur les réseaux de neurones. Dans ce sens, nous avons discuté les
différents paramètres influençant les performances d'une
classification mono-
source et mono-classificateur. Ainsi, pour diminuer le taux
d'erreur, nous avons proposétrois schémas de
classification: discrimination sismique locale (mono-source), discrimi-
nations sismiques régionale et globale (multi-source).
L'utilisation de l'approche multi(représentationnelle,
stratégies, experts) donne plusieurs alternatives à l'utilisateur
selon ces objectifs.
Tableau 5.11: Exemple de la discrimination sismique globale
Méthode de discrimination
|
T1
|
T2
|
T3
|
T4
|
T5
|
T6
|
T7
|
T8
|
T9
|
T10
|
Régionale 4 - unanimité Régionale 5 -
unanimité Régionale 6 - unanimité Globale
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Régionale 4 - majorité Régionale 5 -
majorité Régionale 6 - majorité Globale
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Régionale 4 - pluralité Régionale 5 -
pluralité Régionale 6 - pluralité Globale
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Régionale 4 - seuil à 80% Régionale 5 -
seuil à 80% Régionale 6 - seuil à 80% Globale
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Régionale 4 - notoire Régionale 5 - notoire
Régionale 6 - notoire Globale
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Régionale 4- somme Régionale 5- somme
Régionale 6- somme Globale
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
Régionale 4 - produit Régionale 5 - produit
Régionale 6 - produit Globale
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
C F C C
|
C C C C
|
C C C C
|
C C C C
|
C C C C
|
faire par le logiciel MSSSA (Moroccan Software for Seismic
Signals Analysis) pour lequel, ce chapitre donne les méthodes
utilisées pour sa conception.
Si d'un côté, la discrimination des signaux
sismiques permet d'attribuer un événement à une classe
avec de bonnes performances, de l'autre côté, elle ne permet ni de
rejeter les bruits qui pourraient être enregistrés pour une raison
ou une autre, ni de détecter de nouvelles classes. Donc, avant de passer
à la phase de classification, il faut prévoir une phase de
reconnaissance des signaux sismiques, ce qui fera l'objet du prochain
chapitre.
CHAPITRE 6
RECONNAISSANCE DES SIGNAUX SISMIQUES
Comme les tremblements de terre, une explosion chimique ou
nucléaire souterraine crée des signaux sismiques qui se propagent
à l'intérieur de la terre. Pour satisfaire la tâche de
contrôle, un réseau d'enregistrement de signaux sismiques doit
être capable d'identifier la source des signaux enregistrés. Mais
tenant compte que les sismomètres sont très sensibles, de faibles
signaux dus à des processus comme le vent, les ondes océaniques
et même le trafic routier sont aussi détectés. De plus,
même les bruits radiophoniques pourraient être enregistrés
lors du déclenchement du processus de détection (Cas qu'on le
trouve souvent dans les enregistrements du système DataSeisII
utilisé par l'institut national de la géophysique du Maroc).
Donc, avant de faire la discrimination des signaux sismiques bruts, il
s'avère nécessaire de faire un rejet des signaux bruits afin de
ne garder que les vrais enregistrements sismiques. Ce qui nous amène
à faire une procédure de reconnaissance d'une seule classe de
signaux, à savoir la classe des signaux sismiques, parmi une
infinité de classes, à savoir les classes des signaux bruits.
Ce problème, connu dans la littérature sous le
nom détection de nouveauté (Novelty detection), a
été traité dans plusieurs travaux de recherche pour des
applications spécifiques. En effet, pour l'instant, il n'existe aucune
solution universelle permettant de le résoudre dans le cadre
général. Pour le cas des signaux sismiques, à notre
connaissance, tous les travaux réalisés traitent la
discrimination entre les différentes classes de ces signaux et non leur
reconnaissance parmi les différentes classes de bruit.
Le but de ce chapitre est, d'une part, de présenter la
notion détection de nouveautéet, d'autre part, de
présenter avec certains détails l'approche neuronale pour deux
types
de réseaux de neurones, à savoir le perceptron
multicouche et le réseau auto-associatif. Enfin, pour le cas des
signaux sismiques en particulier, et les signaux non
stationnaires similaires en général, nous proposons une
méthode basée sur les réseaux auto-associatifs.
Les performances de cette dernière sont
évaluées en utilisant des données de l'Institut National
de Géophysique.
6.1 Détection de nouveauté
6.1.1 Introduction
La détection de nouveauté (Novelty detection)
[295], la détection des données aberrantes (Outliers detection)
[151] et la classification à une classe (One-class classification) [293]
sont des termes qui ont été utilisés dans la
littérature, selon le domaine de recherche, pour désigner la
détection des données anormales appartenant à des classes
différentes de la classe des données normales. Par exemple, pour
le cas sismiques, tous les signaux sismiques sont des données normales
et tous les autres signaux sont des données anormales. Dans ce sens, il
est généralement impossible d'utiliser une procédure de
discrimination par apprentissage pour différencier entre les
données anormales et normales. En effet, si ces dernières peuvent
être facilement et parfaitement caractérisées à
partir d'un modèle ou d'un nombre d'exemples;
généralement, ce n'est pas le cas pour les autres données
[260]. Donc, le recours à des procédures de reconnaissance
s'avère très utile.
La différence entre les deux stratégies
discrimination et reconnaissance est illustrée dans la figure (6.1).
Pour la discrimination, les limites sont tracées entre les
données normales et anormales, c'est à dire qu'il y a un
découpage de l'espace des classes par des frontières de
décision en plusieurs zones, chacune correspond à une classe.
Alors que pour la reconnaissance les limites sont tracées, seulement,
autour des données normales.
La détection de nouveauté a été
appliquée avec succès dans plusieurs domaines d'ingénierie
[291, 151]. Ainsi, On la trouve à titre d'exemple dans: la maintenance
industrielle [227, 325], la robotique [212, 320], le domaine médical
[292, 259], l'informatique [282, 330, 333], les
télécommunications [103], l'environnement [188] et l'astronomie
[338].
Pour la conception d'une méthode de détection de
nouveauté, deux approches sont possibles: l'approche statistique et
l'approche neuronale. Ceci fait l'objet des deux paragraphes suivants,
où nous essayons de présenter certaines méthodes et de
donner certaines
149
(a) (b)
-
+
+
+
-
-
+
-
-
+
+
+
-
+
+
-
+
+
+
+
+
+
+
-
+
+
+
-
-
-
-
+
-
-
Figure 6.1: Les deux approches du concept d'apprentissage:
Discrimination (a) versus Reconnaissance (b)
références. Toutefois, le lecteur pourra se
référer à [209, 210] et [151] pour plus de
détails.
6.1.2 Approche statistique
Les méthodes statistiques sont les premières
méthodes qui ont été utilisées dans la conception
des détecteurs de nouveauté. Ces méthodes consistent
à modéliser les données à partir de leurs
propriétés statistiques et de faire la comparaison avec un seuil
fixé au préalable. La plus simple de ces méthodes est de
construire la fonction de densité de probabilité pour des
données où la distribution est connue, ce qui n'est pas toujours
le cas. En effet, il est rare d'avoir des informations sur la distribution des
données traitées dans les cas pratiques surtout dans les cas de
distributions complexes ou multimodales. Pour surpasser ce problème,
deux possibilités existent: la première consiste à estimer
la fonction de densité de probabilité et la deuxième
consiste à utiliser des méthodes où cette fonction n'est
pas nécessaire.
Pour le deuxième cas, la plus simple des
méthodes consiste à mesurer la dispersion de la nouvelle
donnée par rapport à la moyenne d'une classe de données et
faire la
comparaison avec un seuil [208]. Une autre méthode
simple basée sur les box-plots a
étéutilisée par Laurikkala et al. [193]. Pour
combler certaines lacunes d'autres techniques
dites techniques de proximité, basées sur la
méthode du K-plus proche voisin (K-Nearest Neighbor ou K-NN), ont
été proposées [182, 50, 250]. Ces derniers ont
été unifiés dans
un modèle de Tang et al. [290] en se basant sur un
schéma de connectivité des données aberrantes.
Différemment de ces méthodes d'autres approches ont
été développées, tel que K-moyenne (K-means) [10,
227], K-medoids (Partition Around Medoids-PAM) [49, 44] et connectivité
des graphes [274].
Pour l'estimation d'une fonction de densité de
probabilité à partir des échantillons, l'idée est
simple. Cependant, les démonstrations de convergence sont souvent
difficiles [93]. Dans le domaine de la detection de nouveauté, plusieurs
méthodes ont été utilisées. Nous citons les
fenêtres de Parzen (Parzen Windows) [43, 294, 331] et le modèle de
mélange gaussien (Gaussian Mixture Models-GMM) [43, 294, 259, 156].
6.1.3 Approche neuronale
Les réseaux de neurones ont été largement
utilisés dans le champ de la détection de nouveauté. Ces
réseaux ont l'avantage qu'ils nécessitent peu de
paramètres à optimiser lors de l'apprentissage et aucunes
hypothèses sur les propriétés des données ne sont
faites. La plus simple de ces méthodes consiste à faire un
seuillage de la sortie du réseau de neurones [288, 266, 17]. Ce principe
a été utilisé intensivement et différemment dans
plusieurs travaux. La différence réside dans le type du
réseau et la façon de faire le seuillage.
Pour les réseaux MLP plusieurs travaux ont
été réalisés. Ainsi, Vasconcelos et al. [307] ont
démontré comment un réseau de ce type construit ses
régions de décision pour les différentes fonctions
d'activation et règles de propagation afin de détecter des
données aberrantes, Wilson et al. [323] ont montré que certains
changements sur le réseau MLP peuvent aboutir à des meilleurs
performances dans la détection de nouveauté en comparaison avec
les réseaux de neurones probabilistes, Cordella et al. [69] et DeStefano
et al. [86] ont défini une fonction de performance permettant de donner
le seuil optimal pour plusieurs types de réseaux, d'autres aspects ont
été aussi traités.
151
(a) (b)
-1
-2
-3
-4
-5
0
0 10 20 30 40 50 60 70
x 10 4 ES0001-RTC -2003-01-22 13:11:23
Time [sec]
-100
-200
-300
400
200
300
100
0
0 10 20 30 40 50 60 70
ES0001-MIF -2003-01-22 13:11:23
Time [sec]
Figure 6.2: Signaux relatifs à un Bruit (a) et un
événement sismique(b)
l'entrée par la sortie du réseau et de comparer
l'erreur avec un seuil. Leur performances ont été
révélées dans plusieurs publications: [243, 164, 285, 286,
154, 282, 279, 336, 27, 280]
D'autres réseaux ont été aussi
appliqués à la détection de nouveauté, nous citons:
réseau de Kohonen [60], réseau Hopfield [72], Théorie de
la résonance adaptative (Adaptive Resonance Theory-ART) [55, 155].
6.1.4 Quelle approche pour le cas sismique?
La détection des données aberrantes traite
généralement trois situations, à savoir le cas où
on n'a aucune connaissance à priori sur les données, le cas
où on a des connaissances sur les données normales et anormales,
et la troisième situation, seulement les données normales sont
connues. Le cas sismique est inclus dans cette dernière situation. En
effet, on a seulement des connaissances sur les signaux sismiques provenant des
événements naturels ou artificiels, alors que pour les bruits,
ils pourraient parvenir d'une infinité de classes. La figure (6.2)
montre deux signaux relatifs au même événement
enregistrés par deux stations du réseau Marocain, où un
correspond au bruit et l'autre à l'événement. Ceci peut
être dû à plusieurs raisons: panne au niveau de la station,
panne au niveau de la transmission, événement faible et/ou loin
pour être enregistré par la station, etc.
152
Figure 6.3: Schéma d'un réseau de neurones
auto-associatif
des données aberrantes dans les bases de données
sismiques, il serait judicieux d'utiliser des méthodes d'apprentissage
(statistiques ou neuronales). Et tenant comptes des performances des
réseaux de neurones démontrées dans plusieurs domaines,
nous adoptons dans ce mémoire l'approche neuronale en utilisant les
réseaux auto-associatifs.
6.2 Réseau auto-associatif
Le réseau de neurones auto-associatif (AANN:
Autoassociative Artificial Neural Network), connu aussi sous les appellation
réseau diabolo et auto-encodeur [271], est un réseau MLP (figure
(6.3)) dont la sortie, après apprentissage, doit être proche de
l'entrée, entraînant en particulier que la couche de sortie a la
même dimension que la couche d'entrée. Les poids entre la couche
d'entrée et la couche cachée au milieu du réseau
effectuent un codage de la donnée présentée de sorte qu'
ils sont appelés les poids encodeurs. Les poids entre la couche
cachée au milieu du réseau et la couche de sortie sont
appelés poids générateurs puisqu'ils reproduisent
l'entrée.
Ce type de réseau est connu depuis longtemps. Les
premières références remontent même aux
années 80 [264]. L'apprentissage se fait généralement par
rétro-propagation du gradient, mais il est non supervisé
puisqu'on utilise une sortie désirée qui est identique à
l'entrée. La majorité des travaux concernant ce réseau a
traité la couche cachée existant au milieu puisqu'elle
représente un codage compact du vecteur d'entrée [185]. Le
réseau effectue donc une réduction de la dimensionnalité
au sens de la PCA non linéaire
(uniquement pour le même type d'exemples que ceux
appris) mais sans équivalence entre les deux méthodes [163]. On
note que les résultats fournis par ce type de réseaux sont
influencés par les mêmes paramètres cités pour le
réseau MLP dans le chapitre précédent. Sauf qu'ils ne
nécessitent pas un grand nombre d'élément dans la base
d'apprentissage comme les MLP.
6.3 Reconnaissance des signaux sismiques
Un système de reconnaissance s'avère
nécessaire pour un réseau sismique à grande
échelle. En effet, quelque soit les performances de l'algorithme de
détection des événements sismiques, il y aura toujours de
fausses détections à cause de plusieurs facteurs qui sont dus
à la conception de l'algorithme lui-même ou à
l'environnement du réseau (emplacement des stations, réseau de
transmission, etc). Pour le premier cas, lors de la conception de la
procédure de détection, souvent le réseau sismique est
subdivisé en sous réseaux au niveau matériel et en
régions au niveau géographique. Ces régions englobent un
nombre de stations pour lesquelles la procédure d'enregistrement se
déclenche une fois certaines conditions sont remplies pour un certain
nombre d'entre elles. Donc, il y a de l'enregistrement même pour les
stations qui n'ont pas détecté l'événement. Cette
situation s'applique parfaitement au système DataSeis II
d'enregistrement numérique des signaux sismiques installé
à l'Institut National de Géophysique où l'enregistrement
se fait même pour les régions dont aucune station n'a
détecté l'événement. Le lecteur pourra se
référer à [177] pour les enregistrements sismiques
provenant des sautages de l'office chérfien des phosphates (OCP).
6.3.1 Méthode proposée
Notre objectif dans ce paragraphe est de présenter une
méthodologie globale pour concevoir un système de reconnaissance
de signaux sismiques. C'est à dire un système permettant de
filtrer une base de données sismiques en faisant un regroupement des
signaux (figure (6.4)). Et comme le nombre de signaux acquis par un
réseau est énorme, alors le traitement au sein du système
de reconnaissance doit être le plus rapide possible.
154
Figure 6.4: Schéma de l'objectif de la reconnaissance des
signaux sismiques
Pour atteindre l'objectif présenté ci-dessus et
afin de profiter des conclusions faites au chapitre 2 concernant les
représentations discriminantes temps-fréquence et
temps-échelle, on propose d'abord d'utiliser la moyenne comme
descripteur atemporel au niveau de chaque canal fréquentiel pour
générer les caractéristiques qui serviront comme des
entrées pour le système de reconnaissance. Ce choix repose sur le
fait que les représentations bidimensionnelles permettent de bien
différencier entre un signal bruit et un vrai signal sismique comme le
montre la figure (6.5) pour le cas d'une représentation avec le SPEC.
(a) (b)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
10
15
20
0
5
0 50 100 150 200
0.5 1 1.5 2
Modulus x 107
Hanning window (256 pts)
FT
250 0 10 20 30 40 50 60 70
-3
20
10
15
4
x 104 Es0001RTC 20030122 13:11:23
0
2
5
0
5
1
0 10 20 30 40 50 60 70
Time [sec]
SPEC
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
20
10
15
0
5
0 50 100 150 200 250
2000 4000 6000 8000 10000 12000 14000 16000
Hanning window (256 pts)
Modulus
FT
-100
400 300 200 100
200
00
20
10
15
0
0
5
0 10 20 30 40 50 60 70
0 10 20 30 40 50 60 70
Es0001MIF 20030122 13:11:23
Time [sec]
SPEC
Figure 6.5: Le SPEC d'un signal bruit (a) et d'un signal
sismique (b)
Pour le système de reconnaissance, nous proposons
d'utiliser un réseau AANN par classe comme le montre la figure (6.6). Le
nombre de réseaux AANN à utiliser est déterminé par
le nombre de classes spécifié dans le système de
classification automatique si le
Figure 6.6: Schéma du système de reconnaissance
des signaux sismiques
système de reconnaissance est lié au
système de classification sinon le nombre de classes est
déterminé par les classes dont on veut reconnaître les
signaux correspondants. Le choix de ce modèle modulaire a pour
objectifs, d'une part, d'être très rapide et, d'autre part, de
bien modéliser chaque classe en diminuant ainsi l'effet de recouvrement
des classes qui pourra être généré si on
considère un seul réseau AANN et qui pourra engendrer à
son rôle des confusions avec les bruits, les sous classes ou avec de
nouvelles classes.
La mise en oeuvre du système ci-dessus passe par les
mêmes étapes que celles du réseau MLP sauf qu'il y a une
étape de détermination du seuil de rejet en plus. Ces
étapes sont : 1) le choix des bases d'apprentissage et de test, 2) le
choix des paramètres du réseau, 3) l'apprentissage et 4) la
détermination du seuil de rejet. Ce dernier est déterminé
après l'apprentissage via l'erreur de reconstruction, c'est-à-
dire la distance entre l'entrée et la sortie du réseau. Par
exemple, on peut utiliser sa valeur absolue pour formuler un critère de
rejet de distance, et les différences relatives pour un rejet
d'ambiguïté. En résumé, la reconnaissance des signaux
sismiques s'effectue selon l'algorithme (6.1).
Etape 0: Choix des classes, des bases d'apprentissage et de
test, des méthodes de représentation et d'extraction des
caractéristiques, des réseaux AANN et de l'expert;
Etape 1: Faire correspondre à chaque classe un
réseau AANN;
Etape 2: Faire l'apprentissage du système;
Etape 3: Faire les tests en calculant les erreurs de
reconstruction;
Etape 4: Refaire les étapes 2 et 3 jusqu'à
l'obtention des performances désirées; Etape 5: Determiner le
seuil de rejet pour chaque réseau AANN;
Etape 6: combiner les résultats par un expert pour avoir
la décision finale.
Algorithme 6.1: Reconnaissance des signaux sismiques via les
réseaux AANN
Nous notons que les méthodes de combinaison
présentées pour les réseaux MLP dans le chapitre
précédent restent valables pour les réseaux AANN. Le MSSSA
Recognition [33] donne à l'administrateur du réseau sismique une
multitude d'alternatives pour réaliser la méthode de
reconnaissance convenable en se basant sur le schéma (6.6) et
l'algorithme (6.1).
6.3.2 Tests expérimentaux
6.3.2.1 Test expérimental 1
Dans ce test nous essayons, d'argumenter notre choix de
considérer un réseau auto- associatif pour chaque classe. Pour
cela nous considérons une base d'apprentissage et de test
constituée de 160 signaux dont le 1/4 pour chaque classe (explosions
chimiques, séismes locaux, séismes lointains et bruits). Pour la
représentation, nous considérons le spectrogramme où nous
choisissons la moyenne de 32 canaux spectraux c'est à dire les
fréquences inférieures à 12.5Hz. La
reconnaissance est assurée par un réseau AANN
entraîné par l'algorithme gradient conjugué
régularisé (SCG) avec des fonction d'activations sigmoide, un
taux d'apprentissage 0.001, une valeur objective de l'erreur 0.005, un moment
de 0.95, une valeur minimale du gradient de 10-12, et un nombre
maximale d'itération 10000. Pour voir quelles sont les
possibilités d'avoir un seuil de rejet à partir des erreurs de
reconstruction des signaux d'apprentissage, nous traçons, d'une part,
ces erreurs et d'autre par celles des signaux tests ordonnées d'une
façon croissante.
Afin de tester notre approche, nous considérons une
base de 40 signaux d'une classe à reconnaître dont 20 pour
l'apprentissage et 20 pour le test. Pour les autres classes, nous
considérons 20 signaux pour le test. Ainsi, nous obtenons pour chaque
classe la figure (6.7(a)) pour les explosions chimiques, la figure (6.7(b))
pour les séismes locaux et la figure (6.7(c)) pour les séismes
lointains.
Nous constatons que pour les trois cas, nous pouvons fixer un
seuil de rejet selon la fiabilité désirée. Ainsi, pour les
explosions chimiques, un seuil de 0.2 permet de rejeter tous les
éléments des autres classes. Cependant, pour ce seuil il y a
aussi un rejet de certains éléments de la classe objective soit
qui appartiennent à la base d'apprentissage ou de test. Ceci pourra
être dû à certains bruits de fonds influençant les
caractéristiques fréquentielles des signaux et par
conséquent l'erreur de reconstruction, ou même à cause
d'une confusion dans notre choix de la base de test des bruits en
considérant un signal comme étant un bruit alors qu'il est
sismique mais dominé par un grand bruit de fond.
Pour le cas où la classe objective est formée de
séismes locaux, on constate d'abord qu'il y a une séparation
totale avec les explosions et les séismes lointains. Et pour les bruits,
un seuil de 0.25 de l'erreur de reconstruction permet de les rejeter totalement
mais en contrepartie il y a aussi un rejet des élément de la
classe objective déjà soit de la base d'apprentissage ou de test.
Ceci pourrait être expliqué comme précédemment.
Pour le cas où la classe objective constituée de
séismes lointains, un changement du nombre de canaux fréquentiels
à prendre en compte s'avère nécessaire pour s'adapter au
contenu fréquentiel de tels événements. Ainsi, pour une
architecture 15-5-15, nous
158
1 .4
1.2
1
0.8
0.6
0.4
0.2
0
Sam ple
0 5 10 15 20
Recognition by SPEC and ANN with architecture 32-15-7-15-32
Explosions Train Explosions Test Noise
Local earthquakes Far earthquakes
(a)
(c)
1.5
1
0.5
0
Sam ple
0 5 10 15 20
Recognition by SPEC and ANN with architecture 32-15-7-15-32
Local earthquakes Train Local earthquakes Test Noise
Explosions
Far earthquakes
(c)
1.5
1
0.5
0
Sam ple
0 5 10 15 20
Recognition by SPEC and ANN with architecture 15-5-15
Far earthquakes Train Far earthquakes Test Noise
Explosions
Local earthquakes
Figure 6.7: L'erreur de reconstruction de trois réseaux
AANN entraînés par des signaux relatifs à des explosion
chimique (a), des séismes locaux (b) et des séismes lointains
(c)
avons obtenu une séparation totale avec les
séismes locaux et une bonne séparation avec les explosions et les
bruits. Ceci est dû aux propriétés fréquentielles
des séismes lointains (entre 0.1Hz et 1 Hz).
Le seuil de rejet reste un choix de l'administrateur du
réseau sismique selon les objectives désirées. Toutefois,
les performances de la reconnaissance peuvent être
améliorées en considérant des combinaisons de plusieurs
systèmes de reconnaissance (en changeant la représentation par
exemple) comme pour le cas de la discrimination. Aussi, il faut noter que le
choix des paramètres du réseau AANN doit être basé
sur une multitude de tests en correspondance avec le cas étudié
en plus de certains résultats de la littérature (Par exemple le
choix de fonctions d'activation non linéaires n'est pas arbitraire. En
effet, il a été démontré par Japkowicz [162] que
l'utilisation de telles fonctions permet de créer une certaines
spécialisation pour les réseaux AANN en l'absence de contre
exemples).
6.3.2.2 Test expérimental 2
Dans ce test, nous essayons d'expliciter pourquoi nous avons
choisi un réseau par classe et non un seul réseau pour toutes les
classes objectives. Pour cela nous considérons une base d'apprentissage
formée de 60 signaux dont chaque classe objective est
représentée par 20 signaux. La base de test est formée de
80 signaux dont 60 sont relatifs aux classes objectives (1/3 pour chacune
d'elle) et 20 sont relatifs aux bruits. Nous considérons les mêmes
paramètres que le test précédent et nous traçons
les erreurs de reconstruction ordonnées d'une façon croissante.
Nous obtenons ainsi la figure (6.8).
Il est clair sur la figure (6.8) qu'il est impossible d'avoir
un seuil de rejet pour les bruits. Et même si on fait changer le nombre
de couches cachées, on obtient des résultats similaires. Ceci est
dû à la grande différence des caractéristiques
fréquentielles des classes objectives. Ce qui entraîne des
confusions pour le réseau AANN.
(a)
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Sam ple
0 5 10 15 20
Recognition by SPEC and ANN with architecture 32-15-7-15-32
Local earthquakes Train Local earthquakes Test Far earthquakes
Train Far earthquakes Test Explosions Train Explosions Test
Noise
Figure 6.8: L'erreur de reconstruction d'un réseau AANN
entraîné par des signaux relatifs à des explosions
chimiques, des séismes locaux et des séismes lointains
6.4 Conclusion
Dans ce chapitre, nous avons présenté une
technique basée sur les réseaux AANNs et les
représentations bidimensionnelles pour la reconnaissance des signaux
sismiques. Notre approche trouve ses fondements dans le domaine de la detection
de nouveautésans contre-exemples. De plus, c'est une approche
générale qui pourra être utilisée dans d'autres
domaines comme la détection des défauts dans les systèmes
multimodes [29].
La validation de l'approche proposée a
été assurée par des tests expérimentaux par le
biais du MSSSA (Moroccan Software for Seismic Signals Analysis) qui permet
àl'administrateur une grande facilité et
flexibilité dans le choix des paramètres de reconnaissance.
REFERENCES
[1] D. Achlioptas. «Database friendly random
projections». Dans 20th ACM SIGMODSIGACT-SIGART symposium on Principles of
database systems, pp. 274281, 2001.
[2] B. Ackermann et H. Bunke. «Combination of
classifiers on the decision level for face recognition». Technical Report
IAM-96-002, Institut fur Informatik und Angewandte Mathematik, University of
Bern, 1996.
[3] P. S. Addison. «Wavelet transforms and the ECG: a
review». Physiological Measurement, 26:R155R199, 2005.
[4] P. S. Addison, J. N. Watson et T. Feng.
«Low-oscillation complex wavelets». The Journal of Sound and
Vibration, 254(4):733762, 2002.
[5] D. C. Agnew. «The use of time of day seismicity maps
for earthquake/explosion discrimination by local networks, with an application
to the seismicity of San Diego». Bulletin of the Seismological Society of
America, 80:747750, 1990.
[6] N. Ailon et B. Chazelle. «Approximate nearest
neighbors and the fast JohnsonLindenstrauss transform». Dans 32th Annual
ACM Symposium on Theory of Computing, pp. 557563, 2006.
[7] D. F. Aldridge. «The Berlage wavelet».
Geophysics, 55(11):15081511, 1990.
[8] S. S. Alexander. «A new method for determining source
depth from a single regional station». Seismic Research Letters, pp. 63,
1996.
[9] M. Allameh-Zadeh et P. Nassery. «Application of
quadratic neural networks to seismic signal classification». Physics of
the Earth and Planetary Interiors, 113 (1-4):103110, 1999.
[10] J. Allan, J. Carbonell, G. Doddington, J. Yamron et Y.
Yang. «Topic detection and tracking pilot study: Final report». Dans
the DARPA Broadcast News Transcription and Understanding Workshop, 1998.
[11] L. B. Almeida. «Handbook of Neural Computation»,
Chaptitre: Multilayer perceptrons. Oxford University Press, 1997.
[12] E. Alpaydin. «Multiple neural networks and weighted
voting». Dans 11th International Conference on Pattern Recognition (ICPR),
volume 2, pp. 2932, 1992.
[13] D. N. Anderson, S. R. Taylor et K. K. Anderson.
«Discrimination information in phase amplitude thresholds». Dans the
21th Annual Seismic Research Symposium: Technologies for Monitoring
the CTBT, pp. 344345, 1999.
[14] R. I. Arriaga et S. Vempala. «An algorithmic theory
of learning: Robust concepts and random projection». Dans 40th Annual
Symposium on Foundations of Computer Science, pp. 616623, 1999.
[15] R. I. Arriaga et S. Vempala. «An algorithmic theory of
learning: Robust concepts and random projection». Machine Learning, 63(2):
161182, 2006.
[16] F. Auger. «Représentation
temps-fréquence des signaux non-stationnaires: synthèse et
contribution». Thèse de doctorat, Ecole centrale de Nantes,
1991.
[17] M. F. Augusteijn et B. A. Folkert. «Neural network
classification and novelty detection». International Journal of Remote
Sensing, 23(14):28912902, 2002.
[18] D. Authors. «Special Issue on Dempster-Shafer Theory,
Methodology, and Applications». International Journal of Approximate
Reasoning, 31(1-2), 2002.
[19] G. E. Baker. «Predicting crustal phase propagation
efficiency from topography, gravity and crustal thickness». Dans the 20th
Annual Seismic Research Symposium on Monitoring a Comprhensive Test Ban Treaty,
pp. 153162, 1998.
[20] M-F. Balcan, A. Blum et S. Vempala. «On kernels,
margins, and low-dimensional mappings». Dans Conference on Algorithms
Learning Theory (ALT'04), pp. 194 205, 2004.
[21] R. Baraniuk, M. Davenport, R. DeVore et M. Wakin.
«A simple proof of the restricted isometry property for random
matrices». To appear, Revision of 18 January 2007.
[22] R. G. Baraniuk et D. L. Jones. «A signal dependant
time-frequency representation: Optimal kernel design». IEEE Trans on
Signal Processing, 41:15891601, 1993.
[23] P. L. Bartlett. «The sample complexity of pattern
classification with neural networks: the size of the weights is more important
than the size of thenetwork». IEEE Trans on Information Theory,
44(2):525536, 1998.
[24] M. Basseville et I. V. Nikiforov. «Detection of
abrupt changes: theory and application». Prentice Hall Information and
System Science series. Prentice Hall,Englewood cliifs, NJ, 1993.
[25] R. Battiti. « First- and second- order methods for
learning: between steepest descent and Newton's method». Neural
Computation, 4:141166, 1992.
[26] D. R. Baumgardt, Z. Der et A. Freeman.
«Investigation of the partioning of source and receiver site factors on
the variance of regional P/S amplitude ratio discriminants». Dans the
23th Annual Seismic Research Symposium: Technologies for Monitoring
the Comprhensive Test Ban Treaty, pp. 156165, 2001.
[27] J. Beh, R. Baran et H. KO. «Dual channel based
speech enhancement using novelty filter for robust speech recognition in
automobile environment ». IEEE Trans on Consumer Electronics,
52(2):583589, 2006.
[28] R. Bellman. «Adaptive control processes: a guided
tour». Princeton University Press, 1961.
[29] M. Benbrahim et K. Benjelloun. «A novel approach for
fault detection in multimode systems». Dans Conference on Systems and
Control (CSC'2007), 2007.
[30] M. Benbrahim, K. Benjelloun et A. Ibenbrahim.
«Discrimination des signaux sismiques par réseaux de neurones
artificiels». Dans 3 èmes Journées Nationales sur les
Systèmes Intelligents (SITA '04), Rabat, Maroc, pp. 6266, 2004.
[31] M. Benbrahim, K. Benjelloun, A. Ibenbrahim et A. Daoudi.
«Classification of non stationary signals using Ben wavelet and artificial
neural networks». International Journal of Signal Processing, 2(1):3438,
2005.
[32] M. Benbrahim, K. Benjelloun, A. Ibenbrahim, M. Kasmi, et
E. Ardil. «Ben wavelet: a new function for signals analysis».
Accepté, International Journal of Signal Proceesing, 2007.
[33] M. Benbrahim, K. Benjelloun, A. Ibenbrahim et M. Kasmi.
«The Moroccan Software for Seismic Signals Analysis». Rapport
technique, Intitut National de Géophysique, CNRST, Maroc, 2007.
[34] M. Benbrahim, K. Benjelloun, A. Ibenbrahim, M. Kasmi, A.
El Mouraouah et A. Birouk. «Une nouvelle méthode pour la
réduction de la dimensionnalité des images sismiques». Dans
4 èmes Journées Nationales sur les Systèmes Intelligents
(SITA'06), Rabat, Maroc, pp. 104110, 2006.
[35] M. Benbrahim, K. Benjelloun, A. Ibenbrahim, A. El
Mouraouah, M. Kasmi et A. Birouk. «An integrated system to classify
seismic signals». Dans International Conference on Modelling and
Simulation (ICMS'05), 2005.
[36] M. Benbrahim, A. Daoudi, K. Benjelloun et A. Ibenbrahim.
«Discrimination of seismic signals using artificial neural networks».
Dans 2th World Enformatika Congress (WEC'05), pp. 47, 2005.
[37] M. Benbrahim, k. Benjelloun, A. Ibenbrahim, M. Kasmi et
E. Ardil. «A new approaches for seismic signals discrimination».
Trans on Engineering, Computing and Technology, 19:183186, 2007.
[38] T. J. Bennet, B. W. Baker, K. L. McLaughlin et J. R.
Murphy. «Regional discrimination of quarry blasts, earthquakes and
underground nuclear explosions». Final Report GL-TR-89-0114, Geophysics
Laboratory, Hanscom Air Force Base, MA, 1989.
[39] J. Bertrand et P. Bertrand. « Time-frequency signal
analysis: Methods and applications», Chaptitre: Affine time-frequency
distributions, pp. 118140. LongmanCheshire, Melbourne, 1992.
[40] K. Beyer, J. Goldstein, R. Ramakrishnan et U. Shaft.
«When is nearest neighbor
meaningful?». Dans 7th International Conference on
Database Theory, volume 1540, pp. 217235, 1999.
[41] E. Bingham et H. Mannila. «Random projection in
dimensionality reduction: Applications to image and text data». Dans 7th
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.
245250, 2001.
[42] C. M. Bishop. «Exact calculation of the Hessian matrix
for the multi-layer perceptron». Neural Computation, 4:494501, 1992.
[43] C. M. Bishop. «Novelty detection and neural network
validation». Dans IEE Proceedings on Vision, Image and Signal Processing,
volume 141, pp. 217222, 1994.
[44] R. J. Bolton et D. J. Hand. «Unsupervised profiling
methods for fraud detection». Dans Credit Scoring and Credit Control VII,
2001.
[45] J. Bonner, D. Reiter et R. H. Shumway. «Application
of a cepstral F-statistic for improved depth estimation». Dans the
22th Annual Seismic Research Symposium: Planning for verification of
and compliance with the Comprhensive Test Ban Treaty, pp. 5362, 2000.
[46] J. L. Bonner, D. T. Reiter, A. M. Rosca et R. H.
Shumway. «Cepstral F-statistic performance at regional distances».
Dans the 23th Annual Seismic Research Symposium: World Wide
Monitoring of Nuclear Explosions, pp. 177185, 2001.
[47] P. Bormann. «Identification of teleseismic events in
the records of Moxa station». Gerlands Beitr. Geophysik, 81:105116,
1972.
[48] E. Bournay-Bouchereau. «Analyse d'images par
transformée en ondelettes- application aux images sismiques».
Thèse de doctorat, Université de Joseph Fourier, 1997.
[49] P. S. Bradley, U. M. Fayyad et O. L. Mangasarian.
«Mathematical programming for data mining: formulations and
challenges». INFORMS Journal on Computing, 11(3):217238, 1999.
[50] M. Breuning, H. P. Kriegel, R. Ng et J. Sander.
«LOF: Identifying densitybased Local Outliers». Dans ACM SIGMOD
International Conference on Management of Data, pp. 93104, 2000.
[51] J. N. Brune. « Tectonic stress and spectra of seismic
shear waves from earthquakes». J. Geophys. Res, 75:49975009, 1970.
[52] J. Buhler et M. Tompa. «Finding motifs using random
projections». Journal of Computational Biology, 9(2):225242, 2002.
[53] R. A. Calvo, M. Partridge et M. A. Jabri. «A
comparative study of principal component analysis». Dans 9th Australian
Conference in Neural Networks, 1998.
[54] R. Caruana, S. Baluja et M. Tom. «Using the Future
to 'Sort Out' the Present: Rankprop and Multitask Learning for Medical Risk
Evaluation». Dans Advances in Neural Information Processing Systems
(NIPS), volume 8, pp. 959965, 1996.
[55] T. Caudell et D. Newman. «An adaptive resonance
architecture to define normality and detect novelties in time series and
databases». Dans IEEE World Con gress on Neural Networks, pp. 166176,
1993.
[56] A. Chakraborty et D. Okaya. «Frequency-time
decomposition of seismic data using wavelet-based methods». Geophysics,
60(6): 19061916, 1995.
[57] E. Chassande-Mottin. «Méthodes de
réallocation dans le plan temps-fréquence pour l'analyse et le
traitement de signaux non stationnaires». Thèse de doctorat,
Université de Cergy-Pontoise, 1998.
[58] N. Chawla, N. Japkowicz et A. Kolcz, éditeurs.
«Proceedings of the ICML'2003 Workshop on Learning from Imbalanced Data
Sets», 2003.
[59] N. Chawla, N. Japkowicz et A. Kolcz, éditeurs.
«Special issue on learning from imbalanced datasets, ACM SIGKDD
Explorations Newsletter», volume 6, 2004.
[60] B. H. Chowdhury et K. Wang. «Fault classification
using Kohonen feature mapping». Dans International Conference on
Intelligent Systems Applications to Power Systems, pp. 194198, 1996.
[61] L. Christoskov, N. V. Kondorskaya et J. Vanek.
«Magnitude calibration functions for a multidimensional homogeneous system
of reference stations». Tectonophysics, 118:213226., 1985.
[62] H-M Chung et D. C. Lawton. «Frequency characteristics
of seismic reflections from the beds». Canadian Journal of Exploration
Geophysics, 31(1-2):3237, 1995.
[63] T. A. C.M. Claasen et W. F. G. Mecklenbrauker. «The
Wigner distribution-a tool for time-frequency signal analysis; Part I:
continuous-time signals». Philips J. Res, 35(3):217250, 1980.
[64] T. A. C.M. Claasen et W. F. G. Mecklenbrauker. «The
Wigner distribution-a tool for time-frequency signal analysis; Part II:
discrete-time signals». Philips J. Res, 35 (4/5):276300, 1980.
[65] T. A. C.M. Claasen et W. F. G. Mecklenbrauker. «The
Wigner distribution-a tool for time-frequency signal analysis; Part III:
relations with other time-frequency signal transformations». Philips J.
Res, 35(6) :372389, 1980.
[66] L. Cohen. «What is a multicomponent signal?».
Dans IEEE International Confrernce on Acoustics, Speech and Signal Processing,
pp. 113116, 1992.
[67] L. Cohen. «The uncertainty principle in signal
analysis». Dans Proc. IEEE TimeFreq/Time-Scale Anal, pp. 182185, 1994.
[68] L. Cohen. « Time-frequency anal ysis». Prentice
Hall, 1995.
[69] L.P. Cordella, C. Sansone, F. Tortorella, M. Vento et C.
DeStefano. «Neural network classification reliability: problems and
applications». Image Processing and Pattern Recognition, 5:161200,
1998.
[70] T. M. Cover et P. E. Hart. «Nearest neighbor pattern
classification». IEEE Trans on Informations Theory, 13(1), 1967.
[71] L. Cranor. « Declared-strategy voting: an instrument
for group decison-making». Thèse de doctorat, Washington
University, 1996.
[72] P. Crook et G. Hayes. «A robot implementation of a
biologically inspired method for novelty detection». Dans Towards
Intelligent Mobile Robots Conference, Manchester, 2001.
[73] G. Cybenko. «Approximation by superposition of a
sigmoidal function». Mathematics of Control, Signals, and Systems,
2:303314, 1989.
[74] O. Dahlman et H. Israelson. «Monitoring underground
nuclear explosions». Elsevier, Amsterdam, 1977.
[75] A. Daoudi, M. Benbrahim et K. Benjelloun. «An
intelligent system to classify leaks in water distribution pipes». Dans
2th World Enformatika Congress (WEC'05), pp. 13, 2005.
[76] S. Dasgupta. «Experiments with random
projection». Dans the 16th Conference on Uncertainty in Artificial
Intelligence, pp. 14315 1, 2000.
[77] S. Dasgupta et A. Gupta. «An elemnetary proof of the
johnson-Lindenstrauss lemma». Rapport technique 99-006, UC Berkeley,
1999.
[78] I. Daubechies. « Ten lectures on wavelets». SIAM,
Philadelphia, Pa, 1992.
[79] M. Davy. «Noyaux optimises pour la classification
dans le plan temps-frequence - Proposition d'un algorithme constructif et d'une
reference bayesienne basee sur les methodes MCMC - Application au diagnostic
d'enceintes acoustiques». Thèse de doctorat, Universite de Nantes,
2000.
[80] M. Davy et C. Doncarli. «Optimal kernels of
time-frequency representations for signal classification». Dans IEEE
International Symposium on TFTS, pp. 581584, 1998.
[81] E. DelPezzo, A. Esposito, F. Giudicepietro, M. Marinaro,
M. Martini et S. Scarpetta. «Discrimination of earthquakes and underwater
explosions using neural networks». Bulletin of the Seismological Society
of America, 93(1):215223, 2003.
[82] P. Demartines. «Analyse de données par
réseaux de neurones auto-organisés». Thèse de
doctorat, Institut National Polytechnique de Grenoble, 1994.
[83] T. Denoeux. «A neural network classifier based on
Dempster-Shafer theory». IEEE Trans on Systems, Man, and Cybernetics, Part
A: Systems and humans, 30(2): 131150, 2000.
[84] Z. A. Der, M. W. McGarvey et R. H. Shumway.
«Automatic interpretation of regional short period seismic signals using
the CUSUM-SA algorithms». Dans the 22th Annual Seismic Research
Symposium: Planning for Verification of and Compliance with the CTBT, 2000.
[85] Z. A. Der et R. H. Shumway. «Phase onset time
estimation at regional distances using the CUSUM-SA algorithm». Phy, Earth
and Planet, 113:227246, 1999.
[86] C. DeStefano, C. Sansone et M. Vento. «To reject or
not to reject: that is the question-an answer in caseof neural
classifiers». IEEE Trans on Systems, Man and Cybernetics-Part C:
applications and reviews, 30(1):8494, 2000.
[87] A. Doglas. «Seismic source identification: a review of
past and present research effort». eds. E.S. Husebye and S. Mykkeltveit,
1981.
[88] P. Domingos. «Unified bias-variance decomposition for
zero-one and squared loss». Dans 17th National Conference on Artificial
Intelligence, pp. 564569, 2000.
[89] D. L. Donoho. «High-dimensional data analysis: the
curses and blessings of dimensionality». Dans The American Mathematical
Society Conference »Math Challenges ofthe 21st Centry», 2000.
[90] F. U. Dowla. «Neural networks in seismic
discrimination». Dans Monitoring a Comprehensive Test Ban Treaty, volume
NATO ASI, Series E, 303, pp. 777789, 1995.
[91] F. U. Dowla, S. R. Taylor et R. W. Anderson.
«Seismic discrimination with artificial neural networks: preliminary
results with regional spectral data». Bulletin of the Seismological
Society of America, 80(5): 13461373, 1990.
[92] W. Duch et N. Jankowski. «Transfer functions:
hidden possibilities for better neural networks». Dans 9th European
Symposium on Artificial Neural Networks, pp. 8194, 2001.
[93] R. O. Duda, P. E. Hart et D. G. Stork. «Pattern
Classification». Wiley Interscience, second édition, 2000.
[94] R. Duin. «The combining classifier: to train or not
to train?». Dans The 16th International Conference on Pattern recognition
(ICPR), volume 2, pp. 765770, 2002.
[95] F. Dunand. «Pertinence du bruit de fond sismique
pour la caractérisation dynamique et l'aide du diagnostic sismique des
structures de génie civil». Thèse de doctorat,
Université Joseph Fourier, 2005.
[96] P. S. Dysart et J. J. Pulli. «Regional seismic
event classification at the NORESS array: seismological measurements and the
use of trained neural networks». Bulletin of the Seismological Society of
America, 80(6B):19101933, 1990.
[97] T. Eavis et N. Japkowicz. «A Recognition-Based
Alternative to DiscriminationBased Multi-Layer Perceptrons». Dans Advances
in Artificial Intelligence: 13th Biennial Conference of the Canadian Society
for Computational Studies of Intelligence, volume 1822 de Lecture Notes in
Computer Science, pp. 280292. Springer Berlin, 2000.
[98] E. Elvers. «Seismic identification by negative
evidence». Bulletin of the Seismological Society of America,
64(6):16711683, 1983.
[99] A. Estabrooks, T. Jo et N. Japkowicz. «A Multiple
Resampling Method for Learning from Imbalances Data Sets». Computational
Intelligence, 20(1):1836, 2004.
[100] S. E. Fahlman. «An empirical study of learning speed
in back-propagation networks ». Technical Report CMU-CS-88- 162,
Carnegie-Mellon University, 1988.
[101] S. Falsaperla, S. Graziani, G. Nunnari et S.
Spampinato. «Automatic classification of volcanic earthquakes by using
multi-layered neural networks». Natural Hazards, 13(3):205228, 1996.
[102] M. Fargé. «Wavelet transforms and their
applications to turbulence». Annu. Rev. Fluid Mech, 24:395457, 1992.
[103] T. E. Fawcett et F. Provost. «Adaptive fraud
detection». Data Mining and Knowledge Discovery, 1(3):291316, 1997.
[104] R. Fay, F. Schwenker C. Thiel et G. Palm.
«Hierarchical neural networks utilising Dempster-Shafer evidence
theory». Dans Artificial Neural Networks in Pattern Recognition, volume
4087, pp. 198209, 2006.
[105] X. Z. Fern et C. E. Brodley. «Random projection
for high dimensional data clustering: a cluster ensemble approach». Dans
20th International Conference on Machine Learning (ICML'03), pp. 186193,
2003.
[106] M. D. Fisk, C. COnrad et D. Jepsen. «Developement
of improved capabilities for depth determination». Dans the 23th Annual
Seismic Research Symposium: World Wide Monitoring of Nuclear Explosions, pp.
215224, 2001.
[107] P. Flandrin. «Time-frequency and time-scale».
Dans Proceedigns of the 4th Acoustic, Speech and Signal Processing Workshop on
Spectrum Estimation Modeling, pp. 77 80, 1988.
[108] P. Flandrin. «Wavelet analysis and synthesis of
fractional Brownian motion». IEEE Trans on Information Theory,
38(2):910916, 1992.
[109] P. Flandrin. «Temps-fréquence». Academic
Press, 1998.
[110] P. Flandrin et O. Rioul. «Affine Smoothing of the
Wigner-Ville distribution». Dans IEEE Int. conference on Acoustics,
Speech, and Signal Processing, Albuquerque, pp. 24552458, 1990.
[111] I. K. Fodor. «A survey of dimension reduction
techniques». Technical report UCRLID-148494, Lawrence Livermore National
Laboratory, 2002.
[112] D. Fradkin et D. Madigan. «Experiments with random
projections for machine learning». Dans 7th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, pp. 517522, 2003.
[113] P. Frankl et H. Maehara. «The Johnson-Lindenstrauss
lemma and the sphericity of some graphs». J. Comb. Theory Ser. A,
44(3):355362, 1987.
[114] G. Frazer et B. Boashash. «Multiple window
spectrogram and time-frequency distributions». Dans Proceedings of the
IEEE Int. Conf. Acoust. Speech Signal Process., volume 4, pp. 293296, 1994.
[115] J. H. Friedman. «On bias, variance, 0/1-loss, and the
curse-of-dimensionality». Data Mining and Knowledge Discovery, 1(1):5577,
1997.
[116] K. Fukunaga. «Introduction to statistical pattern
recognition». Academic Press, second édition, 1990.
[117] P. Gaillot. « Ondelettes continues en sciences de la
terre». Thèse de doctorat, Université de toulouse III,
2000.
[118] P. Gallinari et T. Cibas. « Practical complexity
control in multilayerperceptrons». Signal Processing, 74:2946, 1999.
[119] J. H. Gao, R. S. Wu et B. J. Wang. «A new type of
analyzing wavelet and its applications for extraction of instantaneous spectrum
bandwidth». Dans SEG Int'l Exposition and Annual Meeting,San Antonio,
Texas, 2001.
[120] S. Geman, E. Bienenstock et R. Doursat. «Neural
networks and the bias/variance dilemma». Neural Computation, 4:158,
1992.
[121] J. Gerbrands. «On the relationships between SVD, KLT,
and PCA». Pattern Recognition, 14(1-6), 1981.
[122] G. Giacinto. «Design of multiple classifier
systems». Thèse de doctorat, universitéde Salerno, 1998.
[123] W. Gilbert, J. Bassett et J. Persky. «Robust
voting». Public Choice, 99:299310, 1999.
[124] B. W. Gillespie et L. E. Atlas. «Optimizing
time-frequency kernels for classification». IEEE Trans on Signal
Processing, 49(3):485496, 2001.
[125] B. W. Gillespie et L. E. Atlas. « Optimizing
time-frequency kernels for classification». IEEE Trans on Signal
Processing, 49(3):485496, 2001.
[126] N. Goel, G. Bebis et A. Nefian. «Face recognition
experiments with random projection». Dans SPIE, Biometric Technology for
Human Identification II, volume 5779, pp. 426437, 2005.
[127] P. Goldstein et D. Dodge. «Depth mechnism
estimation using waveform modeling». Dans the 20th Annual
Seismic Research Symposium on Monitoring a Comprhensive Test Ban Treaty, pp.
238247, 1998.
[128] P. Goldstein, C. Schultz et S. Larsen. «The
influence of deep sedimentary basins, crustal thinning, attenuation and
topography on regional phases; selected examples from Eastern Mediterraneen and
Caspian sea regions». Dans the 19th Annual Seismic Research
Symposium on Monitoring a Comprhensive Test Ban Treaty, 1997.
[129] Y. Grandvalet. «Injection de bruit dans les
perceptrons multicouches». Thèse de doctorat, l'Université
de Technologie de Compiègne, 1995.
[130] A. Grossman et J. Morlet. «Decomposition of hardy
functions into square integrable wavelets of constant shape». SIAM J.
Math. Anal, 15(4):723736, 1984.
[131] P. Guillemain et R. Kronland-Martinet.
«Characterization of acoustic signals through continuous linear
time-frequency representations». IEEE Trans on Signal Processing,
48(4):561585, 1996.
[132] J. Hampshire et A. Waibel. «A novel objective
function for improved phoneme recognition using time delay neural
networks». IEEE Trans on Neural Networks, 1 (2):216228, 1990.
[133] L. K. Hansen, C. Liisberg et P. Salamon. «The
error-reject tradeoif». Open Systems & Information Dynamics,
4(2):159184, 1997.
[134] S. Hanson et D. Burr. «Minkowski-r
backpropagation: Learning in connectionist models with non-Euclidian error
signals». Dans Advances in Neural Information Processing Systems (NIPS),
pp. 348357., 1988.
[135] F. J. Harris. «On the use of windows for harmonic
analysis with discrete Fourier transform». Dans Proc. IEEE, volume 66, pp.
5183, January 1978.
[136] H. E. Hartse, W. S. Phillips, M. C. Fehler et L. S.
House. «Single-station discrimination using coda waves». Bulletin of
the Seismological Society of America, 85: 14641474, 1995.
[137] H. E. Hartse, S. R. Taylor, W. S. Phillips et G. E.
Randall. «An evaluation of generalized likelihood ratio outlier detection
to identification of seismic events in western china». Bulletin of the
Seismological Society of America, 87:551568, 1997.
[138] S. Haykin. «Neural networks - a comprehensive
foundation». Pearson Education, 9th indian reprint of the second
édition, 2005.
[139] S. Haykin et T. K. Bhattacharya. «Modular learning
strategy for signla detection in a nonstationary environment». IEEE Trans
on signal Processing, 45:16191637, 1997.
[140] R. Hecht-Nielsen. «Context vectors: general
purpose approximate meaning representations self-organized from raw data».
Dans Computation Intelligence: Im ating Life, pp. 4356, 1994.
[141] C. Heitz. «Optimum time-frequency representations for
the classification and detection of signals». Appl. Signal Process,
2(3):124143, 1995.
[142] E. Herrin et T. Goforth. «Phase matched-filters:
applications to the study of Rayleigh waves». Bulletin of the
Seismological Society of America, 67:12591275, 1977.
[143] F. Hlawasch. «Regulariry and unitarity of bilinear
time-frequency signal representations». IEEE Trans on Inform Theory,
38:8294, 1992.
[144] F. Hlawasch et P. Flandrin. « The wigner
distribution-theory and applications in signal processing», Chaptitre: The
interference structure of the wigner distribution and related time-frequency
signal representationsle, pp. 59133. Amsterdam (The Netherlands): Elsevier,
1997.
[145] F. Hlawatsch et G.F. Boudreaux-Bartels. «Linear and
quadratic time-frequency signal representations». IEEE Signal Processing
Magazine, 9:2167, 1992.
[146] F. Hlawatsch, A. Papandreou-Suppappola et G. F.
Boudreaux-Bartels. «The power classes of quadratic time-frequency
representations: A generalization of the hyperbolic and affine classes».
Dans 27th Asilomar Conf. on Signals, Systems and Computers, Pacific Grove, CA,
pp. 12651270, 1993.
[147] F. Hlawatsch, A. Papandreou-Suppappola et G. F.
Boudreaux-Bartels. «The hyperbolic class of quadratic time-frequency
representations. Part II. Subclasses, intersection with the affine and power
classes, regularity and unitarity». IEEE Trans on Signal Processing,
45:303315, 1997.
[148] F. Hlawatsch et G. Taubock. « Time-frequency
signal analysis and processing: a comprehensive reference», Chaptitre:
4.3:The covariance theory of time-frequency analysis, pp. 102113. Oxford (UK):
Elsevier, 2003.
[149] T. Ho. «A theory of multiple classifier systems and
its application to visual recognition». Thèse de doctorat, State
University of New York at Buffalo, 1992.
[150] T. K. Ho, J. J. Hull et S. N. Srihari. «Decision
Combination in Multiple Classifier Systems». IEEE Trans on Pattern Anal
ysis and Machine Intelligence, 16(1):6675, 1994.
[151] V. J. Hodge et J. Austin. «A Survey of outlier
detection methodologies». Artificial Intelligence Review, 22(2) :85126,
2004.
[152] K. Hornik. «Some new results on neural network
approximation». Neural Networks, 6(8):10691072, 1993.
[153] Y. S. Huang et C. Y. Suen. «A method of combining
multiple experts for the recognition of unconstrained handwritten
numerals». IEEE Trans on Pattern Analysis and Machine Intelligence,
17(1):9094, 1995.
[154] H. Byungho Hwang et C. Sungzoon. «Characteristics
of auto-associative MLP as a novelty detector». Dans IEEE International
Joint Conference on Neural Networks (IJCNN), volume 5, pp. 30863091, 1999.
[155] H. B. Hwarng et C. W. Chong. «A fast-learning
identification system for SPC: an adaptive resonance theory approach».
Dans Intelligent Engineering Systems Through Artificial Neural Networks, volume
4, pp. 10971102, 1994.
[156] J. Ilonen, P. Paalanen, J. K. Kamarainen et H.
Kalviainen. «Gaussian mixture pdf in one-class classification: computing
and utilizing confidence values». Dans 18th International Conference on
Pattern Recognition, volume 2, pp. 577580, 2006.
[157] P. Indyk et R. Motwani. «Approximate nearest
neighbors: towrds removing the curse of dimensionality». Dans 30th ACM
Symp. on Theory of Computing, pp. 604613, 1998.
[158] K. Inoue, K. Hara et K. Urahama. «Matrix principal
compoent analysis for image compression and recognition». Dans 1st Joint
Workshop on Machine Perception and Robotics, MPR, pp. 115120, 2005.
[159] H. Israelsson. «Stacking of waveforms for depth
estimation». Final report, Center for Seismic Studies, 1994.
[160] R. J. Jacobs. «Increased rates of convergence throght
learning rate adaptation». Neural Networks, 1:295307, 1988.
[161] N. Japkowicz. «Are we better off without counter
examples?». Dans the 1st International ICSC Con gress on Computational
Intelligence Methods and Applications (CIMA), pp. 242248, 1999.
[162] N. Japkowicz. « Concept-learning in the abscence of
counter-examples: an autoassociation-based approach to classification».
Thèse de doctorat, State University of New Jersey, 1999.
[163] N. Japkowicz, S. J. Hanson et M. A. Gluck. «Nonlinear
autoassociation is not equivalent to PCA». Neural Computation,
12(3):531545, 2000.
[164] N. Japkowicz, C. Myers et M. Gluck. «A novelty
detection approach to classification». Dans the 14th International Joint
Conference on Artificial Intelligence (IJCAI), pp. 518523, 1995.
[165] N. Japkowicz et S. Stephen. «The Class Imbalance
Problem: A Systematic Study». Intelligent Data Anal ysis, 6(5):429450,
2002.
[166] R. D. Jenkins et T. J. Sereno. «Calibration of
regional S/P amplitude-ratio discriminants». Pure Appl Geophys,
158(7):12791300, 2001.
[167] J. Jeong et W. J. Williams. «On the cross-terms in
spectrograms». IEEE Int. Symp. Circuits Syst, pp. 15651568, 1990.
[168] C. Ji et S. Ma. «Combinations of weak
classifiers». IEEE Trans on Neural Networks, 8(8):3242, 1997.
[169] E. M. Johansson, F. U. Dowla et D. M. Goodman.
«Backpropagation learning for multilayer feed-forward neural networks
using the conjugate gradient method». International Journal of Neural
Systems, 2(4):291301, 1991.
[170] W. Johnson et L. Lindenstrauss. «Extensions of
Lipschitz maps into a Hilbert space». Contemporary Mathematics, 26:189206,
1984.
[171] I. T. Joliffe. «Principal component analysis».
Springer-Verlag, New York, 1986.
[172] D. L. Jones et T. W. Parks. «A resolution comparaison
of several time-frequency representations». IEEE Trans on Signal
Processing, 40(2):413420, 1992.
[173] M. Joost et W. Schiffmann. «Speeding up
backpropagation algorithms by using cross-entropy combined with pattern
normalization». International Journal of Uncertainty, Fuzziness and
Knowledge- based Systems (IJUFKS), 6(2): 117126, 1998.
[174] S. Kadambe et G. F. Boudreaux-Bartels. «A
comparaison of the existence of crossterms in the Wigner distribution and
squared magnitude of the wavelet transform and the short-time Fourier
transforma». IEEE Trans on Signal Processing, 40(10): 24982517, 1992.
[175] G. Kaiser. «Physical wavelets and radar: a variation
approach to remote sensing». IEEE Antennas and Propagation Magazine,
38:1524, 1996.
[176] S. Kaski. «Dimensionality reduction by random
mapping». Dans Int. Joint Conf. on Neural Networks, volume 1, pp. 413418,
1998.
[177] M-A. Kasmi. «Etude des enregistrements sismiques
provenant des sautages de l'office chérifien des phosphates».
Mémoire de maîtrise, Faculté des Sciences de
Kénitra, 2001.
[178] R. C. Kemerait et A. F. Sutton. «A multidimensional
approach to seismic event depth estimation». Geoexploration, 20:113130,
1982.
[179] J. Kim, K. Kim, C. Nadal et C. Suen. «A
methodology of combining hmm and mlp classifiers for cursive word
recognition». Dans International Conference Document Analysis and
Recognition (ICDAR), volume 2, 2000.
[180] J. Kittler, M. Hatef, R. Duin et J. Matas. «On
combining classifiers». IEEE Trans on Pattern Anal ysis and Machine
Intelligence, 20(3):226239, 1998.
[181] J. M. Kleinberg. «Two algorithms for nearest-neighbor
search in high dimensions». Dans 29th ACM Symp. on Theory of Computing,
pp. 599608, 1997.
[182] E. M. Knorr, R. T. Ng et V. Tucakov. «Distance-based
outliers: algorithms and applications». VLDB Journal: Very Large Data
Bases, 8(3-4):237253, 2000.
[183] H. Kong, L. Wang, E. K. Teoh, X. Li, J-G. Wang et R.
Venkateswarlu. «Generalized 2D principal component analysis for face image
representation and recognition». Neural Networks, 18(5-6):585594, 2005.
[184] A. Kramer et A. Sangiovanni-Vincentelli.
«Efficient parallel learning algorithms for neural networks». Dans
Advances in Neural Information Processing Systems (NIPS), volume 1, pp. 4048,
1989.
[185] M. A. Kramer. «Non linear principal component
analysis using autoassociative neural networks». AIChE Journal,
37(2):233243, 1991.
[186] A. Krogh et J. A. Hertz. «A simple weight decay
can improve generalization». Dans Advances in Neural Information
Processing Systems (NIPS), volume 4, pp. 950957, 1992.
[187] B. Kroose et P. Van der Smagt. «An introduction to
neural networks». The University of Amsterdam, 5th édition,
1993.
[188] M. Kubat, R. Hote et S. Matwin. «Machine learning for
detection of oil spills in satellite radar image». Machine Learning,
30:195215, 1998.
[189] M. Kubat et S. Matwin. «Addressing the curse of
imbalanced training sets: onesided selection». Dans 14th International
Conference on Machine Learning (ICML), pp. 179186, 1997.
[190] P. Kumar et E. Foufoula-Georgiou. «Wavelet analysis
for geophysical applications». Reviews of Geophysics, 35(4): 385412,
1997.
[191] M. Kurimo. «Indexing audio documents by using latent
semantic analysis and SOM». Dans E. Oja et S. Kaski, éditeurs,
Kohonen Maps, pp. 363374, 1999.
[192] L. Lam et C. Y. Suen. «A theoretical analysis of
the application of majority voting topattern recognition». Dans 12th
International Conference on Pattern Recognition (ICPR), volume 2, pp. 418420,
1994.
[193] J. Laurikkala, M. Juhola et E. Kentala. «Informal
identification of outliers in medical data». Dans Intelligent Data Anal
ysis in Medicine and Pharmacology (IDAMAP), pp. 2024, 2000.
[194] T. Lay, G. Fan, R-S. Wu et X-B. Xie. «Path
correction for regional phase discriminant». Dans the 21 Annual Seismic
Research Symposium: Technologies for Monitoring the CTBT, pp. 510519, 1999.
[195] T. Lay, G. Fan et J. Zhang. «Path corrections for
regional phase discriminant». Dans the 21th Annual Seismic Research
Symposium: Planning for verification of and compliance with the Comprhensive
Test Ban Treaty, pp. 510519, 1999.
[196] Y. LeBorgne. «Bias-variance trade-off
characterization in a classification problem. what differences with
regression?». Technical report 534, Université Libre de Bruxelles,
2005.
[197] Y. LeCun, J. Denker et S. Solla. «Optimal brain
damage». Dans Advances in Neural Information Processing Systems (NIPS),
volume 2, pp. 598605, 1990.
[198] Y. Lee et S. H. Oh. «Input noise immunity of
multilayer perceptrons». ETRI Journal, 16(1):3543, 1994.
[199] P. Li, T. J. Hastie et K. W. Church. «Improving
Random Projections Using Marginal Information». Dans 19th Annual
Conference on Learning Theory (COLT), pp. 635 649, 2006.
[200] R. Lippmann. «An introduction to computing with
neural nets». IEEE ASSP Magazine, 4(2):422, 1987.
[201] K. Liu, H. Kargupta et J. Ryan. «Random
projection-based multiplicative data perturbation for privacy preserving
distributed data mining». IEEE Trans on Knowledge and Data Engineering,
18(1):92106, 2006.
[202] Y. Liu, N.V. Chawla, M.P. Harper, E. Shriberg et A.
Stolcke. «A study in machine learning from imbalanced data for sentence
boundary detection in speech». Computer Speech and Language, 20(4):468494,
2006.
[203] P. Loonis, E. H. Zahzah et J. P. Bonnefoy.
«Multi-classifiers neural network fusion versus Dempster-Shafer's
orthogonal rule». Dans IEEE International Conference on Neural Networks,
volume 4, pp. 21622165, 1995.
[204] P. Loughlin, J. Pitton et B. Hannaford.
«Approximating time-frequency density via optimal combinations of
spectrograms». IEEE Signal processing Letters, 1(12): 199202, 1994.
[205] P. J. Loughlin et L. Cohen. «The uncertainty
principle: global, local, or both?». IEEE Trans on Signal Processing,
52(5):12181227, 2004.
[206] D. MacKay. «A practical Bayesian framework for
backpropagation networks». Neural Computation, 4(3):448472, 1992.
[207] A. Magen. «Dimensionality reductions that preserve
volumes and distance to affine spaces, and their algorithmic
applications». Dans 6th International Workshop on Randomization and
Approximation Techniques, pp. 239253, 2002.
[208] G. Manson, G. S. Pierce, K. Worden, T. Monnier, P. Guy
et K. Atherton. «Longterm stability of normal condition data for novelty
detection». Dans SPIE's 7th Annual International Symposium on Smart
Structurs and Materials, volume 3985, pp. 323334, 2000.
[209] M. Markou et S. Singh. «Novelty detection: a
review-part 1: statistical approaches». Signal Processing, 83(12)
:24812497, 2003.
[210] M. Markou et S. Singh. «Novelty detection: a
review-part 2: neural network based approaches». Signal Processing,
83(12): 24992521, 2003.
[211] D. Marr. «Vision». W. H. Freeman, New York,
1982.
[212] S. Marsland, U. Nehmzow et J. Shapiro. «A real-time
novelty detector for a mobile robot». Dans European Advanced Robotics
Systems Conference, 2000.
[213] K. Matsuoka et J. Yi. «Backpropagation based on
the logarithmic error function and elimination of local minima». IEEE
International Joint Conference on Neural Networks (IJCNN), 2:11171121, 1991.
[214] G. Matz et F. Hlawatsch. «Wigner distributions
(nearly) everywhere: timefrequency analysis of signals, systems, random
processes, signal spaces, and frames». Signal Processing, 83:13551378,
2003.
[215] K. Mayeda. «mb(Lg Coda): a stable single station
estimator of magnitude». Bulletin of the Seismological Society of America,
83:851861, 1993.
[216] K. Mayeda et W. R. Walter. «Moment, energy, sress
drop and source spectra of western united states earthquakes from regional coda
envelopes». J Geophys Res, 101:1119511208, 1996.
[217] M. Mendel et A. Naor. «Some applications of Ball's
extension theorem». Dans Proc of the American Mathematical Society, volume
134, pp. 25772584, 2006.
[218] Y. Meyer. «Les ondelettes, algorithmes et
applications». Armand Colin, 1992.
[219] Y. Meyer, S. Jaffard et O. Rioul. «L'analyse par
ondelettes». Pour la Science ( French edition of Scientific American),
11:2837, 1987.
[220] M. F. Moller. «A scaled conjugate gradient algorithm
for fast supervised learning». Neural Networks, 6(4):525533, 1993.
[221] J. Moody. «Prediction risk and architecture
selection for neural networks». Dans From statistics to neural networks,
volume NATO ASI, series F, 136, pp. 147165, 1994.
[222] J. Morlet, G. Arens, E. Fourgeau et D. Giard.
«Wave propagation and sampling theory,Part 1: Complex signal and
scattering in multilayered media». Geophysics, 47(2):203221, 1982.
[223] J. R. Murphy, B. W. Barker et W. L. Rodi.
«Improved focal determination for use in nuclear explosion
monitoring». Dans the 24th Annual Seismic Research Symposium:
Nuclear Explosion Monitoring: Innovation and Integration, pp. 522529, 2002.
[224] J. R. Murphy, R. W. Cook et W. L. Rodi. «Improved
focal determination for use in CTBT Monitoring». Dans the 21th
Annual Seismic Research Symposium: Technologies for Monitoring the CTBT, pp.
5053, 1999.
[225] M. Musil et A. Plesinger. «Discrimination between
local microearthquakes and quarry blasts by multi-layer perceptrons and Kohonen
maps». Bulletin of the Seismological Society of America, 86(4):10771090,
1996.
[226] S. C. Myers et W. R. Walter. «Using epicentre
location to differentiate events from natural background seismicity». Dans
the 21th Annual Seismic Research Symposium: Technologies for
Monitoring the CTBT, pp. 731740, 1999.
[227] A. Nairac, N. Townsend, R. Carr, S. King, P. Cowley et
L. Tarassenko. «A system for the analysis of jet engine vibration
data». Integrated Computer-A ided Engineering, 6(1):5356, 1999.
[228] A. Narasimhamurthy. «A Framework for the Analysis
of Majority Voting». Dans 13th Scandinavian Conference Image Analysis
(SCIA), volume 2749, pp. 268274, 2003.
[229] S. H. Nawab et T. F. Quatieri. «Short-time Fourier
transform». Dans Advanced topics in Signal Processing, pp. 289337,
1988.
[230] L. V. Nikoforov et I. N Tikhonov. «Application of
change detection theory to seismic signal processing». Dans
»Detection of abrupt changes in signals et dynamicals systems»,
éditeurs, M. Basseville and A. Benviste. Springer, NewYork, 1986.
[231] L. V. Nikoforov, I. N Tikhonov et T. G. Mikhailova.
«Automatic on-line oricessing of seismic data: theory and
application». Far Eastern Dept of USSR Academy of Science, vladivostok,
USRR, 1989.
[232] A. H. Nuttall. «some windows with very good sidelobe
behavior». IEEE Trans on Acoustics, Speech and Signal Processing,
ASSP-29:8491, Feb 1981.
[233] S. H. Oh. «Improving the error backpropagation
algorithm with a modified error function». IEEE Trans on Neural Networks,
8(3):799803, 1997.
[234] S. H. Oh et Y. Lee. «A modified error function to
improve the error back-propagation algorithm for multi-layer perceptrons».
ETRI Journal, 17(1):1122, 1995.
[235] P. M. Oliveira et V. Barroso. «Uncertainty in the
time frequency plane». Dans Proc. IEEE SSAP, pp. 607611, 2000.
[236] C. H. Papadimitriou, P. Raghavan, H. Tamaki et S.
Vempala. «Latent semantic indexing: a probabilistic analysis». Dans 1
7th ACM Symp on the Principles of Database Systems, pp. 159168, 1998.
[237] A. Papandreou-Suppappola, F. Hlawatsch et G. F.
Boudreaux-Bartels. «The hyperbolic class of quadratic time-frequency
representations. Part I. Constant-Q wraping, the hyperbolic paradigm,
properties and members». IEEE Trans on Signal Processing, 41:34253444,
1993.
[238] A. Papandreou-Suppappola, F. Hlawatsch et G. F.
Boudreaux-Bartels. «Power class time-frequency representations:
interference geometry, smoothing and implementation». Dans IEEE Symposium
on Time-Frequency and Time-Scale Analysis, pp. 193196, Paris, France, 1996.
[239] A. Papandreou-Suppappola, F. Hlawatsch et G. F.
Boudreaux-Bartels. «Quadratic time-frequency representations with scale
covariance and generalized time-shift covariance: a unified framework for the
affine, hyperbolic, and power classes». Digital Signal Processing, 8:348,
1998.
[240] J. R. Parker. «Rank and response combination from
confusion matrix data». Information Fusion, 2(2):113120, 2001.
[241] M. E. Pasyanos, W. R. Walter, S. R. Ford et S. E.
Hazler. «Improving mb:Ms discrimination using phase matched filters
derived from regional group velocity tomgraphy». Dans the 21th
Annual Seismic Research Symposium: Technologies for Monitoring the CTBT, pp.
565571, 1999.
[242] H. J. Patton. «Investigations into regional
magnitude scaling: transportability and mb:Ms relationships based on Nuttli's
mb(Lg)». Dans the 21th Annual Seismic Research Symposium:
Technologies for Monitoring the CTBT, pp. 572578, 1999.
[243] T. Petsche, A. Marcantonio, C. Darken, S. Hanson, G.
Kuhn, et I. Santoso. «A neural network autoassociator for induction motor
failure prediction». Dans Neural Information Processing Systems (NIPS),
volume 8, pp. 924930, 1995.
[244] W. S. Phillips. «Empirical path corrections for
regional phase amplitudes». Bulletin of the Seismological Society of
America, 89:384393, 1999.
[245] W. S. Phillips, G. E. Randall et S. R. Taylor.
«Reginal phase path effects in central china». Geophys. Res. Lett,
25:27292732, 1998.
[246] D. Plafcan, E. Sandvol, D. Seber, M. Barazangi, A.
Ibenbrahim et T. Cherkaoui. «Regional discrimination of chemical
explosions and earthquakes: A case studt in Morocco». Bulletin ofthe
Seismological Society of America, 87(5):11261139, 1997.
[247] D. C. Plaut, S. J. Nowlan et G. E. Hinton.
«Experiments on learning by back propagation». Technical Report
CMU-CS-86-126, Carnegie-Mellon University, 1986.
[248] M. Plutowski, S. Sakata et H. White.
«Cross-Validation Estimates IMSE». Dans Advances in Neural
Information Processing Systems (NIPS), volume 6, pp. 391398, 1994.
[249] P. W. Pomeroy, W. J. Best et T. V. McEvilly. «Test
ban treaty verification with regional data-a review». Bulletin of the
Seismological Society of America, 72(6): 89129, 1983.
[250] S. Ramaswamy, R. Rastogi et K. Shim. «Efficient
algorithms for mining outliers from large data sets». Dans ACM SIGMOD
International Conference on Management of Data, pp. 427438, 2000.
[251] J. M. Rassias. «On the Heisenberg-Pauli-Weyl
inequality». Journal of Inequalities in Pure and Applied Mathematics,
5(1), 2004.
[252] J. M. Rassias. «On the Heisenberg-Weyl
inequality». Journal of Inequalities in Pure and Applied Mathematics,
6(1), 2005.
[253] D. T. Reiter et R. H. Shumway. «Improved seismic
event depth estimation using cepstral analysis». Dans the 21th Annual
Seismic Research Symposium: Technologies for Monitoring the CTBT, pp. 599606,
1999.
[254] N. Ricker. «The form and nature of seismic waves and
the structure of seismograms». Geophysics, 5:348366, 1940.
[255] M. Riedmiller et H. Braun. «A direct adaptive
method for faster backpropagation learning: the RPROP algorithm». Dans
IEEE International Conference on Neural Networks, volume 1, pp. 586591,
1993.
[256] M. Rimer et T. Martinez. «CB3: an adaptive error
function for backpropagation training». Neural Processing Letters, 24(1)
:8192, 2006.
[257] M. Rimer et T. Martinez. «Classification-based
objective functions». Machine Learning, 63(2):183205, 2006.
[258] O. Rioul et P. Flandrin. «Time-scale energy
distributions: A general class extending wavelet transforms». IEEE Trans
on Signal Processing, 40:17461757, 1992.
[259] S. Roberts. «Extreme value statistics for novelty
detection in biomedical signal processing». IEE Proceedings Science,
Technology and Measurement, 147(6):363 367, 2000.
[260] S. Roberts et L. Tarassenko. «A probabilistic
resource allocating network for novelty detection». Neural Computation,
6(2):270284, 1994.
[261] A. J. Rodgers, W. R. Walter, C. A. Schultz, S. C. Myers
et T. Lay. «Acomparison of methodologies for representing path effects on
regional P/S discriminant». Bulletin of the Seismological Society of
America, 89:394408, 1999.
[262] G. Romeo. «Seismic signal detection and classfication
using artificial neural networks ». Annali di geophysica, XXXVII (3)
:343353, 1994.
[263] A. Roueff. «Traitement des signaux sismiques
multicapteurs et multicomposantes, utilisant les représentations
temps-fréquence». Thèse de doctorat, INPG, Grenoble,
2003.
[264] D. E. Rumelhart, G. E. Hinton et R. J. Williams.
«Learning internal representations by error propagation». Dans
Parallel Distributed Processing, volume 1: Foundations, Chaptitre: 8, pp.
318362. MIT Press, 1986.
[265] D. Ruta et B. Gabrys. «A theoretical analysis of
the limits of majority voting errors for multiple classifier systems».
Pattern Analysis and Applications, 5(4):333350, 2002.
[266] J. Ryan, M. J Lin et R. Miikkulainen. «Intrusion
detection with neural networks». Dans Conference on Advances in Neural
Information Processing Systems, volume 10, pp. 943949, 1998.
[267] P. A. Rydelek et L. Hass. «On estimating the
amount of blasts in seismic catalogs with Schuster's method». Bulletin of
the Seismological Society of America, 84: 12561259, 1994.
[268] O. D. Sahin, A. Gulbeden, F. Emekci, D. Agrawal et A.
El Abbadi. «PRISM: indexing multi-dimensional data in P2P networks using
reference vectors». Dans 13th Annual ACM International Conference on
Multimedia, pp. 946955, 2005.
[269] S. Scarpetta, F. Giudicepietro, C. Ezin, S. Petrosino,
E. DelPezzo, M. Martini et M. Marinaro. «Automatic classification of
seismic signals at Mt. Vesuvius volcano,
Italy using neural networks». Bulletin of the Seismological
Society of America, 95 (1):185196, 2005.
[270] C. A. Schultz, S. C. Myers, J. Hipp et C. J. Young.
«Non stationary bayesian kriging: a predictive technique ton generate
spatial corrections for seismic detection, location and identification».
Bulletin of the Seismological Society of America, 88:12751288, 1998.
[271] H. Schwenk. «The diabolo classifier». Neural
Computation, 10:21752200, 1998.
[272] A. Seghouane, Y. Moudden et G. Fleury.
«Regularizing the effect of input noise injection in feedforward neural
networks training». Neural Computing and Applications, 13(3):248254,
2004.
[273] K. K. Selig. «Uncertainty principles revisited».
Technical report, Technische Univeristat Munchen, 2001.
[274] S. Shekhar, C. T. Lu et P. Zhang. «Detecting
graph-based spatial outliers». Intelligent Data Anal ysis, 6(5):451468,
2002.
[275] Y. Shimshoni et N. Intrator. «Classification of
seismic signals by integrating ensembles of neural networks.». IEEE Trans
on Signal Processing, 46(1-4):11491201, 1998.
[276] S. Shinde et V. M. Gadre. «An uncertainty
principle for real signals in the fractional Fourier transform domain».
IEEE Trans on Signal Processing, 49(11):25452548, 2001.
[277] R. H. Shumway, D. R. Baumgardt et Z. A. Der. «A
cepstral F-statistic for detecting delay-fired seismic signals ».
Technometrics, 40:100110, 1998.
[278] A-H. Siddiqi. «Applied functional analysis».
Marcel Dekker, New York, 2004.
[279] S. Singh et M. Markou. «An approach to novelty
detection applied to the classification of image regions». IEEE on
Knowledge and Data Engineering, 16(4):396407, 2004.
[280] S. Singh et M. Markou. «A neural network-based
novelty detector for image sequence analysis». IEEE Trans on Pattern Anal
ysis and Machine Intelligence, 28(10):1664 1677, 2006.
[281] J. Sloberg et L. Ljung. «Overtraining, regularization
and searching for minimum in neural networks». Int. J. Control,
62(6):13911407, 1995.
[282] H. Sohn, K. Worden et C. R. Farrar. «Novelty
detection under changing environ- mental conditions». Dans SPIE's 8th
Annual International Symposium on Smart Structurs and Materials, volume 4330,
pp. 108118, 2001.
[283] J. L. Stevens et S. Day. «the physical basis of
mb:Ms and variable frequency magnitude methods for earthquake/explosion
discrimination». J. Geophys. Res, 90: 30093020, 1985.
[284] J. L. Stevens et K. L. McLaughlin. «Improved
methods for regionalized surface wave analysis». Rapport technique
PL-TR-972175, Maxwell Technologies Technical Report to Phillips Laboratory,
1997.
[285] R. J. Streifel, R. J. Maks et M. A. El-Sharkawi.
«Detection of shorted-turns in the field of turbine- generator rotors
using novelty detectors- development and field tests». IEEE Trans on
Energy Conversion, 11(2):312317, 1996.
[286] C. Surace et K. Worden. «A novelty detection
method to diagnose damage in structures: an application to an offshore
platform». Dans The 8th International Conference of Offshore and Polar
Engineering, volume 4, pp. 6470, 1998.
[287] M. Talagrand. «Concentration of measure and
isoperimetric inequalities in product spaces». Publications
Mathématiques de l'IHES, 81:73205, 1995.
[288] K. Tan. «The application of neural networks to
UNIX computer security». Dans IEEE International Conference on Neural
Networks (ICNN), volume 1, pp. 476481, 1995.
[289] C. Tang, S. Dwarkadas et Z. Xu. «On scaling latent
semantic indexing for large peer-to-peer systems». Dans 27th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval, pp. 112121, 2004.
[290] J. Tang, Z. Chen, A. W. Fu et D. Cheung. «A robust
outlier detection scheme in large data sets». Dans 6th Pacific-Asia
Conference on Knowledge Discovery and Data Mining, 2002.
[291] L. Tarassenko. «Novelty detection: from patient to
jet engines». Dans International Conference on Artificial Neural Networks
(ICANN),Invited Talk, 1999.
[292] L. Tarassenko, P. Hayton, N. Cerneaz et M. Brady.
«Novelty detection for the identification of masses in mammograms».
Dans IEE International Conference on Artificial Neural Networks, volume 4, pp.
442447, 1995.
[293] D. M. J. Tax. « One-class classification».
Thèse de doctorat, Delft University of Technology, 2001.
[294] D. M. J Tax et R. P. W. Duin. «Outlier detection
using classifier instability». Dans the Joint IAPR International Workshops
on Advances in Pattern Recognition, volume 1451, pp. 593601, 1998.
[295] O. Taylor et D. Addison. «Novelty detection using
neural network technology». Dans Condition Monitoring and Diagnostic Eng.
Management Congress (COMA DEN), 2000.
[296] S. R. Taylor et H. E. Hartse. «An evaluation of
generalized likelihood ratio out- lier detection to identification of seismic
events in western china». Bulletin of the Seismological Society of
America, 87:82483 1, 1997.
[297] S. R. Taylor et H. E. Hartse. «A procedure for
estimation of source and propagation amplitude corrections for regional seismic
discriminants». J. Geophys. Res, 103: 27812789, 1998.
[298] S. R. Taylor et A. A. Velasco. « User's manual for
SPAC 1.0: A matlab program for computing source and pth amplitude
corrections». Los Alamos National Laboratory, NM, LA-UR-98-4363, 1998.
[299] S. R. Taylor, A. A. Velasco, H. E. Hartse, W. Phillips,
W. R. Walter et A. J. Rodgers. «Amplitude corrections for regional seismic
discriminant». Dans the 21 th
Annual Seismic Research Symposium: Technologies for Monitoring
the CTBT, pp. 646655, 1999.
[300] R. Tibshirani. «Bias, variance and prediction error
for classification rules». Technical report, University of Toronto,
1996.
[301] T. Tollenaere. «SuperSAB: fast adaptive back
propagation with good scaling properties». Neural Networks, 3:561573,
1990.
[302] C. Torrence et G. P. Compo. «A practical guide to
wavelet analysis». Bull. Amer. Meteor. Soc, 79:6178, 1998.
[303] B. Torrésani. «Analyse continue par
ondelettes». Savoirs Actuels InterEditionsCNRS Editions, 1995.
[304] M. Van-Erp et L. Schomaker. «Variants of Borda
count method for combining ranked classifier hypotheses». Dans 7th
International Workshop on Frontiers in Handwriting Recognition, pp. 443452,
2000.
[305] M. Van-Erp, L. Vuurpijl et L. Schomaker. «An
overview and comparison of voting methods for pattern recognition». Dans
8th International Workshop on Frontiers in Handwriting Recognition, pp. 195200,
2002.
[306] A. Van-Ooyen et B. Nienhuis. «Improving the
convergence of the backpropagation algorithm». Neural Networks, 5:465471,
1992.
[307] G. C. Vasconcelos, M. C. Fairhurst et D. L. Bisset.
« Investigating feedforward neural networks with respect to the rejection
of spurious patterns». Pattern Recognition Letters, 16(2):207212, 1995.
[308] M. Verleysen. «Machine learning of
high-dimensional data: local artificial neural networks and the curse of
dimensionality». Thèse d'agrégation,
Universitécatholique de Louvain, 2001.
[309] M. Verleysen. «Limitations and future trends in
neural computation», Chaptitre: Learning high-dimensional data, pp.
141162. IOS Press, 2003.
[310] M. Verleysen, D. François, G. Simon et V. Wertz.
«On the effects of dimensionality on data analysis with neural
networks». Dans 7th International Work-Conference on Artificial and
Natural Neural Networks3, volume 2, pp. 105112, 2003.
[311] B. K. Verma, P. Gader et W. Chen. «Fusion of multiple
handwritten word recognition techniques». Pattern Recognition Letters,
22(9):991998, 2001.
[312] J. S. Walker. «Fourier analysis and wavelet
analysis». Notices of the AMS, 44(6): 658670, 1997.
[313] W. R. Walter, K. Mayed et H. J. Patton. «Phase and
spectral ratio discriminant between NTS earthquakes and explosion Part I:
empirical observations». Bulletin of the Seismological Society of America,
85:10501067, 1995.
[314] W. R. Walter, A. J. Rodgers, , M. E. Pasyanos, K.
Mayeda et A. Sicherman. «Identification in western Eurasia: regional
body-wave corrections and surface-wave tomography models to improve
discrimination». Dans the 24th Annual Seismic Research Symposium: Nuclear
Explosion Monitoring: Innovation and Integration, pp. 592600, 2002.
[315] W. R. Walter, A. J. Rodgers, K. Mayeda et S. R. Taylor.
«Regional body-wave discrimination research». Dans the 22th Annual
Seismic Research Symposium: Planning for verification of and compliance with
the Comprhensive Test Ban Treaty, 2000.
[316] W. R. Walter et S. R. Taylor. «A revised magnitude
and distance correction (MDAC2) procedure for regional seismic
discriminants». Lawrence Livermore National Laboratory, UCRL-ID- 146882,
2001.
[317] D. Wang, J. Keller, C. Carson, K. McAdoo-Edwards et C.
Bailey. «Use of fuzzylogic-inspired features to improve bacterial
recognition through classifier fusion». IEEE Trans on Systems, Man, and
Cybernetics, Part B: Cybernetics, 28(4):583 591, 1998.
[318] L. Wang, X. Wang et J. Feng. «On image matrix
based feature extraction algorithms». IEEE Trans on Systems, Man, and
Cybernetics, Part B, 36(1):194197, 2006.
[319] L. Wang, X. Wang, X. Zhang et J. Feng. «The
equivalence of two-dimensional PCA to line-based PCA». Pattern Recogn.
Lett., 26(1):5760, 2005.
[320] Q. Wang et L. S Lopes. «One-class learning for
human-robot interaction». Dans BASYS, pp. 489498, 2004.
[321] M. K. Weir. «A method for self-determination of
adaptive learning rates in backpropagation». Neural Networks, 4:371379,
1991.
[322] W. J. Williams, M. L. Brown et A. O. Hero.
«Uncertainty, information, and timefrequency distributions». Dans
Proc. SPIE, volume 1566, pp. 144156, 1991.
[323] C. Wilson, J. Blue et O. Omidvar. «Improving
neural network performance for character and fingerprint classification by
altering network dynamics». Dans The World Congress on Neural Networks,
1995.
[324] C. R. D. Woodgold. «Wide-aperture beamforming of
depth phases by timescale contraction». Bulletin of the Seismological
Society of America, 89:165177, 1991.
[325] K. Worden, G. Manson et D. J. Allman.
«Experimental validation of structural health monitoring methodology I:
novelty detection on a laboratory structure». Journal of Sound and
Vibration, 259:323343, 2003.
[326] L. Xu, A. Krzyzak et C. Y. Suen. «Methods of
combining multiple classifiers and their applications tohandwriting
recognition». IEEE Trans on Systems, Man and Cybernetics, 22(3):418435,
1992.
[327] R. R. Yager, M. Fedrizzi et J. Kacprzyk. «Advances in
the Dempster-Shafer theory of evidence». Wiley, 1994.
[328] J. Yang et J-Y. Yang. «From image vector to matrix: a
straightforward image projection technique-IMPCA vs. PCA». Pattern
Recognition, 35(9):19971999, 2002.
[329] J. Yang, D. Zhang, A. F. Frangi et J-Y. Yang.
«Two-dimensional PCA: a new approach to appearance-based face
representtation and recognition». IEEE Trans on Pattern Anal ysis and
Machine Intelligence, 26(1):131137, 2004.
[330] Y. Yang, J. Zhang, J. Carbonell et C. Jin.
«Topic-conditioned novelty detection». Dans 8th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, pp. 688693,
2002.
[331] D. Y. Yeung et C. Chow. «Parzen window network
intrusion detectors». Dans 16th International Conference on Pattern
recognition, volume 4, pp. 385388, 2002.
[332] Y.Huang, K. Liu et C. Suen. «The combination of
multiple classifiersby neural network approach». International Journal of
Pattern Recognition and Artificcial Intelligence, 9(3):579597, 1995.
[333] B. L. Zhang et G. Gupta. «Anomaly detection in
internet intrusion detection by hybrid of self-organization and kernel
auto-associators». Dans International Conference on Intelligent Systems
and Knowledge Engineering (ISKE2006), 2006.
[334] D. Zhang, S. Chen et Z-H Zhou. «Learning the kernel
parameters in kernel minimum distance classifier». Pattern Recognition,
39(1): 133135, 2006.
[335] D. Zhang et Z-H. Zhou. « (2D)2PCA:
Two-directional two-dimensional PCA for efficient face representation and
recognition». Neurocomputing, 69(1-3):24231, 2005.
[336] H. Zhang, W. Huang, Z. Huang et B. Zhang. «A
kernel autoassociator approach to pattern classification». IEEE Trans on
Systems, Man and Cybernetics,Part B, 35 (3):593606, 2005.
[337] T-R. Zhang, S. Y. Schwartz et T. Lay.
«Multivariate analysis of waveguide effects on short-period regional wave
propagation in Eurasia and its application in seismic discrimination». J.
Geophys. Res, 99(B11):714725, 1994.
[338] Y. Zhang, , A. Luo et Y. Zhao. «Outlier detection
in astronomical data». Dans Proceedings of the SPIE, Optimizing Scientific
Return for Astronomy through Information Technologies, volume 5493, pp. 521529,
2004.
[339] Z-H. Zhou et X-Y. Liu. «Training cost-sensitive
neural networks with methods addressing the class imbalance problem». IEEE
Trans on Knowledge and Data Engineering, 18(1):6377, 2006.
[340] M. H. Zweig et G. Campbell. «Receiver-operating
characteristic (ROC) plots: a fundamental evaluation tool in clincal
medcine». Clincal Chemistry, 39(4):561577, 1993.
ANNEXE I LE LOGICIEL MSSSA
Le logiciel Marocain d'Analyse des Signaux Sismiques (MSSSA:
Moroccan Software for Seismic Signals Analysis) est un logiciel conçu et
réalisé au cours de ce mémoire avec une collaboration du
LAIT de l'EMI et l'ING du CNRST. Ce logiciel est composé dans sa
première version de cinq parties:
1. MSSSA-Daq permet l'acquisition et l'archivage des
données sismiques (figure (1.1));
2. MSSSA-Reader permet de lire les données acquis
MSSSA-daq et les données du système DataSeis II de Kinemetrics
(figures (1.2) et (1.3));
3. MSSSA-Converter permet de convertir les données en
certains formats sismiques internationaux (figure (1.4));
4. MSSSA-Recognition permet la reconnaissance des signaux
sismiques en rejetant les bruits et certains signaux acquis qui pourraient
perturber l'étape de discrimination (figure (1.5));
5. MSSSA-Discrimination permet la discrimination automatique et
manuelle des signaux sismiques (figure (1.6)).
Pour plus de détails sur l'utilisation de ce logiciel,
le matériel nécessaire et les compétences requises, le
lecteur pourra se référer à [33]. Pour les fondements
théoriques et les algorithmes utilisés, ce mémoire permet,
d'une part de les clarifier et, d'autre part, de montrer l'influence des
différents paramètres sur les performances du système.
Nous notons que ce
(a) (b)
Figure I.1: Interface d'entrée (a) et interface
principale (b) de MSSSA-Daq
(a) (b)
Figure I.2: Interface d'entrée (a) et interface principale
(b) de MSSSA-Reader pour le format daq
(a) (b)
(a) (b)
Figure I.4: Interface d'entrée (a) et interface
principale (b) de MSSSA-Conveter
(a) (b)
Figure I.5: Interface d'entrée (a) et interface
principale (b) de MSSSA-Recognition
(a) (b)
ANNEXE II
L'ALGORITHME DE RETRO-PROPAGATION
L'apprentissage du perceptron multicouches consiste à
adapter les poids synaptiques des neurones, de manière à ce que
le réseau soit capable de réaliser une transformation
donnée, représentée par un ensemble d'exemples
constitué d'une suite de N vecteurs
d'entrées Xk = [xk1 xk2 · · ·
xkd]' associée à une autre suite de vecteurs de
sorties désirées Tk = [t(k)
1 t(k)
2 · · · t(k)
hL ]'.
Lorsque le critère des Moindres Carrés de l'Erreur
est utilisé pour définir la fonction de coût à
minimiser, celle-ci s'exprime:
XhL i=1
XN k=1
1
E=
2
~
y(k)
L,i - t(k)
i
2
(II.1)
où:
· N est le nombre d'exemples d'apprentissage;
· L est le nombre de couches du réseau;
· hl est le nombre de neurons de la couche l;
· yl,i désigne la sortie du neurone i de
la couche l lorsque le vecteur Xk est présenté(k)
à l'entrée du réseau;
· t(k) ireprésente la valeur
désirée de la sortie pour le neurone i de la dernière
couche
lorsque le vecteur Xk est présenté à
l'entrée du réseau.
La minimisation de cette fonction de coût se fait d'une
manière itérative, en utilisant une méthode du gradient.
Pour le cas d'un apprentissage en ligne dit aussi rétro- propagation
stochastique [11], la démarche standard suit les points ci-dessous.
A chaque itération, et pour tous les
éléments de la base d'apprentissage, un vecteur d'entrée
Xk = [xk1 xk2 · · · xkd]' ainsi que sa sortie
désirée Tk = [t(k)
1t(k)
2 · · · t(k)
hL ]'sont
présentés au système. L'erreur localement
effectuée est alors calculée selon:
E(k) = 1
2
|
XhL i=1
|
~
y(k)
L,i - t(k)
i
|
|
2
(11.2)
|
|
Les poids synaptiques qui relient les neurones entre eux peuvent
ensuite être adaptés en fonction de la relation:
?E(k)
wl,ij(ô + 1) = wl,ij(ô) - ç (11.3)
?wl,ij
où çest le taux d'apprentissage et ?E(k)
?wl,ij la descente du gradient (gradient descent) ou gradient
instantanée de l'erreur. Avant de continuer, nous adoptons les notation
suivantes:
· ?l,i: la fonction d'activation du neurone i de la couche
l;
· W l,i = [èl,i wl,i1 wl,i2 · · ·
wl,ihl_1]': le vecteur de poids du neurone i de la couche l
augmenté de son seuil;
· Xk = [-1 xk1 xk2 · · ·
xkd]': est le vecteur des caractéristiques de
l'élément présentéà l'entrée
augmenté par le -1 à l'indice 1;
· Y (k)
l = [-1 y(k)
l,1 y(k)
l,2 · · · y(k)
l,hl]': est le vecteur des sorties augmenté par le -1
à l'indice 1 lorsque Xk est présenté à
l'entrée.
Les valeurs de yki sont déterminées
à partir des sorties des neurones de la couche précédente
par:
yl,i = ?l,i(W'
(k)l,iY (k)
l-1) (11.4)
en posant:
ul, i = W '
(k)l,iY (k) (11.5)
l-1
cette équation s'écrit:
Le gradient instantané de l'erreur peut s'exprimer:
(11.7)
Ôu(k) Ôwl,ij
l,i
ÔE(k)
ÔE(k) Ôu(k)
l,i
Ôwl,ij
En posant:
8(k)
l,i , ÔE(k) (11.8)
Ôu(k)
l,i
où 8(k)
l,i est appelé gradient local de l'erreur, et en tenant
compte que de 11.5 on a:
Il vient ainsi:
|
Ôu(k)
l,i
Ôwl,ij
|
= y(k) (11.9)
l-1,j
|
ÔE(k)
|
= 8(k)
l,i y(k) (11.10)
l-1,j
|
Ôwl,ij
|
Le gradient local 11.8 peut se développer selon:
ÔE(k)
|
|
hl+1X q=1
|
ÔE(k)
|
Ôu(k)
l+1,q
|
(11.11)
|
|
=
|
|
|
Ôu(k)
l,i
|
Ôu(k)
l+1,q
|
Ôu(k)
l,i
|
ou encore:
Ôy(k)
l,i (11.12)
Ôy(k) Ôu(k)
l,i l,i
Ôu(k)
l+1,q
ÔE(k)
ÔE(k)
=
hl+1X q=1
Ôu(k)
l+1,q
Ôu(k)
l,i
et comme on a de (11.8) ?E(k) l,i = wl+1,qi et de (11.6)
?y(k)
?u(k)
l+1,q = 8(k)
l+1,q, de (II.5) ?u(k)
l+1,q l,i l, i ),
l,i = · ?(u(k) ?y(k)
?u(k)
il vient:
8(k)
l,i = · ?(u(k)
l ,i )
|
hl+1X q=1
|
wl+1,qi8(k) (11.13)
l+1,q
|
C'est l'expression (11.13) qui a donné son nom à
l'algorithme d'apprentissage du perceptron multicouches:
rétro-propagation du gradient de l'erreur. En effet, le gradient
local8(k)
l,i , d'un neurone est calculé à partir des
gradients locaux 8(k)
l+1,q, des neurones de la couche ultérieure. Le calcul
des gradients commence donc par la dernière couche, et est ensuite
propagé de celle-ci vers la première couche du réseau.
sortie. De l'expression (11.8), il vient:
= ?E(k) ?y(k)
ä(k) L,i
L,i = ?E(k) (11.14)
?u(k) ?y(k) ?u(k)
L,i L,iL,i
Dans le cas de l'utilisation du critère (11.2) est
utilisé, alors on:
?E(k)
|
= yL,i - t (k)
(k) (11.15)
i
|
?y(k)
L,i
|
et l'expression du gradient local pour la couche de sortie est
donné par:
ä(k)
L,i = (y(k)
L,i - t(k)
i ) _?(u(k)
l,i ) (11.16)
Les formules (11.10), (11.13) et (11.16) permettent de calculer
facilement la valeur de la modification qui doit être apportée
à chaque poids du réseau.
|