CHAPITRE 4. MÉTHODOLOGIE ET
IMPLÉMENTATION
FIGURE 4.8 - Illustration présentant la
différence entre le regroupement avec chevauchement et le regroupement
sans chevauchement
B' B - A
Si Card(A') == 0 or Card(B')
== 0 Alors
D(A',B') oc
Sinon >I >I
1
D(A', B') yEB
D(x, y)
Card(A').Card(B')
xEA
La figure 4.9 présente un exemple d'application de
l'algorithme de regroupement avec chevauchement sur sept protéines de
cinq gènes.
Algorithme détaillé de regroupement avec
chevauchement hiérarchique Définition des
entrées
DistanceMatrix D :
est une matrice de similarité qui contient les mesures de
similarité entre chaque paire de séquences. C'est donc une
matrice symétrique. Les valeurs de cette matrice sont normalisées
entre 0 et 1, avec 1 représentant la plus grande similarité;
SimilarityLevel á :
est une valeur de similarité comprise entre 0 et 1;
Header h : est un
tableau associatif, qui associe à chaque gène la liste de ses
protéines. Il est utile pour satisfaire la contrainte que chaque groupe
doit contenir au plus une protéine de chaque gène.
L'algorithme 4.1 décrit formellement la méthode.
4.2.5 Construction d'un groupe de
référence
Une fois les groupes obtenus, on choisit un groupe de
référence de cardinalité maximale. Si la
cardinalité de ce cluster est strictement inférieure au nombre
de
|