CHAPITRE 4: TOLERANCE AUX PANNES
Le concept de tolérance aux pannes se
réfère à une méthode de conception d'un
système de telle façon qu'il puisse continuer à
fonctionner, potentiellement de manière réduite, au lieu de
tomber complètement en panne dès que l'un de ses composants ne
fonctionne plus correctement.
Noter la différence entre :
· les systèmes informatiques conçus pour ne
pratiquement pas être ralentis en cas de défaillance
matérielle ou logicielle ;
· les critères définis pour
représenter la fiabilité. Section 1:
Critères de tolérance aux pannes
Aucune machine, y compris en électronique et en
informatique, n'est fiable à 100%, ni inusable. Le fabricant, ou un
laboratoire d'essais indépendant, définit, après des tests
traduisant une utilisation plus ou moins sévère, un
critère de tolérance aux pannes de ladite
machine. Ce critère s'exprime soit en un nombre moyen d'heures
entre panne (en anglais MTBF, ou mean time between
failure), soit en un nombre d'heures de fonctionnement avant la « fin
de vie » de la machine. On lui associe en général un autre
paramètre, le MTTR (mean time to repair), le
temps moyen de réparation. La combinaison des deux
permet d'établir le taux de disponibilité
prévisible.
La « disponibilité » correspond donc à :
et peut
s'exprimer en pourcentage (%).
Mise en place d'un système de réplication de base
de données entre sites distants Par BILEY NDONGO ALPHONSE ROSELIN
Section 2: Degrés de gravité des
défaillances
1. panne franche (« fail stop ») :
soit le système fonctionne normalement (les résultats sont
corrects), soit il ne fait rien. Il s'agit du type de panne le plus simple ;
2. panne transitoire : des messages sont perdus
en entrée ou en sortie ou les deux. Elle est considérée
comme une panne temporelle de durée infinie ;
3. panne temporelle : le temps de
réponse du système dépasse les exigences des
spécifications ;
4. panne byzantine : le système donne
des résultats aléatoires. Section 3:
Méthodes de tolérance aux pannes
> Les composants tolérants aux
pannes. Si chaque composant, à son tour, peut continuer
à fonctionner lorsque l'un de ses sous-composants est en panne, alors le
système entier pourra continuer à fonctionner. Utiliser le
véhicule de l'exemple, certaines voitures ont des pneus run flat
(pour " roule à plat "), qui contiennent de la gomme solide
à l'intérieur pour leur permettre d'être encore
utilisés lorsque la chambre à air est crevée. Ils peuvent
seulement être utilisés pour une durée limitée et
à vitesse réduite, mais c'est une amélioration
substantielle par rapport aux pneus traditionnels.
> Redondance. Cela signifie avoir une
sauvegarde des composants qui peut prendre la relève dès qu'un
composant tombe en panne. Par exemple, des camions larges peuvent perdre un
pneu sans grande conséquence. Ils ont tellement de pneus qu'aucun n'est
critique (à l'exception des pneus avant, qui sont utilisés pour
la direction).
Mise en place d'un système de réplication de base
de données entre sites distants Par BILEY NDONGO ALPHONSE ROSELIN
|