Il convient de relever que, les méthodes de stockage
et de restauration des données fréquemment utilisées dans
nos entreprises présentent, malgré leurs prouesses techniques des
insuffisances qui méritent une attention particulière :
IV.1 UNE ACCESSIBILITE REDUITE
Bien que souvent toutes connectées au réseau,
de nombreuses machines restent indépendantes et autonomes. Les
utilisateurs ne peuvent donc accéder à leurs données que
depuis des postes de travail spécifiques, voire depuis un seul poste de
travail. Par conséquent, sur un même site, l'accès à
certaines informations est rendu difficile pour leurs utilisateurs. De plus, la
simplicité d'un système NAS affecte les performances du
réseau local et induit un risque d'engorgement des ressources
réseaux existantes.
IV.2 UNE DISPONIBILITE INCERTAINE
Les informations numériques ne sont accessibles que
lorsque les machines qui les hébergent fonctionnent. Par
conséquent, le stockage sur les postes individuels rend leur
disponibilité aléatoire. Toutefois, la production se veut
continue au sein de nos entreprises.
IV.3 UNE CONFIDENTIALITE A AMELIORER
Bien que la confidentialité des informations soit
l'objet d'un réel souci au sein des entreprises, elle n'est pas toujours
garantie sur des composants isolés. En effet, les données
dispersées sur des postes individuels (ordinateurs de bureau, portables
et serveurs) sont extrêmement exposées et difficiles à
protéger contre les accès malveillants.
IV.4 UNE SECURITE A RENFORCER
Les données présentes sur certaines machines
sont souvent peu ou pas sauvegardées. En fait, de nombreuses petites
entreprises, ignorent les sauvegardes et la protection des données
jusqu'à ce qu'un sinistre ait lieu. Malheureusement, cette approche leur
coûte souvent cher (impossible de restaurer des données perdues)
et les statistiques d'une étude menée en par Forester montrent
que jusqu'à 90 % d'entreprises font faillite après un sinistre
lié aux données.
Pour palier aux nombreux problèmes
précédemment exposés, une réponse serait de
dissocier les unités disques et les serveurs. C'est dans ce sens que la
nouvelle technologie de stockage en réseau, le SAN (Storage Area
Network) trouve sa raison d'être.
DEUXIEME PARTIE : LES RESEAUX SAN
DEFINITION
Un SAN (Storage Area Network) est une
technologie de stockage en réseau. C'est un
réseau physique principalement en fibre optique, dont le but est de
permettre la mise en relation de serveurs avec des baies de disques.
I. PRESENTATION GENERALE
Majoritairement basé sur le protocole Fibre Channel,
à topologies
indépendantes et multicouches fonctionnant en
série, le SAN est un réseau de stockage ouvert et évolutif
relié à un réseau d'entreprise. Les ordinateurs ayant
accès au SAN possèdent donc une interface réseau
spécifique reliée au SAN, en plus de leur interface réseau
traditionnelle.
Le protocole Fibre Channel bénéficie d'un
standard qui porte son nom et d'un grand nombre de résultats
d'interopérabilité établis par l'ANSI (American National
Standards Institute). L'effort de coopération entre les fabricants et
utilisateurs représentés par les associations telles que FCIA
(Fibre Channel Industry Association) et SNIA (Storage Networking Industry
Association) garantit un standard et une compatibilité entre les
différents produits du marché.
Les SAN offrent des performances optimales sur fibre optique,
avec des distances entre noeuds pouvant atteindre 10 Km, et une bande passante
largement supérieure à celle offerte par les interfaces
traditionnelles.
Les SAN constituent une plate-forme de communication qui
exploite le protocole SCSI et virtualise totalement l'espace de stockage. Il
travaille au niveau des blocs et non des fichiers comme les serveurs NAS. Les
protocoles d'interconnexion utilisés pour la création d'un SAN
sont les protocoles Fibre Channel et iSCSI
(Internet Small Computer System Interface).
Indépendamment du choix du protocole, le SAN apporte
un grand nombre de fonctionnalités indispensable dans la consolidation
des données. Les SAN peuvent ainsi être connectés à
plusieurs serveurs pour constituer des systèmes de sauvegarde
robustes, nécessaires au sein des laboratoires de
recherche, dans les domaines financiers, industriels, ...
Figure 5: prototype d'un réseau SAN
II. QUELQUES APPLICATIONS DESTINEES A LA MIGRATION SUR LE
SAN
Nous allons examiner dans cette partie différentes
situations types dans lesquelles les réseaux SAN peuvent être d'un
très grand secours, tout en étant utile et rentable. Les trois
cas types d'utilisation de la technologie SAN sont les suivants :
+ Dans un environnement réseau
hétérogène où plusieurs systèmes
d'exploitation sont utilisés, il peut être
commode de fournir une solution de stockage centralisée plutôt que
d'essayer de maintenir le stockage sur chaque système d'exploitation.
+ Dans un environnement
d'hébergement, où des fermes de serveurs sont
utilisées pour fournir des services Internet. En effet, les serveurs Web
ont souvent besoin d'accéder aux mêmes données. Alors, au
lieu de répliquer ces données sur chaque serveur, il peut
être préférable de tout stocker de façon
centralisée.
+ Dans les environnements qui requièrent
d'importantes capacités
d'espace disque, un réseau SAN peut
être mis en place, car sa capacité surpasse largement celle du
stockage des serveurs locaux.
Nous avons donc vu que le stockage SAN peut être une
solution optimale dans plusieurs cas de figure. En effet, par nos exemples,
nous avons vu qu'il peut être rentable dans un réseau
hétérogène, ou encore lorsque plusieurs serveurs doivent
accéder à une même donnée, mais aussi tout
simplement dans des environnements qui ont besoin d'une importante
capacité d'espace disque qu'un serveur local ne peut
généralement satisfaire.
III. FONCTIONNEMENT D'UN RESEAU SAN
Un « SAN » (Storage Area Network) est un
réseau à part entière. L'analyse du fonctionnement d'un
SAN passe donc par une étude minutieuse de son architecture
complète, depuis ses composants jusqu'aux protocoles de communications
en passant par les différentes topologies d'interconnexion.
III.1. LES COMPOSANTS PHYSIQUES D'UN SAN
Les performances d'un SAN dépendent également
des différents équipements réseaux qui le constituent; ils
ne sont pas tous indispensables, mais recommandés. Nous allons
décrire dans cette section les unités de stockage, les
unités d'interconnexion, les supports de transmission et les
serveurs.
III-1.1 Les périphériques de Stockage
Ces périphériques sont en deux catégories,
les systèmes de disques et les unités de bande
magnétique.
III-1.1.1 Les systèmes de disques
Un système de disque est un périphérique
(baie) comportant un nombre de disques physiques placés les uns
près des autres. Selon la technologie supportée par ce
système, on parlera d'un système de disques JBOD ou RAID.
· JBOD : Just a Bunch of
Disks c'est-à-dire, ensemble de disques durs, sans
configuration particulière, placés les uns à coté
des autres. Dans ce cas, l'unité de contrôle fournit uniquement
des fonctions de lecture/écriture des données sur les disques.
· RAID : dans cet autre cas, l'unité de
contrôle fournit des fonctionnalités additionnelles qui permettent
d'utiliser chaque disque de manière à garantir une meilleure
tolérance aux erreurs et des performances plus élevées.
Voici les caractéristiques techniques présentes
dans la plupart des baies de disques pour un réseau SAN :
- Double fond de panier.
- Double processeur.
- Chipset Intel 840 (supporte la mémoire Rambus
permettant d'assurer les hautes performances de la mémoire cache).
- Double capacité de la mémoire cache.
- Double alimentation.
- Capacité des baies de disques de 2 à 160 To,
avec une moyenne de 20 To. On peut parfois rassembler plusieurs baies de
stockage pour en faire un module de stockage et atteindre ainsi de plus grandes
performances.
Figure 6.a: Une baie de disques Figure 6.b: Un
disque dur FC
III-1.1.2 Les systèmes de bandes magnétiques
Ici, on distingue principalement les librairies de bande, ce
sont des matériels capables de gérer de multiple bandes
simultanément, et pouvant être perçus comme un ensemble de
bandes indépendants. Ils sont généralement
déployés dans des environnements nécessitant une
capacité de sauvegarde massive ou exigeant une certaine
séparation des données.
D'une manière générale, les
systèmes à disques sont adaptés aux sauvegardes en ligne
du fait de leur grande performance qui se traduit notamment par des
accès rapides, alors que les systèmes à bande sont idoines
pour les sauvegardes hors ligne.
III-1.2 Les unités d'interconnexion III-1.2.1 Les
interfaces HBA
Les cartes réseaux compatibles avec le protocole Fibre
Channel sont appelées Host Bus
Adaptateur (HBA) ou adaptateur de bus Fibre Channel. Ils ont
pour rôle de convertir le signal de bus parallèle en un signal
série qui sera transmis au SAN. Ces adaptateurs de bus Fibre Channel
sont généralement proposés sous la forme de cartes
d'extension.
Figure 7: Une carte réseau FC
III-1.2.2 Le concentrateur
Comme sur un réseau LAN, ils permettent de relier
entre eux plusieurs périphériques Fibre Channel aux serveurs,
sans nécessité de câblage complexe pour
l'interconnexion.
III-1.2.3 Les ponts (bridge)
Le pont permet de convertir le protocole SCSI très
répandu, en Fibre Channel et permet donc de relier un
périphérique SCSI au réseau Fibre Channel.
III-1.2.4 Le commutateur FC (FC-Switch)
De fonctionnement identique au hub, cependant plus
intelligents, ils permettent de garantir une bande passante de 100 Mbits sur
chaque brin de liaison et plusieurs communications en parallèle sur
chaque brin ; alors qu'avec un hub il ne peut y avoir
qu'une communication à un moment donné entre deux
noeuds. Cet équipement apporte une connectivité dynamique entre
les noeuds d'un réseau.
Il existe des commutateurs proposant des ports Fibre Channel et
gigabit Ethernet afin de permettre l'interopérabilité entre
réseau SAN et réseau Ethernet.
Ci-dessous, un commutateur FC, qui propose 16 prises Fibre
Channel (2Gb/s par port) et une prise RJ45 (1Gb/s).
Figure 8 : Exemple de commutateur FC III-1.2.5 Les
connecteurs GBIC
IL s'agit d'un module émetteur-récepteur
utilisé dans les Switch, hubs et cartes d'interface. Il convertit des
signaux électriques en signaux optiques et inversement. Ils sont des
composants importants dans la chaîne de transmission des informations et
garantissent l'intégrité des données transportées
grâce à leur grande qualité de transformation des signaux
électriques en signaux optiques.
Figure 9 : Connecteur GBIC III-1.3 Les supports de
transmission
+ Les cordons cuivre : Constitués de 4 fils en cuivre
protégés par un
blindage, ils permettent de couvrir des distances maximales de
150m.
+ La Fibre Optique : Constituée de 2 brins optiques, elle
utilise la lumière
créée par un laser pour véhiculer
l'information, on en distingue deux types : short wave (ondes courtes) pour les
distances jusqu'à 500 m et long wave (grandes ondes) pour les distances
jusqu'à 10 km.
III-1.4 Les serveurs
Le serveur SAN réside au sein du réseau de
stockage et joue l'intermédiaire pour chaque opération entre le
LAN et le SAN, centralisant le contrôle de la répartition des
données. Il peut également gérer la redondance pour les
contrôleurs de disque.
III-2 ARCHITECTURE D'UN SAN III-2.1 Etude des différentes
topologies
Un réseau SAN peut plus généralement
être implémenté sous 3 formes, « point à point
», « Boucle arbitrée » et « switched fabric ».
Elles se différencient toutes par leur façon de raccorder les
équipements réseaux les uns aux autres.
III-2.1.1 Topologie point à point
C'est la topologie la plus simple qui relie deux
entités (un serveur et une unité de disques). Les deux
entités ainsi reliées disposent de la totalité de la bande
passante. Les débits étaient initialement limités à
25 Mo/s, à cause des performances des serveurs et des disques mais
aujourd'hui, il offre des performances de 1Gb/S. Du point de vue adressage,
avec cette configuration on ne peut utiliser que 2 ports, les N_PORT
émetteur et récepteur.
Figure 10 : Topologie point à point
Bien que les configurations «point à point»
soient les plus anciennes, elles restent encore de nos jours adaptées
aux environnements peu complexes.
III-2.1.2 Topologie en boucle ou Arbitrated-Loop
Avec cette configuration, l'arbitrage est nécessaire
pour accéder au lien, l'utilisation de la bande passante totale est
maintenue, seul deux noeuds peuvent avoir un lien logique à un instant
donné.
Figure 11: Topologie en boucle simple
Si un des noeuds est défectueux, la transmission entre
les autres noeuds devient impossible.
Par exemple, avec 4 noeuds : le port 1 envoie des
données au port 3 en passant par le port 2. Le port 3 renvoie une
réponse au port 1 en passant par le port 4 signifiant la bonne
réception du message.
Une configuration en boucle arbitrée autorise une bande
passante partagée entre un maximum de 127
périphériques.
Cette topologie moins limitée que la topologie
«point à point», et moins onéreuse que la topologie
« Fabric » que nous verrons par la suite est la plus
fréquente.
III-2.1.3 Topologie « fabric »
Pour palier au problème évoqué
précédemment, il faut utiliser un Hub intelligent. Lorsqu'un
périphérique est défectueux, le HUB/Switch
court-circuite
instantanément le port correspondant et le
réseau continu à fonctionner normalement. La liaison avec le port
du périphérique défectueux est automatiquement
rétablie dès que celui-ci est à nouveau fonctionnel.
Le terme « Fabric » est ici synonyme de commutateur
et de Router. Dans une telle configuration, les éléments du SAN
sont reliés entre eux par un ou plusieurs commutateur(s), chaque port
ayant un débit de 100Mo/s.
Figure 12: Topologie « fabric »
La redondance des liens créés permet
d'éviter l'isolement d'équipement lors des éventuelles
ruptures de connexion. Chaque serveur accède aux données
stockées sur le disque. Dans cette configuration, les 224
adresses autorisées par le protocole Fibre Channel sont exploitables.
Dans une Fabric, d'autres réseaux tels SONET, ATM, IP
(également appelé FC-over-IP) peuvent être utilisés
entre les différents éléments de la Fabric, afin de
pallier aux éloignements entre les noeuds.
On peut aussi réaliser des combinaisons de ces
différentes configurations. III-2.2 Description des différents
ports Fibre Channel
Dans le réseau Fibre Channel, chaque noeud
possède un numéro unique appelé World Wide
Name (WWN), permettant son identification dans le réseau. Il
s'agit d'un numéro universel de 64 bits attribué par le
constructeur, un peu comme les adresses MAC.
L'interconnexion des équipements supportant le
protocole Fibre Channel est effectuée sur des ports dédiés
appelés World Wide Name Port (WWNP).
Cependant, en fonction de la topologie
implémentée, tous ces ports de communication ne sont pas
utilisés ; tel que l'indique la figure suivante:
Figure 13: Les différents ports fibre channel
· N_port (Node
port) : port du serveur ou du périphérique de
stockage dans une topologie point à point ou de type Fabric.
· L_port (Loop
port) : terme générique pour désigner un
port dans une
topologie boucle ; on parle également de
Node Loop port (NL_port).
· F_port (Fabric
port) : port du commutateur sur lequel se raccorde un serveur ou
un périphérique de stockage dans une topologie de type Fabric
.
· E_port (Expansion
port) : port reliant les commutateurs Fibre Channel entre eux ;
le lien entre deux commutateurs est appelé InterSwitch Link ou
ISL.
· EX_port : dans un routeur Fibre Channel,
désigne le nom du port relié à un commutateur Fibre
Channel.
· TE_port (Trunking Expansion
port) : groupement de ports E_port pour multiplier la bande
passante d'une liaison entre des commutateurs.
· G_port ou Generic
port : désigne, sur un commutateur, un port qui se
configure automatiquement en E_port ou F_port ;
C'est le protocole de transport des requêtes SCSI sur
FC. Il est très utilisé pour ses performances sur les supports en
fibre optique mais peut également être supporté sur le
câble de cuivre.
Pour répondre au souci de compatibilité et
d'interopérabilité des systèmes réseaux, il existe
plusieurs organismes acteurs de la normalisation des réseaux, parmi
lesquels l'ISO (International Standard Organisation). Elle propose aux
éditeurs et aux constructeurs une architecture en couche appelé
le modèle OSI(Open Standard Interconnexion) sur laquelle ils pourront
déployer leurs solutions physiques et/ou logiques. Ainsi, en s'appuyant
sur un modèle normalisé, tout produit informatique sera ouvert
aux autres systèmes qui eux aussi s'appuient sur la même norme.
À la manière du modèle OSI, les
composants d'un Storage Area Network sur FC se répartissent en trois
sections (couches basses, couches moyennes et couches hautes), selon le niveau
d'abstraction auquel ils appartiennent.
Afin de mieux comprendre le fontionnement du fibre channel, nous
allons présenter les différentes couches qui le composent.
FC-0 définit le lien physique, spécifiant les
types de médias, avec leurs caractéristiques de longueur et de
vitesse de transfert; les connecteurs et les caractéristiques de
connexion aux agents. En d'autres termes, cette couche permet de définir
les spécifications : type de Câble, de connecteurs, débits
pour une liaison donnée.
La couche FC-1 du FC définit le protocole de transmission,
incluant le contrôle de flux, l'encodage des données et les
opérations de décodage associées.
L'encodage 8B/10B utilisé dans Fibre Channel apporte une
redondance de 25% et permet d'éviter de trop longues séquences de
bit à 0 ou 1.
Celle-ci gère les mécanismes de signalisation,
d'ouverture et de fermeture des sessions. Elle définit également
la structure des trames échangées entre deux ports de
communication.
Les trames FC peuvent être des trames de contrôle ou
de données, et présentent toutes la même architecture
composée par les éléments suivants :
> Un champ début de trame, appelé SOF (Start Of
Frame) codé sur 4 bits affectés au jeu de commande, chargé
d'organiser les échanges: initialisation des circuits, séparation
des trames.
> Un champ header codé sur 24 bits, contient les
données nécessaires à l'identification de
l'émetteur et du destinataire, le protocole et le type de données
échangées.
> Un donnée utile, variable de 0 octet à 2112
bits.
4bits.
> Un champ fin de trame codé sur 4 bits et
associé au jeu de commande.
Le schéma ci-dessous récapitule l'organisation des
blocs de données échangés au sein des réseaux Fabre
Channel.
Les échanges se composent d'une ou de plusieurs
séquence(s) associées pour une opération donnée.
Lors d'une échange, une seule séquence peut être active
à un instant donné, mais les séquences de
différentes échanges peuvent être actives
simultanément.
transmise(s) entre deux points du réseau. Chaque trame
appartenant à la même séquence est numérotée
de manière exclusive par un compteur spécial, chaque trame est
donc unique. Lorsqu'une erreur de transmission se produit, la reprise
intervient
directement au niveau de la séquence et non au niveau de
la trame incriminée.
Le niveau Fibre Channel 3 vise à fournir des services
communs entre agents pour des fonctions avancées comme :
> l'agrégation de plusieurs liaisons en
parallèle afin d'augmenter la bande passante pour une connexion
spécifique ;
> Le multicast pour délivrer une information à
plusieurs ports.
> La possibilité pour plusieurs ports de
répondre à une seule et même adresse.
La couche de niveau 4 du Fibre Channel définit les
interfaces nécessaires à la connexion des applications, via des
protocoles comme : SCSI, IP, ATM, FC-LE, HIPPI, IEEE802.2 ...
Nous pouvons remarquer que cette géométrie variable
apporte au réseau SAN de nombreux avantages. En effet, il est possible
de transporter un datagramme Ethernet (1512 bits) dans une trame FC sans le
segmenter. De plus, l'utilisation de la séquence permet de
décharger les applications de la gestion de la longueur des trames,
cette opération étant directement gérée par la
couche FC-2.
C'est la méthode qui consiste en la transmission des
commandes fibre channel à travers un réseau IP. Le protocole FCIP
encapsule les blocs de données FC et les transporte ensuite à
travers un socket TCP. Les services TCP/IP sont utilisés pour
établir la connectivité entre les SANs distants. En d'autres
termes, dans cette configuration, une connexion IP est utilisée pour
interconnecter les réseaux FC-SAN les uns aux autres.
C'est un protocole de transport qui s'appuie sur TCP pour
assurer la transmission des données de manière fiable. Le
protocole iSCSI effectue l'encapsulation des commandes SCSI, des données
et des informations relatives au statut de la session.
Le protocole iSCSI assure les transferts de données(en
mode bloc) et valide les opérations d'ouverture et de fermeture de
session, de lecture/écriture. Ces opérations s'effectuent
à travers une connexion TCP/IP entre la cible et l'émetteur. Par
exemple, lorsqu'un système d'exploitation ou une application demande une
opération de d'écriture, le SCSI CDB (bloc de description de
commande) doit être encapsulé avant d'emprunter une liaison et
d'être livré au destinataire.
IV. GESTION et ADMINISTRATION d'un réseau SAN: LA
VIRTUALISATION
Le trafic sur un SAN est très similaire aux principes
utilisés pour l'utilisation des disques durs internes d'un ordinateur :
chaque serveur voit l'espace disque d'une baie SAN auquel il a accès
comme son propre disque dur. L'administrateur doit donc définir
très précisément les LUN (les unités logiques) pour
qu'un serveur Unix n'accède pas aux mêmes ressources qu'un serveur
Windows utilisant un système de fichiers différent. Pour y
parvenir, l'on doit utiliser des mécanismes de virtualisation,
lesquelles permettent d'assurer une correspondance logique-physique. En effet,
sans la virtualisation, le SAN risquerait d'être un simple réseau
de stockage, certes rapide mais difficile à administrer surtout face
à la croissance des données à stockées.
La mise en oeuvre de la virtualisation a donné
naissance à plusieurs approches, nous allons les étudier par la
suite : le RAID, le SAN in a BOX, les serveurs de domaines virtuels, les
métaserveurs.