⚡ Haute Disponibilité & Redondance
| Formation | BTS SIO option SISR — IRIS Mediaschool |
|---|---|
| Bloc | B2 — Administration Systèmes & Réseaux |
| Module | M2.3 — Infrastructure Réseau Avancée |
| Prérequis | Réseaux, routage, notions de stockage, administration système |
🎯 Objectifs
- Comprendre les enjeux de la haute disponibilité et les niveaux de SLA
- Maîtriser les niveaux RAID et leurs cas d'usage
- Connaître les architectures de clustering actif/actif et actif/passif
- Configurer la redondance de passerelle avec HSRP et VRRP
- Comprendre le load balancing et ses algorithmes
- Mettre en œuvre le failover avec keepalived
- Distinguer PRA et PCA, RPO et RTO
📖 Pourquoi la haute disponibilité ?
Le coût de l'indisponibilité
L'indisponibilité d'un service IT peut avoir des conséquences financières, juridiques et réputationnelles majeures. La haute disponibilité (HA — High Availability) vise à minimiser les temps d'arrêt en éliminant les points de défaillance unique (SPOF — Single Point of Failure).
SLA et niveaux d'uptime
Le SLA (Service Level Agreement) définit contractuellement le niveau de disponibilité garanti. Il s'exprime en pourcentage de temps de fonctionnement annuel :
| Niveau SLA | Uptime | Indisponibilité / an | Indisponibilité / mois |
|---|---|---|---|
| 99% | « deux neufs » | 3 jours 15h 36min | 7h 18min |
| 99.9% | « trois neufs » | 8h 45min 36s | 43min 50s |
| 99.99% | « quatre neufs » | 52min 33s | 4min 23s |
| 99.999% | « cinq neufs » | 5min 15s | 26s |
Passer de 99.9% à 99.99% de disponibilité multiplie considérablement les coûts d'infrastructure. Le niveau de SLA doit être adapté à la criticité du service : un site e-commerce exige un SLA plus élevé qu'un outil de gestion interne.
📖 Redondance matérielle
Alimentations redondantes
Les serveurs et équipements réseau critiques disposent de deux alimentations (PSU) raccordées à des circuits électriques différents. En cas de panne d'une alimentation ou d'un circuit, l'autre prend le relais sans interruption. Les onduleurs (UPS) complètent le dispositif en assurant une alimentation temporaire en cas de coupure secteur.
Redondance réseau
- Dual-homing : chaque serveur possède deux cartes réseau connectées à deux switches différents
- Agrégation de liens (LACP / 802.3ad) : plusieurs liens physiques combinés en un lien logique
- Spanning Tree Protocol (STP/RSTP) : prévient les boucles réseau tout en maintenant des chemins de secours
📖 RAID — Redondance de stockage
Le RAID (Redundant Array of Independent Disks) combine plusieurs disques physiques pour améliorer les performances et/ou la tolérance aux pannes :
| Niveau | Principe | Disques min. | Tolérance panne | Capacité utile | Performances |
|---|---|---|---|---|---|
| RAID 0 | Striping (entrelacement) | 2 | Aucune | 100% | Lecture/écriture ↑↑ |
| RAID 1 | Mirroring (miroir) | 2 | 1 disque | 50% | Lecture ↑ / Écriture = |
| RAID 5 | Striping + parité distribuée | 3 | 1 disque | (n-1)/n | Lecture ↑ / Écriture ↓ |
| RAID 6 | Striping + double parité | 4 | 2 disques | (n-2)/n | Lecture ↑ / Écriture ↓↓ |
| RAID 10 | Miroir + striping | 4 | 1 disque/miroir | 50% | Lecture/écriture ↑↑ |
Le RAID protège contre les pannes de disques, mais ne remplace pas une sauvegarde. Il ne protège pas contre la suppression accidentelle de fichiers, les ransomwares ou la corruption logique des données. Une stratégie de sauvegarde reste indispensable.
📖 Clustering
Cluster actif/passif
Un nœud actif traite toutes les requêtes tandis qu'un nœud passif (standby) attend en veille. En cas de panne du nœud actif, le nœud passif prend automatiquement le relais (failover). Le basculement prend généralement quelques secondes.
Cluster actif/actif
Tous les nœuds traitent simultanément les requêtes. La charge est répartie entre les nœuds. En cas de panne d'un nœud, les autres absorbent sa charge. Cette architecture offre de meilleures performances mais est plus complexe à mettre en œuvre (gestion de la cohérence des données, sessions partagées).
| Critère | Actif/Passif | Actif/Actif |
|---|---|---|
| Utilisation des ressources | 50% (nœud standby inutilisé) | 100% |
| Temps de basculement | Quelques secondes | Quasi-instantané |
| Complexité | Modérée | Élevée |
| Cohérence des données | Simple (un seul nœud écrit) | Complexe (réplication) |
| Cas d'usage | Bases de données, AD | Serveurs web, load balancers |
📖 HSRP / VRRP — Redondance de passerelle
Le problème
Les postes clients sont configurés avec une passerelle par défaut unique. Si le routeur correspondant tombe en panne, tous les postes perdent l'accès au réseau extérieur.
La solution : une IP virtuelle (VIP)
HSRP (Hot Standby Router Protocol — Cisco propriétaire) et VRRP (Virtual Router Redundancy Protocol — standard RFC 5798) permettent à plusieurs routeurs de partager une adresse IP virtuelle. Les postes clients utilisent cette VIP comme passerelle par défaut.
- Un routeur est élu maître (Active/Master) et répond aux requêtes
- Les autres routeurs sont en standby (Backup)
- En cas de panne du maître, un routeur standby prend le relais en quelques secondes
- Le basculement est transparent pour les postes clients
! Configuration HSRP sur Cisco
Router1(config)# interface GigabitEthernet0/0
Router1(config-if)# ip address 192.168.1.2 255.255.255.0
Router1(config-if)# standby 1 ip 192.168.1.1
Router1(config-if)# standby 1 priority 110
Router1(config-if)# standby 1 preempt
Router2(config)# interface GigabitEthernet0/0
Router2(config-if)# ip address 192.168.1.3 255.255.255.0
Router2(config-if)# standby 1 ip 192.168.1.1
Router2(config-if)# standby 1 priority 100
📖 Load balancing
Concepts
Le load balancer (répartiteur de charge) distribue le trafic entrant entre plusieurs serveurs backend. Il opère généralement en couche 4 (TCP/UDP) ou couche 7 (HTTP/HTTPS) du modèle OSI.
Algorithmes de répartition
| Algorithme | Principe | Cas d'usage |
|---|---|---|
| Round-robin | Chaque requête est envoyée au serveur suivant dans la liste, en rotation | Serveurs homogènes, trafic uniforme |
| Weighted round-robin | Comme round-robin mais avec des poids : les serveurs puissants reçoivent plus de requêtes | Serveurs hétérogènes |
| Least connections | La requête est envoyée au serveur ayant le moins de connexions actives | Requêtes de durée variable |
| IP hash | L'IP du client détermine le serveur (hash de l'adresse source) | Persistance de session sans cookies |
| Least response time | La requête va au serveur qui répond le plus vite | Serveurs aux performances variables |
📖 Failover automatique
Heartbeat et keepalived
Le failover automatique repose sur un mécanisme de surveillance mutuelle entre les nœuds d'un cluster. Keepalived est la solution la plus utilisée sous Linux :
- Implémente le protocole VRRP pour la gestion de l'IP virtuelle
- Surveille la santé des services via des health checks (scripts, vérification de port, requête HTTP)
- Bascule automatiquement l'IP virtuelle vers le nœud secondaire en cas de défaillance
# /etc/keepalived/keepalived.conf — Nœud maître
vrrp_instance VI_1 {
state MASTER
interface eth0
virtual_router_id 51
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass secret123
}
virtual_ipaddress {
192.168.1.100/24
}
}
📖 Réplication de données
Réplication synchrone
Les données sont écrites simultanément sur le nœud primaire et le nœud secondaire. La transaction n'est confirmée que lorsque les deux nœuds ont écrit les données. Cela garantit zéro perte de données (RPO = 0) mais ajoute de la latence.
Réplication asynchrone
Les données sont écrites d'abord sur le nœud primaire, puis répliquées vers le secondaire avec un léger décalage. Les performances sont meilleures mais il existe un risque de perte des dernières transactions en cas de panne (RPO > 0).
📖 PRA et PCA
PCA — Plan de Continuité d'Activité
Le PCA définit les mesures pour maintenir l'activité pendant un incident. L'objectif est d'éviter toute interruption : redondance, clustering, basculement automatique. Le PCA est préventif.
PRA — Plan de Reprise d'Activité
Le PRA définit les procédures pour restaurer l'activité après un sinistre majeur (incendie, inondation, cyberattaque). Il inclut la restauration des sauvegardes, la reconstruction de l'infrastructure et le redémarrage des services.
📖 RPO et RTO
| Indicateur | Définition | Question clé | Exemple |
|---|---|---|---|
| RPO (Recovery Point Objective) | Quantité maximale de données qu'on accepte de perdre | « Combien de données peut-on perdre ? » | RPO = 1h → dernière sauvegarde ≤ 1h |
| RTO (Recovery Time Objective) | Durée maximale d'interruption acceptable | « Combien de temps peut-on être hors service ? » | RTO = 4h → service restauré en ≤ 4h |
Si le RPO est de 4 heures, il faut effectuer une sauvegarde au minimum toutes les 4 heures. Si le RTO est de 2 heures, la procédure de restauration complète doit pouvoir s'exécuter en moins de 2 heures. Ces indicateurs doivent être testés régulièrement.
📖 Stratégies de sauvegarde
| Type | Principe | Durée de sauvegarde | Durée de restauration | Espace requis |
|---|---|---|---|---|
| Complète (full) | Copie intégrale de toutes les données | Longue | Rapide (un seul jeu) | Élevé |
| Différentielle | Données modifiées depuis la dernière sauvegarde complète | Moyenne (croissante) | Moyenne (full + dernière diff) | Moyen |
| Incrémentale | Données modifiées depuis la dernière sauvegarde (quel que soit le type) | Courte | Longue (full + tous les incréments) | Faible |
Conservez 3 copies de vos données, sur 2 supports différents (disque + bande, NAS + cloud), dont 1 copie hors site (datacenter distant, cloud). Cette règle est le socle de toute politique de sauvegarde sérieuse.
📝 QCM — Testez vos connaissances
- Que signifie HA en informatique ?
- Comment mesure-t-on la disponibilité d'un service ?
- Qu'est-ce qu'un cluster de basculement (failover) ?
- Quel load balancer open source est très populaire ?
- Que signifie RPO et RTO ?
- Qu'est-ce que le heartbeat dans un cluster ?
📝 Afficher les corrections
- High Availability (Haute Disponibilité) — La haute disponibilité vise à maintenir un service accessible malgré les pannes matérielles ou logicielles.
- En pourcentage de temps de fonctionnement (uptime) — 99,99% de disponibilité (quatre 9) correspond à environ 52 minutes d'arrêt par an.
- Un groupe de serveurs où un secondaire prend le relais en cas de panne — Le failover cluster assure la continuité de service en basculant automatiquement vers un nœud de secours.
- HAProxy — HAProxy est un répartiteur de charge haute performance utilisé par de nombreux sites à fort trafic.
- Recovery Point Objective et Recovery Time Objective — Le RPO est la perte de données acceptable, le RTO est le temps de reprise acceptable après une panne.
- Un signal périodique vérifiant que les nœuds sont vivants — Le heartbeat est un message échangé entre les nœuds du cluster pour détecter les pannes.
La haute disponibilité repose sur l'élimination des SPOF à tous les niveaux : alimentation (PSU redondantes), stockage (RAID), réseau (HSRP/VRRP, dual-homing), services (clustering, load balancing) et données (réplication, sauvegardes 3-2-1). PRA/PCA et RPO/RTO sont les indicateurs clés pour dimensionner la stratégie.
