⚡ Haute Disponibilité & Redondance

Bloc 2 Module 2.3 BTS SIO SISR
FormationBTS SIO option SISR — IRIS Mediaschool
BlocB2 — Administration Systèmes & Réseaux
ModuleM2.3 — Infrastructure Réseau Avancée
PrérequisRéseaux, routage, notions de stockage, administration système

🎯 Objectifs

  • Comprendre les enjeux de la haute disponibilité et les niveaux de SLA
  • Maîtriser les niveaux RAID et leurs cas d'usage
  • Connaître les architectures de clustering actif/actif et actif/passif
  • Configurer la redondance de passerelle avec HSRP et VRRP
  • Comprendre le load balancing et ses algorithmes
  • Mettre en œuvre le failover avec keepalived
  • Distinguer PRA et PCA, RPO et RTO

📖 Pourquoi la haute disponibilité ?

Le coût de l'indisponibilité

L'indisponibilité d'un service IT peut avoir des conséquences financières, juridiques et réputationnelles majeures. La haute disponibilité (HA — High Availability) vise à minimiser les temps d'arrêt en éliminant les points de défaillance unique (SPOF — Single Point of Failure).

SLA et niveaux d'uptime

Le SLA (Service Level Agreement) définit contractuellement le niveau de disponibilité garanti. Il s'exprime en pourcentage de temps de fonctionnement annuel :

Niveau SLAUptimeIndisponibilité / anIndisponibilité / mois
99%« deux neufs »3 jours 15h 36min7h 18min
99.9%« trois neufs »8h 45min 36s43min 50s
99.99%« quatre neufs »52min 33s4min 23s
99.999%« cinq neufs »5min 15s26s
💡 À savoir

Passer de 99.9% à 99.99% de disponibilité multiplie considérablement les coûts d'infrastructure. Le niveau de SLA doit être adapté à la criticité du service : un site e-commerce exige un SLA plus élevé qu'un outil de gestion interne.

📖 Redondance matérielle

Alimentations redondantes

Les serveurs et équipements réseau critiques disposent de deux alimentations (PSU) raccordées à des circuits électriques différents. En cas de panne d'une alimentation ou d'un circuit, l'autre prend le relais sans interruption. Les onduleurs (UPS) complètent le dispositif en assurant une alimentation temporaire en cas de coupure secteur.

Redondance réseau

  • Dual-homing : chaque serveur possède deux cartes réseau connectées à deux switches différents
  • Agrégation de liens (LACP / 802.3ad) : plusieurs liens physiques combinés en un lien logique
  • Spanning Tree Protocol (STP/RSTP) : prévient les boucles réseau tout en maintenant des chemins de secours

📖 RAID — Redondance de stockage

Le RAID (Redundant Array of Independent Disks) combine plusieurs disques physiques pour améliorer les performances et/ou la tolérance aux pannes :

NiveauPrincipeDisques min.Tolérance panneCapacité utilePerformances
RAID 0Striping (entrelacement)2Aucune100%Lecture/écriture ↑↑
RAID 1Mirroring (miroir)21 disque50%Lecture ↑ / Écriture =
RAID 5Striping + parité distribuée31 disque(n-1)/nLecture ↑ / Écriture ↓
RAID 6Striping + double parité42 disques(n-2)/nLecture ↑ / Écriture ↓↓
RAID 10Miroir + striping41 disque/miroir50%Lecture/écriture ↑↑
⚠️ RAID ≠ sauvegarde

Le RAID protège contre les pannes de disques, mais ne remplace pas une sauvegarde. Il ne protège pas contre la suppression accidentelle de fichiers, les ransomwares ou la corruption logique des données. Une stratégie de sauvegarde reste indispensable.

📖 Clustering

Cluster actif/passif

Un nœud actif traite toutes les requêtes tandis qu'un nœud passif (standby) attend en veille. En cas de panne du nœud actif, le nœud passif prend automatiquement le relais (failover). Le basculement prend généralement quelques secondes.

Cluster actif/actif

Tous les nœuds traitent simultanément les requêtes. La charge est répartie entre les nœuds. En cas de panne d'un nœud, les autres absorbent sa charge. Cette architecture offre de meilleures performances mais est plus complexe à mettre en œuvre (gestion de la cohérence des données, sessions partagées).

CritèreActif/PassifActif/Actif
Utilisation des ressources50% (nœud standby inutilisé)100%
Temps de basculementQuelques secondesQuasi-instantané
ComplexitéModéréeÉlevée
Cohérence des donnéesSimple (un seul nœud écrit)Complexe (réplication)
Cas d'usageBases de données, ADServeurs web, load balancers

📖 HSRP / VRRP — Redondance de passerelle

Le problème

Les postes clients sont configurés avec une passerelle par défaut unique. Si le routeur correspondant tombe en panne, tous les postes perdent l'accès au réseau extérieur.

La solution : une IP virtuelle (VIP)

HSRP (Hot Standby Router Protocol — Cisco propriétaire) et VRRP (Virtual Router Redundancy Protocol — standard RFC 5798) permettent à plusieurs routeurs de partager une adresse IP virtuelle. Les postes clients utilisent cette VIP comme passerelle par défaut.

  • Un routeur est élu maître (Active/Master) et répond aux requêtes
  • Les autres routeurs sont en standby (Backup)
  • En cas de panne du maître, un routeur standby prend le relais en quelques secondes
  • Le basculement est transparent pour les postes clients
! Configuration HSRP sur Cisco
Router1(config)# interface GigabitEthernet0/0
Router1(config-if)# ip address 192.168.1.2 255.255.255.0
Router1(config-if)# standby 1 ip 192.168.1.1
Router1(config-if)# standby 1 priority 110
Router1(config-if)# standby 1 preempt

Router2(config)# interface GigabitEthernet0/0
Router2(config-if)# ip address 192.168.1.3 255.255.255.0
Router2(config-if)# standby 1 ip 192.168.1.1
Router2(config-if)# standby 1 priority 100

📖 Load balancing

Concepts

Le load balancer (répartiteur de charge) distribue le trafic entrant entre plusieurs serveurs backend. Il opère généralement en couche 4 (TCP/UDP) ou couche 7 (HTTP/HTTPS) du modèle OSI.

Algorithmes de répartition

AlgorithmePrincipeCas d'usage
Round-robinChaque requête est envoyée au serveur suivant dans la liste, en rotationServeurs homogènes, trafic uniforme
Weighted round-robinComme round-robin mais avec des poids : les serveurs puissants reçoivent plus de requêtesServeurs hétérogènes
Least connectionsLa requête est envoyée au serveur ayant le moins de connexions activesRequêtes de durée variable
IP hashL'IP du client détermine le serveur (hash de l'adresse source)Persistance de session sans cookies
Least response timeLa requête va au serveur qui répond le plus viteServeurs aux performances variables

📖 Failover automatique

Heartbeat et keepalived

Le failover automatique repose sur un mécanisme de surveillance mutuelle entre les nœuds d'un cluster. Keepalived est la solution la plus utilisée sous Linux :

  • Implémente le protocole VRRP pour la gestion de l'IP virtuelle
  • Surveille la santé des services via des health checks (scripts, vérification de port, requête HTTP)
  • Bascule automatiquement l'IP virtuelle vers le nœud secondaire en cas de défaillance
# /etc/keepalived/keepalived.conf — Nœud maître
vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass secret123
    }
    virtual_ipaddress {
        192.168.1.100/24
    }
}

📖 Réplication de données

Réplication synchrone

Les données sont écrites simultanément sur le nœud primaire et le nœud secondaire. La transaction n'est confirmée que lorsque les deux nœuds ont écrit les données. Cela garantit zéro perte de données (RPO = 0) mais ajoute de la latence.

Réplication asynchrone

Les données sont écrites d'abord sur le nœud primaire, puis répliquées vers le secondaire avec un léger décalage. Les performances sont meilleures mais il existe un risque de perte des dernières transactions en cas de panne (RPO > 0).

📖 PRA et PCA

PCA — Plan de Continuité d'Activité

Le PCA définit les mesures pour maintenir l'activité pendant un incident. L'objectif est d'éviter toute interruption : redondance, clustering, basculement automatique. Le PCA est préventif.

PRA — Plan de Reprise d'Activité

Le PRA définit les procédures pour restaurer l'activité après un sinistre majeur (incendie, inondation, cyberattaque). Il inclut la restauration des sauvegardes, la reconstruction de l'infrastructure et le redémarrage des services.

📖 RPO et RTO

IndicateurDéfinitionQuestion cléExemple
RPO (Recovery Point Objective)Quantité maximale de données qu'on accepte de perdre« Combien de données peut-on perdre ? »RPO = 1h → dernière sauvegarde ≤ 1h
RTO (Recovery Time Objective)Durée maximale d'interruption acceptable« Combien de temps peut-on être hors service ? »RTO = 4h → service restauré en ≤ 4h
💡 Calcul pratique

Si le RPO est de 4 heures, il faut effectuer une sauvegarde au minimum toutes les 4 heures. Si le RTO est de 2 heures, la procédure de restauration complète doit pouvoir s'exécuter en moins de 2 heures. Ces indicateurs doivent être testés régulièrement.

📖 Stratégies de sauvegarde

TypePrincipeDurée de sauvegardeDurée de restaurationEspace requis
Complète (full)Copie intégrale de toutes les donnéesLongueRapide (un seul jeu)Élevé
DifférentielleDonnées modifiées depuis la dernière sauvegarde complèteMoyenne (croissante)Moyenne (full + dernière diff)Moyen
IncrémentaleDonnées modifiées depuis la dernière sauvegarde (quel que soit le type)CourteLongue (full + tous les incréments)Faible
💡 Règle 3-2-1

Conservez 3 copies de vos données, sur 2 supports différents (disque + bande, NAS + cloud), dont 1 copie hors site (datacenter distant, cloud). Cette règle est le socle de toute politique de sauvegarde sérieuse.

📝 QCM — Testez vos connaissances

  1. Que signifie HA en informatique ?
  2. Comment mesure-t-on la disponibilité d'un service ?
  3. Qu'est-ce qu'un cluster de basculement (failover) ?
  4. Quel load balancer open source est très populaire ?
  5. Que signifie RPO et RTO ?
  6. Qu'est-ce que le heartbeat dans un cluster ?
📝 Afficher les corrections
  1. High Availability (Haute Disponibilité) — La haute disponibilité vise à maintenir un service accessible malgré les pannes matérielles ou logicielles.
  2. En pourcentage de temps de fonctionnement (uptime) — 99,99% de disponibilité (quatre 9) correspond à environ 52 minutes d'arrêt par an.
  3. Un groupe de serveurs où un secondaire prend le relais en cas de panne — Le failover cluster assure la continuité de service en basculant automatiquement vers un nœud de secours.
  4. HAProxy — HAProxy est un répartiteur de charge haute performance utilisé par de nombreux sites à fort trafic.
  5. Recovery Point Objective et Recovery Time Objective — Le RPO est la perte de données acceptable, le RTO est le temps de reprise acceptable après une panne.
  6. Un signal périodique vérifiant que les nœuds sont vivants — Le heartbeat est un message échangé entre les nœuds du cluster pour détecter les pannes.
💡 À retenir

La haute disponibilité repose sur l'élimination des SPOF à tous les niveaux : alimentation (PSU redondantes), stockage (RAID), réseau (HSRP/VRRP, dual-homing), services (clustering, load balancing) et données (réplication, sauvegardes 3-2-1). PRA/PCA et RPO/RTO sont les indicateurs clés pour dimensionner la stratégie.

← Cours précédent Cours suivant →