⚡ Haute Disponibilité & Redondance

Bloc 2 Module 2.3 BTS SIO SISR

Formation	BTS SIO option SISR — IRIS Mediaschool
Bloc	B2 — Administration Systèmes & Réseaux
Module	M2.3 — Infrastructure Réseau Avancée
Prérequis	Réseaux, routage, notions de stockage, administration système

🎯 Objectifs

Comprendre les enjeux de la haute disponibilité et les niveaux de SLA
Maîtriser les niveaux RAID et leurs cas d'usage
Connaître les architectures de clustering actif/actif et actif/passif
Configurer la redondance de passerelle avec HSRP et VRRP
Comprendre le load balancing et ses algorithmes
Mettre en œuvre le failover avec keepalived
Distinguer PRA et PCA, RPO et RTO

📖 Pourquoi la haute disponibilité ?

Le coût de l'indisponibilité

L'indisponibilité d'un service IT peut avoir des conséquences financières, juridiques et réputationnelles majeures. La haute disponibilité (HA — High Availability) vise à minimiser les temps d'arrêt en éliminant les points de défaillance unique (SPOF — Single Point of Failure).

SLA et niveaux d'uptime

Le SLA (Service Level Agreement) définit contractuellement le niveau de disponibilité garanti. Il s'exprime en pourcentage de temps de fonctionnement annuel :

Niveau SLA	Uptime	Indisponibilité / an	Indisponibilité / mois
99%	« deux neufs »	3 jours 15h 36min	7h 18min
99.9%	« trois neufs »	8h 45min 36s	43min 50s
99.99%	« quatre neufs »	52min 33s	4min 23s
99.999%	« cinq neufs »	5min 15s	26s

💡 À savoir

Passer de 99.9% à 99.99% de disponibilité multiplie considérablement les coûts d'infrastructure. Le niveau de SLA doit être adapté à la criticité du service : un site e-commerce exige un SLA plus élevé qu'un outil de gestion interne.

📖 Redondance matérielle

Alimentations redondantes

Les serveurs et équipements réseau critiques disposent de deux alimentations (PSU) raccordées à des circuits électriques différents. En cas de panne d'une alimentation ou d'un circuit, l'autre prend le relais sans interruption. Les onduleurs (UPS) complètent le dispositif en assurant une alimentation temporaire en cas de coupure secteur.

Redondance réseau

Dual-homing : chaque serveur possède deux cartes réseau connectées à deux switches différents
Agrégation de liens (LACP / 802.3ad) : plusieurs liens physiques combinés en un lien logique
Spanning Tree Protocol (STP/RSTP) : prévient les boucles réseau tout en maintenant des chemins de secours

📖 RAID — Redondance de stockage

Le RAID (Redundant Array of Independent Disks) combine plusieurs disques physiques pour améliorer les performances et/ou la tolérance aux pannes :

Niveau	Principe	Disques min.	Tolérance panne	Capacité utile	Performances
RAID 0	Striping (entrelacement)	2	Aucune	100%	Lecture/écriture ↑↑
RAID 1	Mirroring (miroir)	2	1 disque	50%	Lecture ↑ / Écriture =
RAID 5	Striping + parité distribuée	3	1 disque	(n-1)/n	Lecture ↑ / Écriture ↓
RAID 6	Striping + double parité	4	2 disques	(n-2)/n	Lecture ↑ / Écriture ↓↓
RAID 10	Miroir + striping	4	1 disque/miroir	50%	Lecture/écriture ↑↑

⚠️ RAID ≠ sauvegarde

Le RAID protège contre les pannes de disques, mais ne remplace pas une sauvegarde. Il ne protège pas contre la suppression accidentelle de fichiers, les ransomwares ou la corruption logique des données. Une stratégie de sauvegarde reste indispensable.

📖 Clustering

Cluster actif/passif

Un nœud actif traite toutes les requêtes tandis qu'un nœud passif (standby) attend en veille. En cas de panne du nœud actif, le nœud passif prend automatiquement le relais (failover). Le basculement prend généralement quelques secondes.

Cluster actif/actif

Tous les nœuds traitent simultanément les requêtes. La charge est répartie entre les nœuds. En cas de panne d'un nœud, les autres absorbent sa charge. Cette architecture offre de meilleures performances mais est plus complexe à mettre en œuvre (gestion de la cohérence des données, sessions partagées).

Critère	Actif/Passif	Actif/Actif
Utilisation des ressources	50% (nœud standby inutilisé)	100%
Temps de basculement	Quelques secondes	Quasi-instantané
Complexité	Modérée	Élevée
Cohérence des données	Simple (un seul nœud écrit)	Complexe (réplication)
Cas d'usage	Bases de données, AD	Serveurs web, load balancers

📖 HSRP / VRRP — Redondance de passerelle

Le problème

Les postes clients sont configurés avec une passerelle par défaut unique. Si le routeur correspondant tombe en panne, tous les postes perdent l'accès au réseau extérieur.

La solution : une IP virtuelle (VIP)

HSRP (Hot Standby Router Protocol — Cisco propriétaire) et VRRP (Virtual Router Redundancy Protocol — standard RFC 5798) permettent à plusieurs routeurs de partager une adresse IP virtuelle. Les postes clients utilisent cette VIP comme passerelle par défaut.

Un routeur est élu maître (Active/Master) et répond aux requêtes
Les autres routeurs sont en standby (Backup)
En cas de panne du maître, un routeur standby prend le relais en quelques secondes
Le basculement est transparent pour les postes clients

! Configuration HSRP sur Cisco
Router1(config)# interface GigabitEthernet0/0
Router1(config-if)# ip address 192.168.1.2 255.255.255.0
Router1(config-if)# standby 1 ip 192.168.1.1
Router1(config-if)# standby 1 priority 110
Router1(config-if)# standby 1 preempt

Router2(config)# interface GigabitEthernet0/0
Router2(config-if)# ip address 192.168.1.3 255.255.255.0
Router2(config-if)# standby 1 ip 192.168.1.1
Router2(config-if)# standby 1 priority 100

📖 Load balancing

Concepts

Le load balancer (répartiteur de charge) distribue le trafic entrant entre plusieurs serveurs backend. Il opère généralement en couche 4 (TCP/UDP) ou couche 7 (HTTP/HTTPS) du modèle OSI.

Algorithmes de répartition

Algorithme	Principe	Cas d'usage
Round-robin	Chaque requête est envoyée au serveur suivant dans la liste, en rotation	Serveurs homogènes, trafic uniforme
Weighted round-robin	Comme round-robin mais avec des poids : les serveurs puissants reçoivent plus de requêtes	Serveurs hétérogènes
Least connections	La requête est envoyée au serveur ayant le moins de connexions actives	Requêtes de durée variable
IP hash	L'IP du client détermine le serveur (hash de l'adresse source)	Persistance de session sans cookies
Least response time	La requête va au serveur qui répond le plus vite	Serveurs aux performances variables

📖 Failover automatique

Heartbeat et keepalived

Le failover automatique repose sur un mécanisme de surveillance mutuelle entre les nœuds d'un cluster. Keepalived est la solution la plus utilisée sous Linux :

Implémente le protocole VRRP pour la gestion de l'IP virtuelle
Surveille la santé des services via des health checks (scripts, vérification de port, requête HTTP)
Bascule automatiquement l'IP virtuelle vers le nœud secondaire en cas de défaillance

# /etc/keepalived/keepalived.conf — Nœud maître
vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass secret123
    }
    virtual_ipaddress {
        192.168.1.100/24
    }
}

📖 Réplication de données

Réplication synchrone

Les données sont écrites simultanément sur le nœud primaire et le nœud secondaire. La transaction n'est confirmée que lorsque les deux nœuds ont écrit les données. Cela garantit zéro perte de données (RPO = 0) mais ajoute de la latence.

Réplication asynchrone

Les données sont écrites d'abord sur le nœud primaire, puis répliquées vers le secondaire avec un léger décalage. Les performances sont meilleures mais il existe un risque de perte des dernières transactions en cas de panne (RPO > 0).

📖 PRA et PCA

PCA — Plan de Continuité d'Activité

Le PCA définit les mesures pour maintenir l'activité pendant un incident. L'objectif est d'éviter toute interruption : redondance, clustering, basculement automatique. Le PCA est préventif.

PRA — Plan de Reprise d'Activité

Le PRA définit les procédures pour restaurer l'activité après un sinistre majeur (incendie, inondation, cyberattaque). Il inclut la restauration des sauvegardes, la reconstruction de l'infrastructure et le redémarrage des services.

📖 RPO et RTO

Indicateur	Définition	Question clé	Exemple
RPO (Recovery Point Objective)	Quantité maximale de données qu'on accepte de perdre	« Combien de données peut-on perdre ? »	RPO = 1h → dernière sauvegarde ≤ 1h
RTO (Recovery Time Objective)	Durée maximale d'interruption acceptable	« Combien de temps peut-on être hors service ? »	RTO = 4h → service restauré en ≤ 4h

💡 Calcul pratique

Si le RPO est de 4 heures, il faut effectuer une sauvegarde au minimum toutes les 4 heures. Si le RTO est de 2 heures, la procédure de restauration complète doit pouvoir s'exécuter en moins de 2 heures. Ces indicateurs doivent être testés régulièrement.

📖 Stratégies de sauvegarde

Type	Principe	Durée de sauvegarde	Durée de restauration	Espace requis
Complète (full)	Copie intégrale de toutes les données	Longue	Rapide (un seul jeu)	Élevé
Différentielle	Données modifiées depuis la dernière sauvegarde complète	Moyenne (croissante)	Moyenne (full + dernière diff)	Moyen
Incrémentale	Données modifiées depuis la dernière sauvegarde (quel que soit le type)	Courte	Longue (full + tous les incréments)	Faible

💡 Règle 3-2-1

Conservez 3 copies de vos données, sur 2 supports différents (disque + bande, NAS + cloud), dont 1 copie hors site (datacenter distant, cloud). Cette règle est le socle de toute politique de sauvegarde sérieuse.

📝 QCM — Testez vos connaissances

Que signifie HA en informatique ?
Comment mesure-t-on la disponibilité d'un service ?
Qu'est-ce qu'un cluster de basculement (failover) ?
Quel load balancer open source est très populaire ?
Que signifie RPO et RTO ?
Qu'est-ce que le heartbeat dans un cluster ?

📝 Afficher les corrections

High Availability (Haute Disponibilité) — La haute disponibilité vise à maintenir un service accessible malgré les pannes matérielles ou logicielles.
En pourcentage de temps de fonctionnement (uptime) — 99,99% de disponibilité (quatre 9) correspond à environ 52 minutes d'arrêt par an.
Un groupe de serveurs où un secondaire prend le relais en cas de panne — Le failover cluster assure la continuité de service en basculant automatiquement vers un nœud de secours.
HAProxy — HAProxy est un répartiteur de charge haute performance utilisé par de nombreux sites à fort trafic.
Recovery Point Objective et Recovery Time Objective — Le RPO est la perte de données acceptable, le RTO est le temps de reprise acceptable après une panne.
Un signal périodique vérifiant que les nœuds sont vivants — Le heartbeat est un message échangé entre les nœuds du cluster pour détecter les pannes.

💡 À retenir

La haute disponibilité repose sur l'élimination des SPOF à tous les niveaux : alimentation (PSU redondantes), stockage (RAID), réseau (HSRP/VRRP, dual-homing), services (clustering, load balancing) et données (réplication, sauvegardes 3-2-1). PRA/PCA et RPO/RTO sont les indicateurs clés pour dimensionner la stratégie.

📚 Cours détaillés — 2 séances

▶ C2.3.4 Séance 1 — Nmap et méthodologie CVSS ▶ C2.3.4 Séance 2 — OpenVAS : scan complet et gestion des patchs

← Cours précédent Cours suivant →