Séance 1 : PCA/PRA, RTO/RPO et analyse BIA
Introduction (10 min)
En décembre 2022, l'Hôpital de Versailles (CHSF) a subi un ransomware qui a contraint les équipes à une reprise manuelle des services sur papier pendant trois semaines. Le PRA n'avait pas été testé depuis plus de deux ans : dossiers patients inaccessibles, opérations déprogrammées, coût estimé ~10 M€. Cette accroche illustre pourquoi une stratégie de continuité et de reprise correctement priorisée, documentée et testée est vitale.
À l'issue de cette séance, vous serez capable de :
- Expliquer la différence opérationnelle entre PCA et PRA et décider quel dispositif appliquer selon le service.
- Calculer et fixer des RTO et RPO pertinents, et chiffrer le coût d'une interruption (formule CA/heure × durée).
- Mener une BIA (Business Impact Analysis) simple : identifier services critiques, dépendances, impacts et prioriser la reprise.
1. PCA vs PRA : distinction essentielle (60 min)
Le Plan de Continuité d'Activité (PCA) a pour objectif de maintenir les fonctions critiques PENDANT un incident avec une dégradation acceptable. Autrement dit, le PCA définit comment garder un service en fonctionnement, même de manière limitée (ex : bascule sur une instance de secours, mise en mode dégradé, file d'attente des tâches).
Le Plan de Reprise d'Activité (PRA) vise à RESTAURER les services APRÈS un sinistre majeur qui a laissé l'infrastructure arrêtée (ex : incendie, perte data center, corruption massive). Le PRA décrit la procédure pour revenir à un état opérationnel depuis des sauvegardes ou des copies hors site.
| Critère | PCA | PRA |
|---|---|---|
| Objectif | Maintenir (continuité) | Restaurer (reprise) |
| Déclenchement | Pendant l'incident | Après le sinistre |
| Exemple | Bascule DC secondaire warm-standby | Restauration DC principal depuis backup |
| Infrastructure | Redondante (active) | Sauvegardée (passive) |
Exemple concret : si le contrôleur de domaine win-srv01 est inaccessible, un PCA peut consister à activer un DC secondaire hébergé en warm-standby pour préserver l'authentification, alors que le PRA décrit la restauration complète du DC principal depuis sauvegarde si tous les contrôleurs sont perdus.
Dans la pratique : PCA = maintenir, PRA = restaurer. Les deux sont complémentaires et doivent être alignés sur les objectifs métier (SLA métier).
2. RTO — Recovery Time Objective (30 min)
Le RTO est la durée maximale d'interruption tolérée par le métier pour un service donné. C'est un paramètre métier, pas uniquement technique : le service propriétaire décide du RTO en fonction des pertes acceptables.
Exemples pratiques pour InnovatTech (illustration pédagogique) :
- AD (win-srv01) : RTO cible = 4 h — les comptes et authentifications doivent être rétablis rapidement pour permettre le travail des postes.
- Messagerie (debian-srv02) : RTO cible = 8 h — les boîtes peuvent être dégradées, mais la reprise doit être faite dans la journée.
- Site web public : RTO cible = 2 h — impact commercial direct et visibilité.
Le RTO influe sur le choix de la technique de reprise : pour un RTO en minutes on privilégie du hot-standby / réplication synchrone ; pour des RTO en heures on accepte warm-standby ou restauration depuis sauvegarde rapide.
| RTO cible | Architecture recommandée | Exemple |
|---|---|---|
| < 15 min | Hot standby / cluster actif-actif | SGBD critique en réplication synchrone |
| 1h – 4h | Warm standby | VM secondaire sur hébergeur distinct |
| 4h – 24h | Cold standby / restore sauvegarde | Restauration desde backup NAS |
| > 24h | Reprise manuelle | Service non critique, peu utilisé |
3. RPO — Recovery Point Objective (30 min)
Le RPO désigne la perte de données maximale tolérée, exprimée en temps. Un RPO de 1 h signifie qu'une heure de données au maximum peut être perdue.
Exemple : AD → RPO = 1 h signifie que les sauvegardes ou la réplication doivent garantir qu'au pire les données AD sont celles d'il y a 1 heure. Pour la messagerie, un RPO de 4 h peut être acceptable.
Conséquence technique : un RPO court impose des sauvegardes fréquentes (incrémentales horaires) ou une réplication quasi temps-réel (block-level/DRBD, SAN replication).
| Service | RTO cible | RPO cible | Impact justificatif |
|---|---|---|---|
| AD / DNS (win-srv01) | 4 h | 1 h | Blocage authentification tous postes |
| Messagerie (debian-srv02) | 8 h | 4 h | Communication interne dégradée |
| Site web public | 2 h | 1 h | Perte CA directe |
| NAS partages (nas01) | 12 h | 4 h | Productivité réduite |
| Hyperviseur (proxmox01) | 4 h | 2 h | VMs hébergées impactées en cascade |
4. BIA — Business Impact Analysis (40 min)
La BIA identifie et classe les services critiques en évaluant :
- Impact financier (perte de CA, pénalités),
- Impact opérationnel (arrêt des tâches métiers),
- Impact réputationnel (clients, conformité).
Méthode simple : pour chaque service, estimer l'impact par heure (ou par jour), puis multiplier par la durée d'indisponibilité pour obtenir la perte financière probable.
Formule de calcul
Perte financière directe = CA/heure × durée d'arrêt (h)
Exemple chiffré :
CA = 3 000 €/h
Site web indisponible 2 h → perte = 3 000 × 2 = 6 000 €
AD indisponible 4 h → perte = 3 000 × 4 = 12 000 €
(+ coûts indirects : astreinte, image, pénalités SLA)
Dépendances techniques
Cartographier les dépendances techniques est essentiel. Si AD tombe → l'authentification échoue → la messagerie et le site web peuvent aussi devenir inaccessibles. La BIA doit représenter ces enchaînements pour éviter de restaurer un service isolé qui reste non fonctionnel faute de dépendance restaurée.
Schéma de dépendances InnovatTech :
win-srv01 (AD/DNS)
│
├──► debian-srv02 (messagerie) — dépend LDAP auth
├──► Site web (DMZ) — dépend DNS interne
├──► nas01 (partages) — dépend DFS/AD
└──► proxmox01 (VMs) — héberge win-srv01 !
Si proxmox01 tombe → win-srv01 inaccessible → cascade AD
| Service | RTO | RPO | Impact €/h | Perte (4h) | Priorité |
|---|---|---|---|---|---|
| AD/DNS (win-srv01) | 4 h | 1 h | 3 000 € | 12 000 € | P1 |
| Hyperviseur (proxmox01) | 4 h | 2 h | 3 000 € | 12 000 € | P1 |
| Site web (DMZ) | 2 h | 1 h | 1 500 € | 6 000 € | P1 |
| Messagerie (debian-srv02) | 8 h | 4 h | 500 € | 2 000 € | P2 |
| NAS partages (nas01) | 12 h | 4 h | 300 € | 1 200 € | P2 |
5. Niveaux de résilience et stratégies (20 min)
Niveaux standards
- Hot standby : bascule quasi instantanée, RTO = minutes (ex : doublement synchrone, cluster active/active).
- Warm standby : réplique des données avec délai, RTO = heures (ex : VM standby sur hébergeur différent).
- Cold standby : restauration depuis sauvegarde complète, RTO = jours.
Stratégies de sauvegarde (compromis)
| Type | Fréquence | Avantages | Inconvénients |
|---|---|---|---|
| Full | Hebdomadaire (dim 23h) | Simple, autonome | Lourd, long |
| Différentiel | Quotidien (23h) | Restore simple | Taille croissante |
| Incrémental | Horaire | Rapide, économe en espace | Chaîne de dépendance restauration |
Règle étendue recommandée : 3-2-1-1-0
┌──────────────────────────────────────────────────────┐
│ RÈGLE 3-2-1-1-0 │
├──────────────────────────────────────────────────────┤
│ 3️⃣ Copies des données (original + 2 sauvegardes) │
│ 2️⃣ Supports différents (disque, bande, cloud) │
│ 1️⃣ Copie hors site (datacenter distant, cloud) │
│ 1️⃣ Copie immuable (WORM) — résiste aux ransomwares│
│ 0️⃣ Zéro erreur de restauration (tests réguliers) │
└──────────────────────────────────────────────────────┘
Travaux Pratiques — TP S1 : Réaliser la BIA complète d'InnovatTech SARL (70–80 min)
Contexte : Vous êtes technicien chez InnovatTech SARL (35 salariés). L'infrastructure contient : win-srv01 (AD/DNS), debian-srv02 (messagerie), site web (DMZ), nas01 (partages), proxmox01 (VMs).
Objectif : produire une BIA complète, définir RTO/RPO cibles par service, calculer le coût d'interruption en prenant CA = 3 000 €/h, et fournir un tableau de priorisation P1/P2/P3.
Prérequis techniques
- Accès à la fiche d'exploitation d'InnovatTech (inventaire services/hôtes).
- Tableur (LibreOffice Calc / Excel) ou Markdown pour le tableau final.
Étapes
- Lister les 5 services critiques : AD/DNS (
win-srv01), Messagerie (debian-srv02), Site web (DMZ), NAS partages (nas01), Hyperviseur/VMs (proxmox01). - Pour chaque service, interviewer le responsable métier (ou utiliser hypothèses pédagogiques) et estimer l'impact financier/opérationnel/réputationnel par heure.
- Attribuer une valeur d'impact financier par heure (CA/h = 3 000 € réparti selon service si applicable).
- Proposer un RTO cible (minutes/heures/jours) et un RPO cible (minutes/heures) pour chaque service, avec justification métier.
- Calculer la perte financière pour scénarios d'interruption type : 1 h, 4 h, 24 h.
- Identifier dépendances techniques (ex : si
win-srv01indisponible ⇒ messagerie et site web impactés). - Produire un tableau récapitulatif : Service | RTO cible | RPO cible | Impact €/h | Perte(4h) | Priorité (P1/P2/P3) | Justification.
- Classer en priorités P1 = reprise immédiate (≤ RTO), P2 = reprise sous 24 h, P3 = reprise sous 72 h.
- Rédiger 1 page de synthèse expliquant vos choix.
Livrable attendu
- Un fichier Markdown ou tableur contenant la BIA complète et le tableau de priorisation.
- Une synthèse d'une page justifiant RTO/RPO et priorités.
Critères de réussite
- Toutes les 5 entrées renseignées avec RTO/RPO justificatifs.
- Calculs financiers cohérents avec CA = 3 000 €/h.
- Tableau de priorisation clair et défendable.
Synthèse (10 min)
Cette séance a posé les fondements : PCA = maintenir, PRA = restaurer ; RTO/RPO sont des décisions métier qui déterminent les choix techniques ; la BIA est l'outil qui relie métier et technique en identifiant priorités et dépendances. Sans BIA on applique des moyens coûteux au mauvais endroit.
Question de vérification : En une phrase, expliquez pourquoi un RPO strict implique souvent une réplication plutôt qu'une sauvegarde horaire.
Séance suivante : Architectures résilientes, runbooks de reprise, tests PRA et post-mortem.
🎮 Quiz — Testez vos connaissances
-
Q1 (QCM) — Quelle est la principale différence entre PCA et PRA ?
-
Q2 (QCM) — Pour un service AD avec un RTO cible de 4 h, quelle architecture est la plus adaptée ?
-
Q3 (QCM) — Dans la règle 3-2-1-1-0, que représente le dernier chiffre « 0 » ?
-
Q4 (Vrai/Faux) — « Le RPO désigne la durée maximale d'interruption de service tolérée par le métier. »
Correction : FAUX — Le RPO exprime la perte de données maximale tolérée (en temps). C'est le RTO qui désigne la durée maximale d'interruption.
-
Q5 (Libre) — Dans la BIA d'InnovatTech, si
win-srv01(AD/DNS) devient indisponible, quels autres services sont impactés en cascade et pourquoi ? Décrivez les dépendances.
Le plugin de quiz enregistre vos points pour le leaderboard.
