Séance 2 : Architectures résilientes, Runbook, tests PRA et post-mortem

Bloc 2 3h30 C2.4.3

Introduction (10 min)

Lors d'un test PRA, une équipe a appliqué par erreur une procédure de restauration destinée à un environnement de test sur la production : la mauvaise manipulation a allongé l'incident de 6 h au lieu de permettre une récupération rapide. Cet exemple illustre l'importance d'un runbook précis, de tests planifiés et d'un protocole de bascule contrôlé.

À l'issue de cette séance, vous serez capable de :

Concevoir des architectures résilientes adaptées aux RTO/RPO décidés en séance 1.
Rédiger un runbook de reprise complet et exécutable.
Concevoir et conduire un test PRA contrôlé, analyser les écarts et proposer actions correctives via un post-mortem structuré.

1. Architectures résilientes (70 min)

Les architectures résilientes reposent sur la réplication, la redondance et la capacité à basculer rapidement.

DRBD — Réplication bloc-à-bloc sous Linux

DRBD réplique un device block (ex : /dev/vg-data/lv-www) vers un device /dev/drbd0 sur un nœud secondaire. Le device DRBD apparaît comme un disque local et peut être utilisé comme PV LVM ou directement formaté.

# Initialiser DRBD (configuration dans /etc/drbd.d/*.res)
drbdadm create-md r0
drbdadm up r0

# Forcer primary sur le nœud choisi (après vérification)
drbdadm primary --force r0

# Vérifier l'état de la réplication
cat /proc/drbd

Attention : prévoir la gestion du split-brain (fencing, stonith) et les procédures de resynchronisation.

Proxmox HA (cluster 3 nœuds, quorum)

Un cluster Proxmox constitué de 3 nœuds permet d'atteindre le quorum et d'activer HA manager pour redémarrer automatiquement des VMs sur les nœuds survivants.

# Créer un cluster sur le premier nœud
pvecm create proxmox-cluster

# Ajouter un nœud secondaire
pvecm add proxmox02

# Vérifier le quorum
pvecm status

Snapshots ZFS et LVM

# ZFS snapshot (restauration conservatrice)
zfs snapshot pool/data@2024-01-15
zfs rollback pool/data@2024-01-15

# LVM snapshot
lvcreate -s -n snap-www -L 1G /dev/vg-data/lv-www

# Monter le snapshot en lecture seule pour examen
mount -o ro /dev/vg-data/snap-www /mnt/snap-www

Schéma — Réplication DRBD + Proxmox HA

        [Internet]
            |
        [Firewall]
            |
      [Proxmox Cluster]
       /    |    \
  node1  node2  node3    (Quorum — 3 nœuds)
     |       |       \
  /dev/drbd0 <----> /dev/drbd0   (réplication bloc-à-bloc)
     |                   |
 VMs (win-srv01, debian-srv02, ...)

Si node1 tombe → HA manager démarre VMs sur node2/node3 (RTO ≈ min)

2. Runbook de reprise — structure et exemple (40 min)

Un runbook doit être clair, concis et actionnable. Structure recommandée :

Titre du runbook / Service
RTO / RPO cibles
Prérequis (accès, comptes, clés, sauvegardes identifiées)
Procédure pas-à-pas numérotée (actions à exécuter dans l'ordre)
Contacts d'urgence (nom, rôle, téléphone, e-mail)
Points de vérification (checks post-restauration)
Rollback si échec (procédure et critères de déclenchement)
Journal de la reprise (zone pour horodatage et signature)

Extrait d'en-tête de runbook — Restauration AD win-srv01

Runbook : Restauration AD - win-srv01
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
RTO cible : 4 h — RPO cible : 1 h
Prérequis :
  - Accès Proxmox (root) sur proxmox01
  - Accès stockage backups : nas01:/backups/win-srv01
  - DSRM credentials (coffre-fort)
  - Ticket d'incident ouvert
Contacts :
  - Responsable SI : Alice Martin — +33 6 12 34 56 01
  - Technicien N2 : Bob Durand — +33 6 12 34 56 02

La partie procédure comporte des étapes claires, numérotées et conditionnelles (si A échoue → faire B).

3. Runbook exemple — Restauration AD win-srv01 (34 étapes)

Ce runbook suppose une restauration depuis une sauvegarde Windows Server Backup sur \\nas01\backups\win-srv01 et/ou depuis un backup Proxmox (/var/lib/vz/dump/vzdump-qemu-<vmid>-YYYYMMDD.vma.lzo).

Ouvrir le ticket d'incident et obtenir autorisation de restauration (horodatage, opérateur).
Confirmer RTO = 4 h et RPO = 1 h ; valider priorité avec le métier.
Notifier parties prenantes (mail + canal d'astreinte) et enregistrer l'heure de début.
Vérifier intégrité du stockage backup : ls -lh /mnt/backups/win-srv01 ou via SMB.
Monter le partage SMB si besoin : mount -t cifs \\nas01\backups /mnt/backups -o username=backupuser.
Lister les versions disponibles dans WinRE : wbadmin get versions -backupTarget:\\nas01\backups\win-srv01.
Si un backup image Proxmox valide est disponible, privilégier la restauration rapide via qmrestore : qmrestore /var/lib/vz/dump/vzdump-qemu-<vmid>-<date>.vma.lzo <vmid>.
Vérifier VMID cible et espace disque (pvesm status / df -h).
Lancer la restauration Proxmox et surveiller la progression.
Si restauration depuis WSB (méthode inside-VM) : créer une VM de restauration si nécessaire.
Attacher la ressource backup (partage NAS monté comme disque ou ISO de récupération).
Démarrer la VM et ouvrir la console Proxmox.
Démarrer en DSRM (Directory Services Repair Mode) si restauration d'état système requise.
Dans WinRE/DSRM, monter le partage backup : net use Z: \\nas01\backups /user:backupuser.
Identifier la version de sauvegarde à restaurer et noter l'ID/horodatage.
Lancer la restauration de l'état système :
wbadmin start systemstaterecovery -version:<version> -backupTarget:Z: -quiet
Surveiller la progression et noter les erreurs dans le journal de restauration.
Si restauration autoritaire nécessaire, exécuter ntdsutil → activate instance ntds → authoritative restore.
Redémarrer la VM en mode normal : shutdown -r -t 0.
Vérifier les partages SYSVOL et NETLOGON : net share doit lister SYSVOL et NETLOGON.
Lancer les vérifications AD : dcdiag /v et corriger erreurs bloquantes.
Vérifier la réplication multi-DCs : repadmin /replsummary et repadmin /showrepl.
Vérifier les zones DNS intégrées AD : dnscmd /enumzones.
Sur DC secondaire, forcer une réplication : repadmin /syncall /AeD.
Contrôler les services dépendants (Kerberos, Netlogon, DNS) et les journaux d'événements.
Valider l'authentification depuis un poste client : connexion test + gpupdate /force.
Vérifier l'application des GPOs : gpresult /r sur un poste test.
Vérifier les services réseau dépendants (messagerie, site web) avec l'AD restauré.
Si des postes ne retrouvent pas le domaine, préparer la ré-adhésion PowerShell : Add-Computer -DomainName "INNOVATTECH" -Credential (Get-Credential) -Restart.
Si la restauration échoue ou AD est corrompu, activer le rollback plan (snapshot disponible ou escalade fournisseur).
Clôturer le ticket d'incident : heure de fin, actions réalisées, personnes impliquées.
Archiver les logs de restauration : /var/log/pra/win-srv01-restore-YYYYMMDD.log.
Planifier une fenêtre de tests complémentaires pour vérifier la réplication sur 24 h.
Mettre à jour le PRA/runbook avec les leçons apprises et numéros de version des sauvegardes utilisées.

4. Tests de PRA (30 min)

Types de tests

Type	Modalité	Risque	Objectif
Test à blanc sur copie	Environnement isolé	Zéro	Valider scripts et runbooks
Test partiel (hors heures)	Service non critique, nuit/WE	Faible	Valider orchestration
Test complet planifié	Fenêtre de maintenance, rollback prévu	Maîtrisé	Bascule totale réelle

Bonnes pratiques

Documenter le scénario et les objectifs du test avant exécution.
Définir des critères de succès mesurables : RTO atteint, intégrité des données (checksum, contrôles applicatifs).
Impliquer des utilisateurs-clés pour la validation fonctionnelle.
Prévoir explicitement un critère de déclenchement du rollback.

5. Post-mortem et amélioration continue (20 min)

Après chaque test ou incident :

Rassembler une timeline (horodatage précis des actions).
Pratiquer la méthode des 5 Whys pour remonter à la cause racine.
Rédiger un RCA (Root Cause Analysis) et lister des actions correctives SMART (Spécifique, Mesurable, Atteignable, Réaliste, Temporel).
Mettre à jour runbooks, scripts et BIA selon les enseignements.
Planifier une vérification (test) des actions correctives dans un délai défini.

Méthode des 5 Whys — exemple

Problème : La restauration AD a pris 6h au lieu de 4h (RTO non respecté).

1. Pourquoi ?  — L'opérateur a utilisé la mauvaise procédure.
2. Pourquoi ?  — Il existait deux runbooks distincts : TEST et PROD.
3. Pourquoi ?  — La documentation n'est pas nommée distinctement.
4. Pourquoi ?  — Pas de convention de nommage imposée.
5. Pourquoi ?  — Aucune revue documentaire n'est planifiée.

Root Cause : Absence de gouvernance documentaire.
Action SMART : Implémenter convention de nommage runbook-{env}-{service}.md
               — Owner : Alice Martin — Deadline : J+30

6. Communication de crise (20 min)

Template d'email d'alerte initiale

Objet : [INCIDENT P1] - Service AD - 2025-01-15 08:12

Bonjour,

Nous observons une indisponibilité du service AD (win-srv01) depuis 08:12.
Impact estimé : tous les utilisateurs ne peuvent pas s'authentifier.
Équipe technique en intervention — RTO cible : 4 h.
Prochaine mise à jour à 09:30.

Contact urgence : Alice Martin — 06 12 34 56 01
Ticket incident : #INC-2025-0042

Chaîne d'escalade

Technicien N1
    │ si non résolu en 15 min
    ▼
Technicien N2 (Bob Durand)
    │ si impact > seuil financier (ex : > 10k€)
    ▼
Responsable SI (Alice Martin)
    │ si durée > RTO ou interruption service critique
    ▼
Directeur Général

Travaux Pratiques — TP S2 : Rédiger le PRA complet d'InnovatTech pour AD (80–90 min)

Contexte : win-srv01 (Windows Server 2022) — DC/AD/DNS — sauvegardes Windows Server Backup vers nas01 et snapshots Proxmox.

Objectif : rédiger un PRA complet pour AD incluant un runbook de restauration, exécuter une simulation sur VM de test et produire un compte-rendu des écarts avec mesures correctives.

Prérequis techniques

Accès Proxmox (pve root), accès partage de sauvegarde (nas01).
Image ISO Windows Server 2022 pour WinRE.
VM de test isolée (win-srv01-test), credentials DSRM en coffre-fort.

Étapes générales

Rédiger le PRA détaillé (objectif, périmètre, RTO/RPO, dépendances, propriétaires, plan de communication).
Joindre le runbook d'exécution pas-à-pas (≥ 30 étapes opérationnelles, s'inspirer du runbook fourni).
Effectuer une simulation sur VM de test et documenter chaque commande et résultat.
Produire un rapport d'écarts listant ce qui n'a pas fonctionné et proposer actions correctives SMART.

Livrable attendu

PRA complet en Markdown (ou PDF) + runbook numéroté.
Journal de test (logs, captures console, sorties commandes).
Rapport d'écarts avec plan d'actions (≥ 3 améliorations SMART).

Critères de réussite

Runbook exécutable et reproductible (≥ 30 étapes claires).
Simulation réalisée et validée par preuves (captures, logs).
Rapport d'écarts identifie au moins 3 améliorations avec actions SMART.

Synthèse (10 min)

Un PRA opérationnel ne se limite pas à des sauvegardes : il combine architecture (réplication/snapshots), procédures (runbooks), tests réguliers et une communication maîtrisée. La répétition et l'amélioration continue (post-mortem) permettent de réduire l'incertitude et d'atteindre les RTO/RPO métier.

Question de vérification : Citez trois éléments essentiels qu'un runbook doit contenir pour garantir une restauration reproductible.

🎮 Quiz — Testez vos connaissances

← C2.4.3 Séance 1 — PCA/PRA et BIA C2.4.4 Séance 1 — ITSM/GLPI et tickets →