Quand un incident touche un système IA — prompt injection exploitée, fuite RAG, modèle compromis, action autonome non désirée — le runbook incident classique ne suffit pas. Il rate des étapes spécifiques. Voilà la procédure 72h que je pose en mission, avec les bonnes vérifications IA-spécifiques.
Détecter — les signaux qui doivent déclencher
Un incident IA est souvent silencieux. Les signaux à monitorer :
Côté agent / LLM
- Taux d'erreur en hausse soudaine.
- Pattern de validation humaine inhabituel (refus excessifs ou approbations massives).
- Volume de tool calls anormal.
- Coût LLM qui explose (cost runaway).
- Détection de prompt injection par le filter runtime (Rebuff, Lakera, custom).
Côté RAG / vector store
- Volume de retrievals anormal depuis un tenant.
- Apparition de documents non identifiés dans l'index.
- Patterns de requête qui ressemblent à de l'extraction.
Côté modèle ML
- Drift soudain sur les outputs.
- Métriques métier qui chutent.
- Taux de validation humaine post-prédiction qui change.
Côté pipeline MLOps
- Modification non autorisée dans un dataset ou un modèle.
- Échec de signature au déploiement.
- Notebook ou script modifié hors process.
Sans ces signaux configurés en alerting, vous découvrez l'incident via une plainte client ou un journaliste.
Heure 0 à 6 — Confinement
Vérifier que c'est un incident
Différencier incident vs bug vs anomalie métier. Critère : impact ou potentiel d'impact sur confidentialité / intégrité / disponibilité du système IA ou des données.
Activer le kill-switch si justifié
Pour un agent : kill-switch en < 30 secondes (voir migration chatbot vers agent).
Pour un modèle ML : rollback à la version précédente signée.
Pour un RAG : isolement de l'index, basculement sur snapshot précédent.
Préserver les preuves
- Logs structurés (prompts, outputs, tool calls, RAG retrievals).
- État système (modèles, configs, prompts au moment de l'incident).
- Volume des données potentiellement compromises.
Sans preuves, ni investigation ni notification fiable.
Constituer la cellule
- IT lead (containement technique).
- Sécu lead (investigation).
- Data lead / ML engineer (compréhension modèle/données).
- DPO si données personnelles.
- Comms / juridique selon ampleur.
Heure 6 à 24 — Investigation
Reconstituer la chaîne d'événements
- Quel est le vecteur ? (prompt injection, compromission credentials agent, intrusion infrastructure, modification dataset, etc.)
- Quand a-t-il été exploité ? (premier événement observable)
- Combien d'utilisateurs / tenants impactés ?
- Quelles données / actions concernées ?
Évaluer l'ampleur
- Volume données potentiellement exposées.
- Nombre d'utilisateurs concernés.
- Actions effectives prises par l'agent compromis (envois, transactions, etc.).
- Persistance possible dans modèle/RAG/cache.
Décider notification
- RGPD : si données personnelles compromises avec risque pour les personnes, notification CNIL sous 72h (art. 33).
- AI Act : pour les systèmes haut risque, notification autorités compétentes en cas d'incident grave (art. 73).
- Contractuelle : DPA fournisseurs/clients (souvent < 48h ou < 72h selon contrats).
- NIS2 / DORA si applicable secteur.
Heure 24 à 48 — Remédiation et communication
Remédiation technique
- Correctif (patch code, mise à jour modèle, rotation credentials, nettoyage RAG).
- Tests de non-régression incluant le scénario d'attaque.
- Redéploiement contrôlé.
- Monitoring renforcé sur le périmètre touché.
Communication
- Interne : briefing direction, équipes opérationnelles.
- Clients/utilisateurs si concernés.
- Régulateur si notification décidée.
- Public si décision stratégique.
Anti-pattern : communication "il n'y a pas eu de fuite" alors qu'on n'a pas terminé l'investigation. Préférer transparence prudente.
Heure 48 à 72 — Stabilisation et notification formelle
Notification formelle
- CNIL si RGPD : formulaire complet (date, nature, catégories de données, conséquences, mesures).
- Autorités AI Act si applicable.
- Autres régulateurs sectoriels (ACPR pour banque, ANSSI pour OIV, etc.).
- DPA contractuelle si requis.
Stabilisation
- Validation que l'incident est résolu (tests, monitoring, observation).
- Décision de redémarrage normal ou maintien mode dégradé.
- Communication post-incident aux parties prenantes.
Préparation du post-mortem
- Convocation post-mortem dans les 5 jours.
- Préparation des matériaux (timeline, logs, décisions prises).
- Identification des contributeurs invités.
Post-mortem (J+5 à J+15)
Format que j'utilise
- Résumé exécutif (1 page).
- Timeline détaillée.
- Vecteur d'attaque + comment exploité.
- Pourquoi ça n'a pas été détecté plus tôt.
- Pourquoi ça a été possible (root cause).
- Actions immédiates prises.
- Actions structurelles à prendre (avec owner et deadline).
- Lessons learned partageables.
Règle d'or
Le post-mortem est blameless (pas de culpabilisation individuelle). C'est la condition pour que les équipes parlent honnêtement et que les vraies causes émergent.
Voir coût incident agent IA production fourchettes 2026.
Les pièges classiques
Pas de plan en pré-incident
Improviser pendant l'incident = lenteur, oublis, mauvaises décisions. Plan écrit et testé en exercice tabletop annuel.
Pas de capacité forensic IA
Les outils SIEM classiques ne savent pas analyser des chaînes de prompts. Outiller (jq, scripts, plateforme dédiée) avant l'incident.
Notification tardive
Le délai 72h RGPD est compté à partir de la connaissance, pas de l'incident. Ne pas attendre la fin de l'investigation pour notifier.
Communication maladroite
Sur-rassurer ou sous-rassurer abîme la confiance. Préparer des templates de communication par scénario en pré-incident.
Pas de retex à 3 mois
Vérifier que les actions du post-mortem ont été tenues. Sans suivi, lessons learned = oubliées.
Mon avis en 1 ligne
Une procédure incident IA 72h spécifique, exercée 1-2 fois par an en tabletop, avec capacité forensic outillée et templates de notification prêts. Compter 3-4 semaines de préparation pour atteindre un niveau défendable, et un exercice annuel pour maintenir. Sans ça, le premier incident IA produit une réponse improvisée — donc plus longue et plus chère.