Incident sécurité IA — détection et gestion sur les 72 premières heures

Quand un incident touche un système IA — prompt injection exploitée, fuite RAG, modèle compromis, action autonome non désirée — le runbook incident classique ne suffit pas. Il rate des étapes spécifiques. Voilà la procédure 72h que je pose en mission, avec les bonnes vérifications IA-spécifiques.

Détecter — les signaux qui doivent déclencher

Un incident IA est souvent silencieux. Les signaux à monitorer :

Côté agent / LLM

Taux d'erreur en hausse soudaine.
Pattern de validation humaine inhabituel (refus excessifs ou approbations massives).
Volume de tool calls anormal.
Coût LLM qui explose (cost runaway).
Détection de prompt injection par le filter runtime (Rebuff, Lakera, custom).

Côté RAG / vector store

Volume de retrievals anormal depuis un tenant.
Apparition de documents non identifiés dans l'index.
Patterns de requête qui ressemblent à de l'extraction.

Côté modèle ML

Drift soudain sur les outputs.
Métriques métier qui chutent.
Taux de validation humaine post-prédiction qui change.

Côté pipeline MLOps

Modification non autorisée dans un dataset ou un modèle.
Échec de signature au déploiement.
Notebook ou script modifié hors process.

Sans ces signaux configurés en alerting, vous découvrez l'incident via une plainte client ou un journaliste.

Heure 0 à 6 — Confinement

Vérifier que c'est un incident

Différencier incident vs bug vs anomalie métier. Critère : impact ou potentiel d'impact sur confidentialité / intégrité / disponibilité du système IA ou des données.

Activer le kill-switch si justifié

Pour un agent : kill-switch en < 30 secondes (voir migration chatbot vers agent).

Pour un modèle ML : rollback à la version précédente signée.

Pour un RAG : isolement de l'index, basculement sur snapshot précédent.

Préserver les preuves

Logs structurés (prompts, outputs, tool calls, RAG retrievals).
État système (modèles, configs, prompts au moment de l'incident).
Volume des données potentiellement compromises.

Sans preuves, ni investigation ni notification fiable.

Constituer la cellule

IT lead (containement technique).
Sécu lead (investigation).
Data lead / ML engineer (compréhension modèle/données).
DPO si données personnelles.
Comms / juridique selon ampleur.

Heure 6 à 24 — Investigation

Reconstituer la chaîne d'événements

Quel est le vecteur ? (prompt injection, compromission credentials agent, intrusion infrastructure, modification dataset, etc.)
Quand a-t-il été exploité ? (premier événement observable)
Combien d'utilisateurs / tenants impactés ?
Quelles données / actions concernées ?

Évaluer l'ampleur

Volume données potentiellement exposées.
Nombre d'utilisateurs concernés.
Actions effectives prises par l'agent compromis (envois, transactions, etc.).
Persistance possible dans modèle/RAG/cache.

Décider notification

RGPD : si données personnelles compromises avec risque pour les personnes, notification CNIL sous 72h (art. 33).
AI Act : pour les systèmes haut risque, notification autorités compétentes en cas d'incident grave (art. 73).
Contractuelle : DPA fournisseurs/clients (souvent < 48h ou < 72h selon contrats).
NIS2 / DORA si applicable secteur.

Heure 24 à 48 — Remédiation et communication

Remédiation technique

Correctif (patch code, mise à jour modèle, rotation credentials, nettoyage RAG).
Tests de non-régression incluant le scénario d'attaque.
Redéploiement contrôlé.
Monitoring renforcé sur le périmètre touché.

Communication

Interne : briefing direction, équipes opérationnelles.
Clients/utilisateurs si concernés.
Régulateur si notification décidée.
Public si décision stratégique.

Anti-pattern : communication "il n'y a pas eu de fuite" alors qu'on n'a pas terminé l'investigation. Préférer transparence prudente.

Heure 48 à 72 — Stabilisation et notification formelle

Notification formelle

CNIL si RGPD : formulaire complet (date, nature, catégories de données, conséquences, mesures).
Autorités AI Act si applicable.
Autres régulateurs sectoriels (ACPR pour banque, ANSSI pour OIV, etc.).
DPA contractuelle si requis.

Stabilisation

Validation que l'incident est résolu (tests, monitoring, observation).
Décision de redémarrage normal ou maintien mode dégradé.
Communication post-incident aux parties prenantes.

Préparation du post-mortem

Convocation post-mortem dans les 5 jours.
Préparation des matériaux (timeline, logs, décisions prises).
Identification des contributeurs invités.

Post-mortem (J+5 à J+15)

Format que j'utilise

Résumé exécutif (1 page).
Timeline détaillée.
Vecteur d'attaque + comment exploité.
Pourquoi ça n'a pas été détecté plus tôt.
Pourquoi ça a été possible (root cause).
Actions immédiates prises.
Actions structurelles à prendre (avec owner et deadline).
Lessons learned partageables.

Règle d'or

Le post-mortem est blameless (pas de culpabilisation individuelle). C'est la condition pour que les équipes parlent honnêtement et que les vraies causes émergent.

Voir coût incident agent IA production fourchettes 2026.

Les pièges classiques

Pas de plan en pré-incident

Improviser pendant l'incident = lenteur, oublis, mauvaises décisions. Plan écrit et testé en exercice tabletop annuel.

Pas de capacité forensic IA

Les outils SIEM classiques ne savent pas analyser des chaînes de prompts. Outiller (jq, scripts, plateforme dédiée) avant l'incident.

Notification tardive

Le délai 72h RGPD est compté à partir de la connaissance, pas de l'incident. Ne pas attendre la fin de l'investigation pour notifier.

Communication maladroite

Sur-rassurer ou sous-rassurer abîme la confiance. Préparer des templates de communication par scénario en pré-incident.

Pas de retex à 3 mois

Vérifier que les actions du post-mortem ont été tenues. Sans suivi, lessons learned = oubliées.

Mon avis en 1 ligne

Une procédure incident IA 72h spécifique, exercée 1-2 fois par an en tabletop, avec capacité forensic outillée et templates de notification prêts. Compter 3-4 semaines de préparation pour atteindre un niveau défendable, et un exercice annuel pour maintenir. Sans ça, le premier incident IA produit une réponse improvisée — donc plus longue et plus chère.

Un sujet connexe chez vous ?

20 minutes pour cadrer ensemble. Aucune offre commerciale envoyée à froid.

Réserver un échange Calendly