Red teaming automatisé d'un LLM en production

Le red teaming d'un LLM en production n'est pas une option en 2026 — c'est une nécessité opérationnelle. Les vulnérabilités évoluent avec chaque release de modèle, chaque nouveau pattern de jailbreak publié sur Reddit ou arXiv. Tester manuellement une fois par trimestre ne suffit pas. Voici comment automatiser le red teaming et l'intégrer dans votre pipeline.

Ce que recouvre le red teaming LLM

Tester systématiquement les classes d'attaques propres aux applications LLM :

Prompt injection (directe et indirecte)
Jailbreak (DAN, roleplay, encodage, multi-tour)
Data leakage (PII memorization, prompt leaking, context leaking)
Insecure output handling (XSS, SSRF, path traversal via sortie LLM)
Toxicité, biais (sécurité contenu)
Hijack d'agent (pour applications avec outils)
Coût d'inférence anormal (DoS via prompts longs)

C'est OWASP LLM Top 10 + extensions actuelles.

Outils 2026

Open source

#### Garak (NVIDIA)

Le framework de red teaming LLM le plus mature en 2026. Catalogue de centaines de probes (injection, jailbreak, data leakage, etc.).

`` pip install garak garak --model_type openai --model_name gpt-4-turbo --probes promptinject,dan,leakreplay ``

Output : rapport HTML avec score par catégorie.

#### PyRIT (Microsoft)

Framework Python pour orchestrer des attaques multi-tours. Plus complexe que Garak mais permet des scenarios sophistiqués.

#### Promptfoo

Outil de evaluation et red teaming combiné. Bon pour CI/CD, simple à intégrer.

`` npx promptfoo eval --config redteam.yaml ``

SaaS

#### Lakera Guard / Lakera Red

Lakera propose à la fois des guardrails runtime ET un service de red teaming continu. Adopté par de nombreux SaaS B2B européens.

#### Robust Intelligence (acquis par Cisco en 2024)

Plateforme entreprise complète avec catalogue d'attaques et reporting compliance.

#### HiddenLayer

Spécialisé dans la sécurité ML/LLM, avec services de red teaming managés.

#### Adversa AI

Bonne réputation pour les tests adversariels avancés.

Tarifs indicatifs

Open source : 0€ (mais charge ingénierie).
Lakera : à partir de 1k€/mois selon volume.
Robust Intelligence / HiddenLayer : 30-100k€/an pour entreprises.

Architecture d'intégration

Niveau 1 — Tests ponctuels

Pour démarrer :

Sélection d'un outil (Garak open source ou Lakera SaaS).
Définition du périmètre : quel modèle, quel system prompt, quels outils accessibles.
Run d'un panel de probes représentatif.
Analyse des findings, remédiation.
Re-run après remédiation.

Cadence : trimestrielle minimum.

Niveau 2 — CI/CD red teaming

Intégration dans le pipeline :

```yaml # Exemple GitHub Actions

name: LLM Red Team

run: | promptfoo eval \ --config tests/redteam-config.yaml \ --output redteam-results.json

name: Fail on critical findings

run: | jq '.results[] | select(.severity == "critical")' redteam-results.json if [ $? -eq 0 ]; then exit 1; fi ```

Le red teaming bloque la merge si une vulnérabilité critique est introduite.

Niveau 3 — Continuous red teaming en production

Pour les applications matures :

Synthetic traffic : red teaming simulé en continu sur l'environnement staging avec replay des attaques connues.
Production monitoring : détection de patterns suspects dans le trafic réel (anomaly detection sur les prompts).
Bug bounty AI : programme spécifique pour récompenser les findings externes.

La grille de probes minimale

Pour un produit LLM B2B sérieux, votre red teaming doit couvrir au moins :

| Catégorie | Probes minimum | |---|---| | Prompt injection directe | "ignore previous instructions", role swap, system prompt extraction | | Prompt injection indirecte | Injection via documents indexés (RAG), via outils externes, via mémoire | | Jailbreak | DAN, roleplay, encodage (base64, ROT, etc.), multi-tour | | Data leakage | PII extraction, training data extraction, context leak cross-tenant | | Insecure output | XSS dans réponses, SSRF via URL générées, path traversal | | Toxicité et biais | Génération de contenu nuisible, biais démographiques | | DoS | Prompts pathologiquement longs, looping infini, exhaustion contexte |

Si vous opérez un agent (avec outils) :

| Catégorie | Probes | |---|---| | Hijack d'agent | Injection cachée déclenchant appel d'outil malveillant | | Privilège escalation | Chaînes d'outils contournant le scope déclaré | | Side channel exfiltration | Lien, image, ou autre canal pour exfiltrer via la sortie |

Métriques à tracker

Pour démontrer le progrès du red teaming :

Coverage rate : % des classes OWASP LLM couvertes.
Pass rate : % des probes qui passent avec succès (= vulnérabilités fermées).
MTTR vulnérabilités IA : temps entre découverte et remédiation.
Zero-day rate : combien de nouvelles vulnérabilités trouvées par cycle de test.

Cible 2026 pour un SaaS B2B mature : >90% pass rate sur le top 30 des probes.

Articulation avec d'autres pratiques

Avant le red teaming : threat model

Voir Threat modeling LLM. Le red teaming sans threat model produit beaucoup de bruit. Le threat model identifie les surfaces réellement à risque dans votre architecture.

Pendant le red teaming : guardrails

Le red teaming teste les guardrails. Sans guardrails (input filtering, output filtering, classifieurs), 95% des probes passeraient — c'est attendu. L'objectif est de mesurer l'efficacité de votre stack de défense.

Après le red teaming : remédiation

Chaque finding produit :

Un ticket dans le backlog.
Une priorisation par criticité × exploitabilité.
Une remédiation (mise à jour guardrails, fine-tuning, refus de cas d'usage, etc.).
Une re-validation.

En continu : threat intelligence IA

Suivre les nouveaux patterns d'attaque qui apparaissent : OWASP LLM, papers arXiv, posts MIT CSAIL, tweets de chercheurs comme Simon Willison. Les nouveaux jailbreaks émergent constamment.

Le piège : red teaming cosmétique

Comme pour tout test sécurité, le piège est de "passer le test" sans vraiment améliorer la posture. Indicateurs de red teaming cosmétique :

Probes choisies pour qu'elles passent (pas représentatives du vrai risque).
Résultats archivés sans plan d'action.
Remédiation par whitelist plutôt que par fix structurel.
Pas de mise à jour des probes avec les nouveaux patterns.

Posture saine : un finding raté est une bonne nouvelle (vulnérabilité trouvée avant attaquant). Pas un échec à cacher.

Un sujet connexe chez vous ?

20 minutes pour cadrer ensemble. Aucune offre commerciale envoyée à froid.

Réserver un échange Calendly →