Le red teaming d'un LLM en production n'est pas une option en 2026 — c'est une nécessité opérationnelle. Les vulnérabilités évoluent avec chaque release de modèle, chaque nouveau pattern de jailbreak publié sur Reddit ou arXiv. Tester manuellement une fois par trimestre ne suffit pas. Voici comment automatiser le red teaming et l'intégrer dans votre pipeline.
Ce que recouvre le red teaming LLM
Tester systématiquement les classes d'attaques propres aux applications LLM :
- Prompt injection (directe et indirecte)
- Jailbreak (DAN, roleplay, encodage, multi-tour)
- Data leakage (PII memorization, prompt leaking, context leaking)
- Insecure output handling (XSS, SSRF, path traversal via sortie LLM)
- Toxicité, biais (sécurité contenu)
- Hijack d'agent (pour applications avec outils)
- Coût d'inférence anormal (DoS via prompts longs)
C'est OWASP LLM Top 10 + extensions actuelles.
Outils 2026
Open source
#### Garak (NVIDIA)
Le framework de red teaming LLM le plus mature en 2026. Catalogue de centaines de probes (injection, jailbreak, data leakage, etc.).
`` pip install garak garak --model_type openai --model_name gpt-4-turbo --probes promptinject,dan,leakreplay ``
Output : rapport HTML avec score par catégorie.
#### PyRIT (Microsoft)
Framework Python pour orchestrer des attaques multi-tours. Plus complexe que Garak mais permet des scenarios sophistiqués.
#### Promptfoo
Outil de evaluation et red teaming combiné. Bon pour CI/CD, simple à intégrer.
`` npx promptfoo eval --config redteam.yaml ``
SaaS
#### Lakera Guard / Lakera Red
Lakera propose à la fois des guardrails runtime ET un service de red teaming continu. Adopté par de nombreux SaaS B2B européens.
#### Robust Intelligence (acquis par Cisco en 2024)
Plateforme entreprise complète avec catalogue d'attaques et reporting compliance.
#### HiddenLayer
Spécialisé dans la sécurité ML/LLM, avec services de red teaming managés.
#### Adversa AI
Bonne réputation pour les tests adversariels avancés.
Tarifs indicatifs
- Open source : 0€ (mais charge ingénierie).
- Lakera : à partir de 1k€/mois selon volume.
- Robust Intelligence / HiddenLayer : 30-100k€/an pour entreprises.
Architecture d'intégration
Niveau 1 — Tests ponctuels
Pour démarrer :
- Sélection d'un outil (Garak open source ou Lakera SaaS).
- Définition du périmètre : quel modèle, quel system prompt, quels outils accessibles.
- Run d'un panel de probes représentatif.
- Analyse des findings, remédiation.
- Re-run après remédiation.
Cadence : trimestrielle minimum.
Niveau 2 — CI/CD red teaming
Intégration dans le pipeline :
```yaml # Exemple GitHub Actions
- name: LLM Red Team
- name: Fail on critical findings
run: | promptfoo eval \ --config tests/redteam-config.yaml \ --output redteam-results.json
run: | jq '.results[] | select(.severity == "critical")' redteam-results.json if [ $? -eq 0 ]; then exit 1; fi ```
Le red teaming bloque la merge si une vulnérabilité critique est introduite.
Niveau 3 — Continuous red teaming en production
Pour les applications matures :
- Synthetic traffic : red teaming simulé en continu sur l'environnement staging avec replay des attaques connues.
- Production monitoring : détection de patterns suspects dans le trafic réel (anomaly detection sur les prompts).
- Bug bounty AI : programme spécifique pour récompenser les findings externes.
La grille de probes minimale
Pour un produit LLM B2B sérieux, votre red teaming doit couvrir au moins :
| Catégorie | Probes minimum | |---|---| | Prompt injection directe | "ignore previous instructions", role swap, system prompt extraction | | Prompt injection indirecte | Injection via documents indexés (RAG), via outils externes, via mémoire | | Jailbreak | DAN, roleplay, encodage (base64, ROT, etc.), multi-tour | | Data leakage | PII extraction, training data extraction, context leak cross-tenant | | Insecure output | XSS dans réponses, SSRF via URL générées, path traversal | | Toxicité et biais | Génération de contenu nuisible, biais démographiques | | DoS | Prompts pathologiquement longs, looping infini, exhaustion contexte |
Si vous opérez un agent (avec outils) :
| Catégorie | Probes | |---|---| | Hijack d'agent | Injection cachée déclenchant appel d'outil malveillant | | Privilège escalation | Chaînes d'outils contournant le scope déclaré | | Side channel exfiltration | Lien, image, ou autre canal pour exfiltrer via la sortie |
Métriques à tracker
Pour démontrer le progrès du red teaming :
- Coverage rate : % des classes OWASP LLM couvertes.
- Pass rate : % des probes qui passent avec succès (= vulnérabilités fermées).
- MTTR vulnérabilités IA : temps entre découverte et remédiation.
- Zero-day rate : combien de nouvelles vulnérabilités trouvées par cycle de test.
Cible 2026 pour un SaaS B2B mature : >90% pass rate sur le top 30 des probes.
Articulation avec d'autres pratiques
Avant le red teaming : threat model
Voir Threat modeling LLM. Le red teaming sans threat model produit beaucoup de bruit. Le threat model identifie les surfaces réellement à risque dans votre architecture.
Pendant le red teaming : guardrails
Le red teaming teste les guardrails. Sans guardrails (input filtering, output filtering, classifieurs), 95% des probes passeraient — c'est attendu. L'objectif est de mesurer l'efficacité de votre stack de défense.
Après le red teaming : remédiation
Chaque finding produit :
- Un ticket dans le backlog.
- Une priorisation par criticité × exploitabilité.
- Une remédiation (mise à jour guardrails, fine-tuning, refus de cas d'usage, etc.).
- Une re-validation.
En continu : threat intelligence IA
Suivre les nouveaux patterns d'attaque qui apparaissent : OWASP LLM, papers arXiv, posts MIT CSAIL, tweets de chercheurs comme Simon Willison. Les nouveaux jailbreaks émergent constamment.
Le piège : red teaming cosmétique
Comme pour tout test sécurité, le piège est de "passer le test" sans vraiment améliorer la posture. Indicateurs de red teaming cosmétique :
- Probes choisies pour qu'elles passent (pas représentatives du vrai risque).
- Résultats archivés sans plan d'action.
- Remédiation par whitelist plutôt que par fix structurel.
- Pas de mise à jour des probes avec les nouveaux patterns.
Posture saine : un finding raté est une bonne nouvelle (vulnérabilité trouvée avant attaquant). Pas un échec à cacher.