En 2026, deux approches dominent la sécurisation des sorties LLM : l'alignement intégré au modèle (Constitutional AI, Anthropic), et les guardrails par classifieur externes au modèle (NeMo Guardrails de NVIDIA, Lakera, GuardrailsAI, OpenAI Moderation). Beaucoup d'équipes choisissent l'une OU l'autre par habitude. Le bon choix dépend de votre cas d'usage. Voici la comparaison opérationnelle.
Constitutional AI — l'alignement au cœur du modèle
Le principe
Approche développée par Anthropic depuis 2022. Le modèle est entraîné via RLHF (Reinforcement Learning from Human Feedback) puis raffiné via une "constitution" — un ensemble de principes que le modèle apprend à respecter dans ses réponses.
Concrètement, Claude Opus, Sonnet, Haiku 4.x et Mythos (2026) intègrent des comportements de refus, de transparence, de safety qui sont cuits dans le modèle, pas ajoutés par-dessus.
Avantages
- Robustesse contre jailbreak : le modèle "veut" rester aligné. Beaucoup de jailbreaks classiques échouent par construction.
- Pas de latence ajoutée : la sécurité est intrinsèque au modèle.
- Pas de coût additionnel : pas de classifieur séparé à payer ou opérer.
- Cohérence du discours : pas de coupure brutale "désolé je ne peux pas répondre" au milieu d'une réponse.
- Mises à jour gratuites : Anthropic améliore l'alignement à chaque version du modèle.
Limites
- Politique d'Anthropic, pas la vôtre : si Anthropic considère qu'un sujet doit être refusé mais que c'est légitime dans votre contexte (ex: cybersécurité offensive pour un SaaS de pen test), c'est un faux positif coûteux.
- Pas configurable : vous ne pouvez pas ajuster les seuils ou les catégories.
- Vendor lock-in : si vous changez de fournisseur LLM, vous perdez l'alignement spécifique d'Anthropic.
- Ne couvre pas tout : Constitutional AI cible les contenus toxiques et certains comportements à risque, mais pas les vulnérabilités techniques (prompt injection technique, exfiltration de PII, etc.).
Guardrails par classifieur — la couche de sécurité externe
Le principe
Un module séparé du LLM analyse les inputs (avant génération) et/ou les outputs (après génération). Si une violation est détectée, l'entrée est rejetée ou la sortie est filtrée/réécrite.
Outils 2026 :
- NeMo Guardrails (NVIDIA) : open source, programmable via DSL Colang.
- GuardrailsAI : open source, focus validation structure de sortie.
- Lakera Guard : SaaS, large catalogue de classifieurs.
- OpenAI Moderation : API gratuite, limitée aux catégories OpenAI.
- Microsoft Azure AI Content Safety : intégré dans Azure OpenAI.
Avantages
- Indépendant du LLM : marche avec n'importe quel modèle.
- Configurable : vous définissez vos propres règles, vos propres seuils.
- Auditable : chaque violation est loggée séparément, facile à expliquer.
- Adaptable : nouveau pattern d'attaque ? Vous mettez à jour les règles sans toucher au modèle.
- Multi-LLM : si vous routez selon le cas d'usage, mêmes guardrails pour tous.
Limites
- Faux positifs : un classifieur basé sur regex ou modèle plus petit peut bloquer des sorties légitimes.
- Faux négatifs : un classifieur peut rater des attaques sophistiquées que Constitutional AI aurait stoppées.
- Latence : 50-300ms ajoutés selon outil.
- Coût : 1-5k€/mois selon volume pour un SaaS payant.
- Maintenance : règles à faire évoluer en continu.
Comparaison opérationnelle
| Critère | Constitutional AI | Guardrails par classifieur | |---|---|---| | Coût | 0€ (inclus dans le modèle) | 1-5k€/mois | | Latence | 0ms | 50-300ms | | Vendor lock-in | Fort (Anthropic) | Faible | | Configurabilité | Faible | Forte | | Couverture jailbreak basique | Excellente | Bonne | | Couverture prompt injection technique | Moyenne | Bonne avec règles dédiées | | Couverture data leakage (PII) | Moyenne | Bonne avec règles dédiées | | Faux positifs | Variable selon use case | Configurable | | Adaptabilité aux nouveaux risques | Lente (release modèle) | Rapide (mise à jour règles) |
Le bon choix selon votre cas
Cas A — Chatbot grand public B2C
Constitutional AI suffit. Faux positifs sur sujets sensibles sont acceptables (utilisateur peut reformuler). Latence et coût sont prioritaires.
Cas B — SaaS B2B avec données entreprise
Combiné : Claude (Constitutional AI inhérent) + classifieur dédié sur le data leakage et le prompt injection technique. Le double filet de sécurité justifie le coût et la latence.
Cas C — Application spécialisée (santé, finance, juridique)
Classifieur dédié prédominant, éventuellement custom. Constitutional AI peut être contre-productif (refuse des sujets légitimes du domaine). Vous devez maîtriser la politique entièrement.
Cas D — Agent avec outils (production)
Classifieur systématique sur les inputs et outputs, avec règles spécifiques aux outils accessibles. Constitutional AI complémentaire mais insuffisant seul — voir Agents autonomes : périmètre de privilèges.
Cas E — Application avec contenu créatif
Constitutional AI plutôt que classifieur strict. Les classifieurs ont tendance à bloquer trop de créativité. La modération douce d'Anthropic (Claude) ou OpenAI préserve l'utilité.
L'approche défense en profondeur
Pour un SaaS sérieux en 2026, le bon design n'est ni l'un ni l'autre, mais les deux superposés :
`` [Input utilisateur] ↓ [Pre-filter classifieur] ← bloque les patterns d'attaque évidents ↓ [LLM avec Constitutional AI] ← résiste aux attaques subtiles ↓ [Post-filter classifieur] ← bloque les fuites PII, liens malveillants ↓ [Logs et alerting] ``
Cette stack a une latence ajoutée de 100-400ms, un coût opérationnel de 2-5k€/mois pour un SaaS de taille moyenne, et une couverture sécurité bien supérieure à l'une ou l'autre approche seule.
La règle pratique
- Démarrage rapide / MVP : Constitutional AI suffit (utiliser Claude ou OpenAI).
- Production B2B : ajouter des classifieurs spécifiques (data leakage, prompt injection).
- Production critique : double filet + red teaming continu (red teaming automatisé).
Le coût de la sécurité IA est marginal vs. le coût d'un incident. Mais sur-architecter dès le MVP est aussi une erreur — adapter le niveau de défense au stade et au risque réel.