Sécurité IA

Constitutional AI vs guardrails par classifieur : avantages et limites

Deux approches dominent les guardrails LLM en 2026 : alignement par Constitutional AI (Anthropic) et classifieurs en sortie (Lakera, NeMo Guardrails). Comparaison opérationnelle pour faire le bon choix.

Aroua Biri 9 min

En 2026, deux approches dominent la sécurisation des sorties LLM : l'alignement intégré au modèle (Constitutional AI, Anthropic), et les guardrails par classifieur externes au modèle (NeMo Guardrails de NVIDIA, Lakera, GuardrailsAI, OpenAI Moderation). Beaucoup d'équipes choisissent l'une OU l'autre par habitude. Le bon choix dépend de votre cas d'usage. Voici la comparaison opérationnelle.

Constitutional AI — l'alignement au cœur du modèle

Le principe

Approche développée par Anthropic depuis 2022. Le modèle est entraîné via RLHF (Reinforcement Learning from Human Feedback) puis raffiné via une "constitution" — un ensemble de principes que le modèle apprend à respecter dans ses réponses.

Concrètement, Claude Opus, Sonnet, Haiku 4.x et Mythos (2026) intègrent des comportements de refus, de transparence, de safety qui sont cuits dans le modèle, pas ajoutés par-dessus.

Avantages

  • Robustesse contre jailbreak : le modèle "veut" rester aligné. Beaucoup de jailbreaks classiques échouent par construction.
  • Pas de latence ajoutée : la sécurité est intrinsèque au modèle.
  • Pas de coût additionnel : pas de classifieur séparé à payer ou opérer.
  • Cohérence du discours : pas de coupure brutale "désolé je ne peux pas répondre" au milieu d'une réponse.
  • Mises à jour gratuites : Anthropic améliore l'alignement à chaque version du modèle.

Limites

  • Politique d'Anthropic, pas la vôtre : si Anthropic considère qu'un sujet doit être refusé mais que c'est légitime dans votre contexte (ex: cybersécurité offensive pour un SaaS de pen test), c'est un faux positif coûteux.
  • Pas configurable : vous ne pouvez pas ajuster les seuils ou les catégories.
  • Vendor lock-in : si vous changez de fournisseur LLM, vous perdez l'alignement spécifique d'Anthropic.
  • Ne couvre pas tout : Constitutional AI cible les contenus toxiques et certains comportements à risque, mais pas les vulnérabilités techniques (prompt injection technique, exfiltration de PII, etc.).

Guardrails par classifieur — la couche de sécurité externe

Le principe

Un module séparé du LLM analyse les inputs (avant génération) et/ou les outputs (après génération). Si une violation est détectée, l'entrée est rejetée ou la sortie est filtrée/réécrite.

Outils 2026 :

  • NeMo Guardrails (NVIDIA) : open source, programmable via DSL Colang.
  • GuardrailsAI : open source, focus validation structure de sortie.
  • Lakera Guard : SaaS, large catalogue de classifieurs.
  • OpenAI Moderation : API gratuite, limitée aux catégories OpenAI.
  • Microsoft Azure AI Content Safety : intégré dans Azure OpenAI.

Avantages

  • Indépendant du LLM : marche avec n'importe quel modèle.
  • Configurable : vous définissez vos propres règles, vos propres seuils.
  • Auditable : chaque violation est loggée séparément, facile à expliquer.
  • Adaptable : nouveau pattern d'attaque ? Vous mettez à jour les règles sans toucher au modèle.
  • Multi-LLM : si vous routez selon le cas d'usage, mêmes guardrails pour tous.

Limites

  • Faux positifs : un classifieur basé sur regex ou modèle plus petit peut bloquer des sorties légitimes.
  • Faux négatifs : un classifieur peut rater des attaques sophistiquées que Constitutional AI aurait stoppées.
  • Latence : 50-300ms ajoutés selon outil.
  • Coût : 1-5k€/mois selon volume pour un SaaS payant.
  • Maintenance : règles à faire évoluer en continu.

Comparaison opérationnelle

| Critère | Constitutional AI | Guardrails par classifieur | |---|---|---| | Coût | 0€ (inclus dans le modèle) | 1-5k€/mois | | Latence | 0ms | 50-300ms | | Vendor lock-in | Fort (Anthropic) | Faible | | Configurabilité | Faible | Forte | | Couverture jailbreak basique | Excellente | Bonne | | Couverture prompt injection technique | Moyenne | Bonne avec règles dédiées | | Couverture data leakage (PII) | Moyenne | Bonne avec règles dédiées | | Faux positifs | Variable selon use case | Configurable | | Adaptabilité aux nouveaux risques | Lente (release modèle) | Rapide (mise à jour règles) |

Le bon choix selon votre cas

Cas A — Chatbot grand public B2C

Constitutional AI suffit. Faux positifs sur sujets sensibles sont acceptables (utilisateur peut reformuler). Latence et coût sont prioritaires.

Cas B — SaaS B2B avec données entreprise

Combiné : Claude (Constitutional AI inhérent) + classifieur dédié sur le data leakage et le prompt injection technique. Le double filet de sécurité justifie le coût et la latence.

Cas C — Application spécialisée (santé, finance, juridique)

Classifieur dédié prédominant, éventuellement custom. Constitutional AI peut être contre-productif (refuse des sujets légitimes du domaine). Vous devez maîtriser la politique entièrement.

Cas D — Agent avec outils (production)

Classifieur systématique sur les inputs et outputs, avec règles spécifiques aux outils accessibles. Constitutional AI complémentaire mais insuffisant seul — voir Agents autonomes : périmètre de privilèges.

Cas E — Application avec contenu créatif

Constitutional AI plutôt que classifieur strict. Les classifieurs ont tendance à bloquer trop de créativité. La modération douce d'Anthropic (Claude) ou OpenAI préserve l'utilité.

L'approche défense en profondeur

Pour un SaaS sérieux en 2026, le bon design n'est ni l'un ni l'autre, mais les deux superposés :

`` [Input utilisateur] ↓ [Pre-filter classifieur] ← bloque les patterns d'attaque évidents ↓ [LLM avec Constitutional AI] ← résiste aux attaques subtiles ↓ [Post-filter classifieur] ← bloque les fuites PII, liens malveillants ↓ [Logs et alerting] ``

Cette stack a une latence ajoutée de 100-400ms, un coût opérationnel de 2-5k€/mois pour un SaaS de taille moyenne, et une couverture sécurité bien supérieure à l'une ou l'autre approche seule.

La règle pratique

  • Démarrage rapide / MVP : Constitutional AI suffit (utiliser Claude ou OpenAI).
  • Production B2B : ajouter des classifieurs spécifiques (data leakage, prompt injection).
  • Production critique : double filet + red teaming continu (red teaming automatisé).

Le coût de la sécurité IA est marginal vs. le coût d'un incident. Mais sur-architecter dès le MVP est aussi une erreur — adapter le niveau de défense au stade et au risque réel.

Un sujet connexe chez vous ?

20 minutes pour cadrer ensemble. Aucune offre commerciale envoyée à froid.

Réserver un échange Calendly