"On a fait un pentest cette année." Question : "il couvre vos agents IA ?" Réponse 9 fois sur 10 : silence. Le pentest classique teste l'infra, les apps web, parfois les API. Il ne sait pas tester un agent IA — pas par incompétence, par périmètre.
Sur les 4 RFP pentest agent IA que j'ai accompagnées en mission depuis fin 2025, le marché est encore jeune. Les cabinets qui le font sérieusement se comptent sur les doigts des deux mains en EU. Les prix vont de 12 k€ à 80 k€ selon le scope. Et la qualité varie beaucoup. Voici comment cadrer un pentest agent IA pour qu'il produise des findings utiles, pas un PDF de 60 pages illisible.
Pourquoi un pentest classique ne suffit pas
Un pentest classique teste :
- Surface réseau et infra (ports ouverts, services vulnérables).
- Applications web (OWASP Top 10 : SQLi, XSS, IDOR, etc.).
- API REST/GraphQL (auth, rate limiting, IDOR).
- Parfois la chaîne CI/CD.
Un agent IA introduit des surfaces que ces tests ne couvrent pas :
- Manipulation du comportement par prompt injection direct ou indirect.
- Détournement des tool calls (l'agent fait quelque chose qu'il n'aurait pas dû).
- Exfiltration via outputs (memorization, side-channel).
- Compromission de la mémoire long-terme (RAG, vector DB).
- Cascade multi-agent (collusion).
- Abus économique (cost runaway via inputs piégés).
Tester ces surfaces demande des méthodologies spécifiques, des outils dédiés (Promptfoo, Garak, PyRIT, NeMo Guardrails, AgentBench security), et surtout des testeurs qui ont une expertise LLM et une expertise sécurité offensive. Cette combinaison reste rare en 2026.
Les 6 scopes à choisir selon votre besoin
Scope 1 — Pentest agent en boîte noire (10-20 k€)
- Le pentester n'a que l'accès utilisateur normal à l'agent.
- Il tente de le faire dévier (jailbreak, prompt injection, exfiltration).
- Livrable : top 10 des failles exploitables avec PoC reproductible.
Bon pour : valider la robustesse d'un agent en frontal client. Insuffisant pour les agents qui agissent en interne avec des permissions.
Scope 2 — Pentest agent en boîte grise (15-30 k€)
- Pentester a accès à la doc fonctionnelle et au schéma des tools de l'agent.
- Il peut tester avec des inputs spécifiques aux flows métier.
- Livrable : analyse de chaque tool, scénarios d'abus, recommandations.
Bon pour : un agent en production sur des flows critiques (paiement, support, RH).
Scope 3 — Pentest avec accès code source (25-50 k€)
- Pentester a accès au code de l'agent (prompts système, orchestration, tools).
- Il audite la logique + tente l'exploitation.
- Livrable : analyse code + scénarios + plan de remédiation chiffré.
Bon pour : audit pré-mise en production d'un agent critique.
Scope 4 — Red team multi-agent (40-80 k€)
- Pentester orchestré sur 2-4 semaines, scénarios persistants, attaques en cascade.
- Inclut : prompt injection multi-tour, memory poisoning, collusion, compromission identité.
- Livrable : campagne complète documentée, mesures de détection à déployer.
Bon pour : système agent IA mature en production depuis 6+ mois, environnement régulé.
Scope 5 — Audit MCP / outils tiers (8-20 k€)
- Focus sur les MCP servers utilisés par l'agent et leurs périmètres.
- Test des permissions, des scopes OAuth, des comportements en cas d'erreur.
- Livrable : matrice de risque par MCP / outil, recommandations.
Bon pour : audit ciblé quand on intègre un agent IA tiers ou des MCP nouveaux. Voir MCP audit sécurité.
Scope 6 — Test automatisé continu (5-15 k€ setup + 1-3 k€/mois)
- Mise en place d'une suite de tests adversariaux qui tourne à chaque release.
- Outils : Promptfoo + Garak custom + benchmarks internes.
- Livrable : pipeline CI qui détecte les régressions de sécurité.
Bon pour : compléter un pentest ponctuel, garantir non-régression. Voir Red teaming automatisé LLM.
Ce qu'un livrable propre doit contenir
Trop de cabinets livrent un PDF de 60 pages avec 80% de blabla. Le livrable utile contient :
- Executive summary (1-2 pages) : score global, top 5 risques critiques, coût estimé de remédiation, posture à présenter en comex.
- Méthodologie (2-3 pages) : ce qui a été testé, comment, avec quels outils, références (OWASP LLM, MITRE ATLAS).
- Findings détaillés (10-30 pages) : un finding = nom, criticité, description, PoC reproductible (avec inputs exacts), captures, impact business, recommandation chiffrée.
- Roadmap de remédiation (2-3 pages) : 30 jours / 90 jours / 6 mois, priorisée, owner suggéré.
- Annexes (variable) : logs d'attaque, datasets utilisés, scripts.
Si le livrable n'a pas de PoC reproductibles, vous ne pouvez pas convaincre vos équipes que le finding est réel. Exigez-les en contractuel.
Les cabinets sérieux en EU à fin 2026
Pas une recommandation commerciale — un état du marché que j'observe.
- Cabinets pure-players IA security : 4-5 en EU, dont 2 français (Resilience.io, et un autre en stealth). Spécialisation forte, prix premium.
- Cabinets pentest généralistes avec practice IA dédiée : Trail of Bits (US), Bishop Fox (US), NCC Group (UK), Sopra Steria (FR via filiale), Wavestone (FR), Synacktiv (FR), Quarkslab (FR). Qualité variable selon le binôme assigné.
- Big 4 conseil avec offre IA security : Deloitte, EY, PwC, KPMG ont tous une offre. Lourde, plus chère, plus pédagogique. Bon pour les grands groupes régulés.
- Cabinets US qui couvrent l'EU : Robust Intelligence (acquis), HiddenLayer, Lakera, Promptarmor. Forts en outillage, moins en service.
Critères pour choisir : binôme assigné (qualité des CV à exiger), références client publiques sur des sujets similaires, exemple de livrable anonymisé, certif des testeurs (OSCP + connaissance LLM démontrée).
La grille de questions à poser en RFP
10 questions pour départager les cabinets :
- Quel est le profil exact des deux testeurs qui seront assignés ? CV à fournir.
- Combien de pentests agent IA avez-vous livrés ces 12 derniers mois ?
- Quelle méthodologie utilisez-vous (référence OWASP LLM, ATLAS, autre) ?
- Outils utilisés et part de custom vs open source.
- Exemple de livrable anonymisé.
- Engagement de fournir des PoC reproductibles ?
- Période disponible et durée estimée ?
- Prix tout compris ou TTC avec frais ?
- Garanties sur la confidentialité de vos findings (NDA mutuel) ?
- Pouvez-vous accompagner la remédiation et faire un retest ?
Si un cabinet refuse de répondre à 3+ de ces questions ou répond en évasif, écarter.
Les pièges fréquents
Confondre pentest et audit conceptuel
Un audit conceptuel (revue de l'architecture, des prompts système, de la doc) coûte moins cher (5-15 k€) mais ne teste rien. Utile en complément, pas en remplacement.
Accepter un pentest sans accès aux outils de l'agent
Le pentester en boîte noire pure ne verra qu'une fraction des risques. Pour un agent qui agit, fournir l'accès gris ou avec code est presque toujours nécessaire.
Faire un pentest puis ne pas remédier
Le pentest sans remédiation = exposition juridique en cas d'incident (vous saviez et n'avez rien fait). Prévoir un budget remédiation = 1 à 3× le coût du pentest.
Refaire le pentest sans retest
Le retest (vérification que la remédiation a marché) est trop souvent oublié. Inclure dans le contrat initial.
Le contre-exemple instructif
Une scale-up HealthTech française commande un pentest "complet" à un cabinet généraliste à 18 k€ pour un agent IA qui suggère des protocoles de soins. Livrable : 45 pages, 22 findings, dont 18 sur l'infra (rate limiting manquant, headers HTTP, etc.) et seulement 4 sur l'agent IA lui-même. Aucune exploitation de prompt injection testée, aucun test de memorization sur le corpus médical, aucun test du tool de prescription.
3 mois plus tard, un chercheur indépendant publie sur LinkedIn un PoC où il fait dériver l'agent vers une suggestion dangereuse via un prompt injection indirect. Le pentest commandité n'avait rien vu parce que ce n'était pas dans son scope effectif.
Coût de l'épisode : nouveau pentest dédié IA à 35 k€ + remédiation 60 k€ + communication client + ralentissement commercial pendant 4 mois. Soit ~150 k€ pour réparer ce qu'un pentest correctement scopé à 30 k€ aurait évité.
Pour les scénarios à tester, voir Red team agent 5 scénarios. Pour le tooling automatisé continu, voir Red teaming automatisé LLM.