Outils tiers exposés à un agent : la matrice de risque à remplir

Un agent IA en 2026 a typiquement accès à 5 à 20 outils. Lecture d'emails, écriture dans un CRM, recherche web, exécution de code, requête SQL, paiement, publication sur les réseaux. Chaque outil ajouté multiplie la complexité du modèle de menace. Le bon scope d'un agent n'est pas "tous les outils qui pourraient être utiles", c'est "les outils dont la valeur ajoutée justifie le risque résiduel".

Voici la matrice que j'utilise en audit pour trier.

Les 3 axes de la matrice

Axe 1 — Impact d'une mauvaise action

| Niveau | Définition | Exemples | |---|---|---| | Faible | Action que l'utilisateur peut annuler facilement | Création d'un brouillon, ajout d'une note interne | | Moyen | Action visible mais récupérable | Envoi d'un email à un collègue, modification d'un ticket interne | | Fort | Action visible et non facilement récupérable | Envoi à un client, paiement, suppression de données, publication publique | | Critique | Action irréversible avec impact externe | Transfert bancaire, contrat signé, communication réglementaire |

Axe 2 — Manipulabilité de l'input

| Niveau | Définition | Exemples | |---|---|---| | Faible | Input vient uniquement de l'utilisateur authentifié | Prompt utilisateur, paramètres explicites | | Moyen | Input vient de sources semi-fiables | Documents internes, CRM, base produit | | Fort | Input peut être influencé par un externe | Emails entrants, formulaires de contact, pages web indexées |

Axe 3 — Visibilité de l'action

| Niveau | Définition | |---|---| | Élevée | L'utilisateur voit ce qui va se passer (UI claire, confirmation) | | Moyenne | L'action est logguée et consultable a posteriori | | Faible | L'action est silencieuse, ou loguée mais non consulté en pratique |

La règle de combinaison

L'outil est à classifier selon la cellule la plus haute qu'il peut atteindre :

Vert (autorisé) : Impact Faible/Moyen + visibilité Élevée + manipulabilité Faible/Moyenne.
Orange (autorisé avec confirmation) : Impact Fort + visibilité Élevée. Confirmation explicite avant chaque action.
Rouge (à éviter) : Impact Critique, ou Impact Fort + manipulabilité Fort + visibilité Moyenne/Faible.

Application à un agent assistant commercial

Hypothétique agent qui aide un account exec :

| Outil | Impact | Manipulabilité input | Visibilité | Classif | |---|---|---|---|---| | Lire les emails reçus | Faible | Fort (emails externes) | Élevée | Vert | | Résumer une conversation Slack | Faible | Moyen | Élevée | Vert | | Créer une note dans le CRM | Faible | Moyen | Élevée | Vert | | Mettre à jour le statut d'un deal | Moyen | Faible | Élevée | Vert | | Envoyer un email à un client | Fort | Moyen | Élevée | Orange (confirmation) | | Programmer un meeting | Fort | Moyen | Élevée | Orange | | Modifier le prix d'une offre | Critique | Faible | Moyenne | Rouge (interdit en autonomie) | | Signer un contrat | Critique | — | — | Rouge |

Cet agent peut donc être déployé sans confirmation sur 4 outils, avec confirmation sur 2, et 2 outils restent en humain pur. La matrice donne un cadre objectif pour ces choix.

Erreurs classiques à éviter

Mettre en orange ce qui devrait être en rouge

Un outil "modifier le prix d'une offre" avec confirmation utilisateur reste rouge — parce que l'utilisateur peut se laisser convaincre par un agent persuasif (cf. les études sur l'over-reliance dans la littérature HCI 2025-2026). La confirmation humaine est une bonne défense mais pas suffisante seule pour les actions critiques.

Confondre "log" et "audit"

"Mais j'ai des logs" est l'argument le plus fréquent pour passer Faible visibilité en Moyenne. Logger n'est pas auditer. Un log que personne ne lit est aussi utile qu'aucun log. Pour qu'un outil compte comme visibilité Moyenne, il faut :

Que les logs soient accessibles sur un dashboard.
Que quelqu'un les lise régulièrement.
Qu'il existe des alertes sur les comportements anormaux.

Trois conditions, pas une.

Sous-évaluer la manipulabilité

Beaucoup d'équipes classent par défaut un outil interne en manipulabilité Faible. C'est rarement vrai. Si un outil lit un fichier produit par un autre outil qui lit du contenu externe, la chaîne fait que la manipulabilité finale est Fort. À tracer end-to-end.

Oublier le coût d'erreur en cascade

Un outil "envoyer email" en orange (avec confirmation) reste orange tant qu'on parle d'un email. Mais un agent qui a accès à un outil "envoyer email" + un outil "récupérer la liste de tous les clients" produit, en combinaison, un risque de bulk mistake : l'agent peut envoyer 5000 emails inappropriés. La combinaison fait passer le risque effectif au-dessus de la somme des risques individuels.

Une matrice n'est pas figée

Cette matrice doit être réévaluée à chaque nouvelle version de l'agent, et à chaque ajout d'outil. Au moins une fois par trimestre. C'est le travail typique d'un responsable produit en collaboration avec sécu et juridique. Sans cette discipline, le périmètre dérive : on ajoute un outil "ça serait pratique", il devient vert par défaut, et trois mois plus tard la combinaison crée un risque non documenté.

Le bon livrable

Pour un agent en prod :

Matrice tenue à jour, datée, versionnée.
Pour chaque cellule orange : capture d'écran du flow de confirmation.
Pour chaque cellule rouge : note explicite "action faite par humain seul".

C'est aussi ce que demandera un auditeur ISO 42001 ou AI Act à partir du 2 août 2026.

Pour les 7 surfaces de threat model, Threat model d'un agent : 7 surfaces. Pour le confinement runtime, Confinement d'un agent.

Un sujet connexe chez vous ?

20 minutes pour cadrer ensemble. Aucune offre commerciale envoyée à froid.

Réserver un échange Calendly