TL;DR : La nouvelle recherche d’outils d’Anthropic va dans le bon sens, mais si vous gérez plus de 4 000 outils sur plusieurs services, elle n’est peut-être pas encore prête pour la production.


La promesse

La recherche d’outils d’Anthropic (Tool Search) promet de laisser Claude « accéder à des milliers d’outils sans consommer sa fenêtre de contexte. » Exactement ce qu’on voulait entendre. Chez Arcade.dev, nous maintenons des milliers d’outils optimisés pour les agents sur Gmail, Slack, GitHub, HubSpot, Salesforce, et des dizaines d’autres plateformes. Si quelqu’un devait pousser cette fonctionnalité dans ses retranchements, c’était nous.

Alors on l’a fait ! Code source et résultats complets →

La configuration

Nous avons chargé 4 027 outils dans la bêta d’Anthropic et lancé 25 tâches simples. Le genre de requêtes que votre agent devrait réussir à 100 % sur des ensembles d’outils plus restreints :

  • « Envoie un e-mail à mon collègue à propos de la mise à jour du projet. »
  • « Poste un message dans le canal #general sur Slack. »
  • « Planifie une réunion demain à 14h. »

Rien de tordu. Aucun cas limite ambigu. Juste des workflows agentiques du quotidien.

Nous avons testé les deux modes de recherche intégrés d’Anthropic :

# Regex-based search
search_tool = [{"type": "tool_search_tool_regex_20251119", "name": "tool_search_tool_regex"}]

# BM25-based search
search_tool = [{"type": "tool_search_tool_bm25_20251119", "name": "tool_search_tool_bm25"}]

Ensuite, nous avons vérifié : le bonoutil apparaissait-il dans les résultats top-K ?

Les résultats

Mode de recherche

Taux de succès moyen

Regex

56 % (14/25)

BM25

64 % (16/25)

Pour rester aussi équitables que possible, nous avons uniquement testé le taux de succès de la récupération (c’est-à-dire si le bon outil apparaissait dans les résultats de recherche). Nous n’avons pas testé si Claude allait sélectionner cet outil ou remplir correctement les paramètres.

Ce qui a fonctionné et ce qui a buté

La recherche d’outils a géré certaines requêtes sans accroc :

  • ✅ GoogleCalendar_CreateEvent
  • ✅ GoogleDocs_CreateBlankDocument
  • ✅ Github_CreateIssue
  • ✅ Spotify_PlayTrackByName
  • ✅ Salesforce_CreateContact
  • ✅ MicrosoftTeams_SendMessageToChannel

Mais elle a eu du mal à récupérer certains des outils les plus courants :

  • ❌ Gmail_SendEmail - Impossible de trouver « envoyer un e-mail » dans une requête Gmail
  • ❌ Slack_SendMessage - A raté « poster un message sur Slack »
  • ❌ Zendesk_CreateTicket - Création de ticket ? Connais pas.
  • ❌ ClickUp_CreateTask - Des outils de création de tâche existent. Juste pas dans les résultats.
  • ❌ Youtube_SearchVideos - A retourné Youtube_SearchForVideos à la place. Presque, mais pas tout à fait.

Quand « envoyer un e-mail » ne trouve pas Gmail_SendEmail, il reste du travail.

Ce que ça signifie

C’est clairement un pas dans la bonne direction. L’architecture est solide : éviter de charger les outils dans la fenêtre de contexte du modèle pour contourner le problème chronique de surcharge, et les découvrir à la demande pour garder les interactions légères. Et pour les entreprises, c’est particulièrement important : les économies de tokens sont bien réelles.

Mais ~60 % de précision de récupération, ce n’est pas prêt pour la production quand vous construisez des agents qui doivent prendre des actions fiables dans le monde réel. Les entreprises ont besoin de pouvoir faire confiance aux résultats de leurs agents. Et quand près de la moitié des recherches d’outils échouent avant même d’arriver à la sélection et à la paramétrisation, cette confiance ne s’installe pas.

Nous pensons qu’Anthropic a identifié un vrai problème, et nous sommes heureux de voir des progrès dans ce domaine. Arcade s’engage à fournir le runtime MCP et les outils optimisés pour les agents qui aident les entreprises à déployer des agents capables d’agir de manière fiable, quel que soit le modèle ou le nombre d’outils. Nos clients améliorent déjà la fiabilité de leurs agents en production grâce à Arcade. Restez à l’écoute pour des mises à jour qui continueront de repousser les limites du possible.


Prêt à vous lancer ? Démarrer avec Arcade →