ToolBench : un benchmark qualité pour les serveurs MCP

Si vous avez travaillé avec des serveurs MCP, vous connaissez ce sentiment. L’outil qui fonctionne en démo mais plante en production. L’intégration sans description, sans gestion des erreurs, avec des schémas de paramètres qui laissent votre agent tâtonner. Vous choisissez vos serveurs selon les étoiles GitHub et l’instinct, en espérant que ça tienne.

Ce n’est plus suffisant. Les agents en production ont besoin d’outils vraiment fiables. Il existe désormais un moyen de le mesurer.

ToolBench est un nouveau benchmark qui évalue chaque serveur MCP de son index selon les dimensions qui déterminent si un outil fonctionne réellement en production. À ce jour, 41 902 serveurs sont indexés, 218 422 outils analysés, et seulement 0,5 % ont obtenu un A ou plus. 167 333 outils ont reçu un F.

Que mesure ToolBench ?

Cette première version note les serveurs sur quatre dimensions : qualité des définitions, conformité au protocole, sécurité et maintenabilité. Le poids de chacune dépend du type de serveur.

ToolBench scoring dimensions for local and remote MCP servers

Les serveurs locaux (hébergés sur GitHub, source disponible) sont surtout évalués sur la qualité des définitions (50 %), qui note les outils sur la clarté du nommage, la complétude des descriptions et la rigueur des schémas de paramètres. Les serveurs distants accordent plus de poids à la conformité au protocole (40 %), le reste étant partagé entre sécurité et maintenabilité. Les scores se consolident en une note de F à A+. D’autres dimensions arrivent bientôt, notamment celles que nous développons avec des partenaires de l’écosystème MCP.

Quels sont les problèmes de qualité les plus courants sur les serveurs MCP ?

Les descriptions manquantes arrivent en tête avec 6 568 occurrences. Quand un outil n’a pas de description, les agents doivent deviner ce qu’il fait, quand l’utiliser et ce qu’il retourne. Ce tâtonnement se traduit par des hallucinations, de mauvaises sélections d’outils et des appels inutiles.

L’absence de conseils pour la gestion des erreurs arrive en deuxième position avec près de 1 899 occurrences : les agents se retrouvent face à des échecs sans savoir comment s’en sortir. À partir de là, les problèmes s’accumulent :

Most common quality issues across MCP servers

Aucun de ces problèmes n’est difficile à corriger. Ce sont des lacunes de discipline de conception qui coûtent cher dès que les agents tournent sans supervision en production.

D’où viennent les critères de notation ?

Chaque dimension est ancrée dans ce qui compte vraiment en production.

Qualité des définitions s’appuie sur les 54 Agentic Tool Patterns d’Arcade, distillés à partir de déploiements réels chez des clients entreprises.

Conformité au protocole s’appuie sur MCP Debugger, l’outil de Nate Barbettini qui teste votre serveur comme le ferait un vrai client MCP. Il a passé la dernière année dans les parties les plus complexes de MCP et a créé le debugger parce qu’il en avait assez de dénicher les mêmes problèmes subtils à la main.

Sécurité est évaluée par rapport à la spécification OAuth 2.1 et aux RFC associées.

Maintenabilité repose sur les signaux qui prédisent réellement si un projet sera encore maintenu dans six mois : activité, propriété, communauté, documentation.

La méthodologie complète est publique sur le site.

Comment l’utiliser ?

Si vous choisissez des intégrations, filtrez par note, type d’intégration ou secteur avant de vous engager. Si vous construisez et publiez des serveurs MCP, les critères sont transparents et l’écart entre un F et un A est presque toujours une question de sérieux dans la conception des outils. Utilisez-le pour auditer vos propres serveurs avant que vos utilisateurs ne le fassent.

L’écosystème est encore jeune. ToolBench est un levier pour élever le niveau global, et un standard commun que la communauté peut viser. De meilleurs outils font de meilleurs agents.

Explorez le benchmark sur toolbench.arcade.dev