Si has trabajado con servidores MCP, ya lo viviste. La herramienta que funciona en el demo y falla en producción. La integración sin descripción, sin manejo de errores, con esquemas de parámetros que dejan a tu agente adivinando. Eliges servidores por estrellas en GitHub y buena fe, y esperas que todo salga bien.
Ya no alcanza con eso. Los agentes en producción necesitan herramientas que de verdad sean confiables. Ahora hay una forma de medirlo.
ToolBench es un nuevo benchmark que califica cada servidor MCP en su índice según las dimensiones que determinan si una herramienta realmente funciona en producción. Hoy hay 41,902 servidores indexados, 218,422 herramientas analizadas, y solo el 0.5% obtuvo A o superior. 167,333 herramientas recibieron F.
¿Qué mide ToolBench?
Esta primera versión califica servidores en cuatro dimensiones: calidad de definición, cumplimiento de protocolo, seguridad y mantenibilidad. El peso de cada una depende del tipo de servidor.

Los servidores locales (alojados en GitHub, con código disponible) se evalúan principalmente en calidad de definición (50%), que califica cada herramienta en claridad de nombre, completitud de la descripción y rigor del esquema de parámetros. Los servidores remotos dan más peso al cumplimiento de protocolo (40%), y el resto se divide entre seguridad y mantenibilidad. Los puntajes se convierten en una calificación de letra, de F a A+. Hay más dimensiones en camino, incluidas algunas que estamos desarrollando con socios del ecosistema MCP.
¿Cuáles son los problemas de calidad más comunes en los servidores MCP?
Las descripciones faltantes encabezan la lista con 6,568 ocurrencias. Cuando una herramienta no tiene descripción, los agentes tienen que adivinar qué hace, cuándo usarla y qué devuelve. Eso se traduce en alucinaciones, selección incorrecta de herramientas y llamadas desperdiciadas.
La falta de guía para manejo de errores ocupa el segundo lugar con casi 1,899 ocurrencias: los agentes se topan con fallas sin saber cómo recuperarse. A partir de ahí, los problemas se acumulan:

Ninguno de estos problemas es difícil de resolver. Son fallas de disciplina de diseño que se vuelven costosas rápido cuando los agentes corren sin supervisión en producción.
¿De dónde vienen los criterios de calificación?
Cada dimensión se basa en lo que realmente importa en producción.
Calidad de definición se nutre de los 54 Agentic Tool Patterns de Arcade, destilados de despliegues reales con clientes empresariales.
Cumplimiento de protocolo se basa en MCP Debugger, la herramienta de Nate Barbettini que prueba tu servidor como lo haría un cliente MCP real. Lleva el último año inmerso en las partes más difíciles de MCP y construyó el debugger porque se cansó de encontrar las mismas fallas sutiles a mano.
Seguridad se evalúa contra la especificación OAuth 2.1 y los RFC relacionados.
Mantenibilidad se basa en las señales que realmente predicen si un proyecto seguirá teniendo mantenimiento seis meses después: actividad, propiedad, comunidad y documentación.
La metodología completa está publicada en el sitio.
¿Cómo se usa?
Si estás eligiendo integraciones, filtra por calificación, tipo de integración o industria antes de comprometerte. Si estás construyendo y publicando servidores MCP, los criterios son transparentes y la diferencia entre una F y una A casi siempre es cuestión de tomarse en serio el diseño de herramientas. Úsalo para auditar tus propios servidores antes de que lo hagan tus usuarios.
El ecosistema todavía es joven. ToolBench es un mecanismo para elevar el piso mínimo y un estándar compartido hacia el que la comunidad puede avanzar. Mejores herramientas significan mejores agentes.

