Prueba Tool Search de Anthropic: 4,000 herramientas, 60%

TL;DR: El nuevo Tool Search de Anthropic va en la dirección correcta, pero si manejas 4,000+ herramientas en múltiples servicios, puede que todavía no esté listo para producción.

La promesa

El Tool Search de Anthropicpromete que Claude pueda “acceder a miles de herramientas sin consumir su ventana de contexto”. Música para nuestros oídos. En Arcade.dev mantenemos miles de herramientas optimizadas para agentes en Gmail, Slack, GitHub, HubSpot, Salesforce y docenas de plataformas más. Si alguien iba a someter esta función a una prueba de estrés, éramos nosotros.

¡Y lo hicimos! Código fuente y resultados completos →

La configuración

Cargamos 4,027 herramientas en el beta de Anthropic y ejecutamos 25 tareas sencillas. El tipo de solicitudes que tu agente debería resolver al 100% con conjuntos de herramientas más pequeños:

“Envía un correo a mi colega sobre la actualización del proyecto.”
“Publica un mensaje en el canal #general de Slack.”
“Agenda una reunión para mañana a las 2pm.”

Nada complicado. Sin casos ambiguos. Solo flujos de trabajo agenticos del día a día.

Probamos los dos modos de búsqueda integrados de Anthropic:

# Regex-based search
search_tool = [{"type": "tool_search_tool_regex_20251119", "name": "tool_search_tool_regex"}]

# BM25-based search
search_tool = [{"type": "tool_search_tool_bm25_20251119", "name": "tool_search_tool_bm25"}]

Luego verificamos: ¿la herramienta correctaapareció en los resultados top-K?

Los resultados

Modo de búsqueda	Tasa de éxito prom.
Regex	56% (14/25)
BM25	64% (16/25)

Para que la prueba fuera lo más justa posible, solo medimos la tasa de éxito en la recuperación: si la herramienta correcta aparecía en los resultados. No probamos si Claude iba a seleccionar esa herramienta ni si llenaría los parámetros correctamente.

Dónde funcionó y dónde falló

La búsqueda de herramientas manejó algunas solicitudes sin problemas:

✅ GoogleCalendar_CreateEvent
✅ GoogleDocs_CreateBlankDocument
✅ Github_CreateIssue
✅ Spotify_PlayTrackByName
✅ Salesforce_CreateContact
✅ MicrosoftTeams_SendMessageToChannel

Sin embargo, tuvo problemas para recuperar algunas de las herramientas más comunes:

❌ Gmail_SendEmail - No encontró “enviar email” en un prompt de Gmail
❌ Slack_SendMessage - No detectó “publica un mensaje en Slack”
❌ Zendesk_CreateTicket - ¿Crear un ticket? Como si nunca lo hubiera escuchado
❌ ClickUp_CreateTask - Las herramientas para crear tareas existen. Solo que no aparecen en los resultados.
❌ Youtube_SearchVideos - Devolvió Youtube_SearchForVideos en su lugar. Cerca, pero no lo suficiente.

Cuando “enviar un correo” no encuentra Gmail_SendEmail, todavía hay trabajo por hacer.

Qué significa esto

Sin duda va en la dirección correcta. La arquitectura tiene sentido: evitar cargar herramientas en la ventana de contexto del modelo para esquivar el problema histórico del contexto inflado, y en su lugar descubrirlas justo cuando se necesitan, manteniendo las interacciones ligeras. Y algo especialmente importante para las empresas: el ahorro de tokens es real.

Pero una precisión de recuperación de ~60% no está lista para producción cuando construyes agentes que necesitan ejecutar acciones reales de forma confiable. Las empresas deben poder confiar en los resultados de sus agentes. Que casi la mitad de las búsquedas fallen antes de llegar siquiera a la selección y parametrización no genera esa confianza.

Creemos que Anthropic identificó un problema real y nos alegra ver avances en este espacio. Arcade está comprometido con entregar el runtime de MCP y las herramientas optimizadas para agentes que ayudan a las empresas a desplegar agentes que actúen de forma confiable con cualquier modelo y cualquier cantidad de herramientas. Nuestros clientes ya han mejorado la confiabilidad de sus agentes en producción a través de Arcade; pronto habrá novedades que seguirán expandiendo los límites de lo posible.

¿Listo para construir? Empieza con Arcade →