Tool Search de Anthropic: qué significa para la AI

Hace poco estuve en Ámsterdam reuniéndome con algunas de las empresas más grandes, y todas plantearon el mismo problema: ¿cómo darles a los agentes de AI acceso a más herramientas sin que todo se desmorone?

El problema es que en cuanto superaban las 20-30 herramientas, los costos de tokens se volvían insostenibles y la precisión en la selección se desplomaba. El dolor ha sido tan agudo que muchos equipos han intentado (sin éxito) construir sus propias soluciones con pipelines de RAG, solo para topar con paredes de rendimiento.

Por eso me entusiasma el Tool Search Tool de Anthropic, anunciado recientemente, que representa un gran avance para resolver este problema tan común en los agentes de AI.

¿Qué lanzó Anthropic exactamente?

Anunciada como una de tres nuevas funciones beta, laTool Search Toolde Anthropic permite a los modelos Claude descubrir y cargar herramientas de forma dinámica cuando las necesitan, en lugar de agregar manualmente cada definición de herramienta en su ventana de contexto desde el inicio.

Antes, estos modelos tenían que mantener todas las herramientas posibles en memoria de trabajo todo el tiempo. Ahora pueden delegar eso y buscar cuando lo necesitan. Es como la diferencia entre memorizar todo y consultar un diccionario. Al igual que tu cerebro, darle a los modelos Claude la capacidad de guardar herramientas en un “diccionario” reduce la carga de mantener toda esa memoria en activo y, al mismo tiempo, mejora la precisión.

Veamos las dos restricciones principales que resuelve:

Saturación de tokensEn su anuncio, Anthropic da un ejemplo concreto: considera una configuración de cinco servidores:

GitHub: 35 herramientas (~26K tokens)
Slack: 11 herramientas (~21K tokens)
Sentry: 5 herramientas (~3K tokens)
Grafana: 5 herramientas (~3K tokens)
Splunk: 2 herramientas (~2K tokens)

Eso son 58 herramientas que consumen aproximadamente 55K tokens antes de que la conversación siquiera comience. Agrega servidores adicionales como Jira (que por sí solo usa ~17K tokens) y rápidamente te acercas a más de 100K tokens de sobrecarga. Ese consumo impacta directamente tanto la latencia de respuesta como los costos operativos.

Antes de este lanzamiento, los agentes empezaban a presentar problemas de confiabilidad con alrededor de 20 herramientas. Para dimensionarlo: el kit de GitHub por sí solo contiene 18 herramientas, y Gmail tiene entre 10 y 13. Eso creó restricciones prácticas severas. Las organizaciones no podían desplegar agentes capaces de manejar múltiples sistemas al mismo tiempo.

Precisión: La precisión en la selección de herramientas era otra restricción crítica. A medida que aumentaba el número de herramientas, la capacidad del modelo para elegir la correcta caía de forma significativa. El problema se volvía especialmente grave cuando las herramientas tenían nombres similares o funcionalidades que se solapaban.

Cómo resolvió esto Anthropic para Claude

La solución es directa: marca las herramientas condefer_loading: true. Esas herramientas siguen siendo descubribles pero no consumen contexto hasta que Claude realmente las necesite. Claude busca usando regex o ranking por palabras clave (BM25), y solo carga lo que necesita.

Los resultados son contundentes: una reducción del 85% en el uso de tokens manteniendo acceso a toda tu biblioteca de herramientas, más mejoras significativas de precisión en evaluaciones de MCP, con Opus 4 pasando del 49% al 74% con esta función activada.

¿Por qué nos entusiasma esto en Arcade.dev?

Aunque esta capacidad representa un salto importante, también introduce desafíos de infraestructura críticos que las organizaciones deben resolver cuando ejecutan y escalan agentes en producción. A medida que los agentes tienen acceso a cualquier cantidad de herramientas, las empresas ahora deben garantizar que pueden conectarse a ellas de forma segura, que las herramientas están optimizadas para agentes y que pueden mantener gobernanza y control a escala. Ahí es donde el runtime de MCP de Arcade puede ayudar.

1. Autorización segura de agentes

La autorización de agentes es uno de los desafíos más difíciles de resolver, y por eso la mayoría de los proyectos de AI nunca pasan de una demo de un solo usuario. Arcade garantiza que los agentes puedan actuar en cualquier sistema con permisos controlados y específicos por usuario. Se integra con flujos existentes de OAuth, IDP y acceso de usuarios, así que obtienes controles granulares para tus agentes desde el primer día.

2. Herramientas optimizadas para agentes

La mayoría de los servidores y herramientas MCP solo envuelven APIs existentes, lo que genera baja precisión y usuarios frustrados. Puedes darle a Claude acceso a mil herramientas, pero si están mal construidas, no sirve de nada. Definiciones de herramientas deficientes llevan a selecciones deficientes. Arcade ofrece el catálogo más grande de herramientas MCP optimizadas para agentes desde el primer día. Nuestras herramientas superan a las demás porque hicimos el trabajo difícil de que realmente funcionen: no solo envolvemos APIs, sino que construimos herramientas diseñadas específicamente para manejar la intención del agente con mayor confiabilidad y menores costos.

3. Gobernanza a escala

Más acceso a herramientas desbloquea más casos de uso, lo que significa más agentes y más equipos desplegándolos en toda tu organización. Esta proliferación de agentes y MCP hace difícil saber si los equipos están reconstruyendo servidores existentes o rompiendo flujos de trabajo al publicar actualizaciones. El runtime de MCP de Arcade centraliza el control y la gobernanza de todas tus herramientas MCP, mejora el descubrimiento y acceso a estas herramientas entre equipos, habilita pruebas y versionado seguros, y ofrece la única visibilidad sobre qué accede cada agente en nombre de cada usuario en cada servicio, acelerando así los despliegues de producción de confianza en toda la organización.

Limitaciones del Tool Search que debes considerar

Hay algunas limitaciones del Tool Search Tool de Anthropic que vale la pena mencionar.

Primero, esta herramienta solo está disponible para Claude. Si usas Anthropic para tu modelo grande pero otro proveedor para tus modelos pequeños (un patrón bastante común), esta función no funcionará en ambos. También será especialmente problemático para equipos que usan agentes de código o asistentes de IDE, donde la función solo funcionará en un subconjunto de los modelos disponibles.

Segundo, el soporte amplio en frameworks tomará tiempo. Por ahora, la implementación requiere usar el SDK de Anthropic directamente con headers y flags beta especiales. Esta capacidad aún no está soportada en LangChain ni en otros frameworks populares.

Es hora de construir

Anthropic ha eliminado una restricción importante en las capacidades de los agentes de AI.

Sin embargo, la pregunta crítica no es si tu agente puede acceder a mil herramientas, sino si debería hacerlo, y si puedes gestionarlo de forma segura y efectiva, especialmente cuando los agentes tienen acceso a sistemas críticos de producción.

Ahí es donde entra Arcade. Como runtime para MCP, Arcade es el único capaz de ofrecer autorización segura de agentes, herramientas de alta precisión y gobernanza centralizada. Te damos la capacidad de desplegar agentes de AI multiusuario que actúan en cualquier sistema con permisos granulares y visibilidad completa, sin infraestructura compleja.

¿Construyendo agentes de AI para producción? Prueba el runtime de MCP de Arcade gratis para que puedas lanzar más rápido y escalar con control.