
Es común evaluar los Large Language Models (LLMs) pidiéndoles resolver puzzles difíciles, como multiplicar números enormes. Estas pruebas son benchmarks de investigación interesantes, pero pueden pasar por alto algo importante: la utilidad en el mundo real. ¿Cuándo fue la última vez que le pediste a un compañero de trabajo que multiplicara un número de 20 dígitos de cabeza, sin calculadora?
La utilidad en el mundo real no siempre queda bien representada por benchmarks artificiales. A lo largo de la historia, los humanos han inventado herramientas para potenciar sus capacidades: los carpinteros usan sierras, los contadores usan calculadoras. Las herramientas ayudan a los humanos a hacer más y trabajar más rápido, y con los LLMs funcionan igual.
Si estás desarrollando productos con AI, tiene sentido dejar que los LLMs se concentren en lo que saben hacer, como el lenguaje y el razonamiento, mientras delegan tareas especializadas, como cálculos complejos, a herramientas dedicadas.
¿Qué pasa cuando los LLMs tienen herramientas?
La idea de darle a la AI acceso a herramientas no es nueva. Los primeros enfoques se centraban en herramientas conectadas por scripts simples. Ese enfoque evolucionó hacia los agentes de AI, con un “cerebro” (el LLM) que dirige distintas herramientas para ejecutar tareas reales. Sin herramientas, un LLM solo puede conversar. Dales herramientas y de repente puede hacer cosas de verdad.
En Arcade.dev quisimos recrear el experimento de multiplicación grande usando herramientas, pero con un giro: usamos GPT-3.5 Turbo de OpenAI, el modelo más antiguo que puede llamar funciones (herramientas). No es el más nuevo ni el más potente, y es bastante malo multiplicando por sí solo. Pero al darle una herramienta Multiply, resolvió el reto a la perfección:

Podrías decir: “¡Claro que lo logró, le diste una calculadora con un solo botón!” Y es justo. Si el LLM tiene una calculadora más grande con más “botones”, ¿seguirá eligiendo y usando la herramienta correcta?
Spoiler: ¡Sí! Incluso cuando ampliamos el experimento a 20 herramientas matemáticas distintas, el modelo respondió todo correctamente. Usamos el framework de evaluación de herramientas de Arcade para probar y ajustar nuestras herramientas matemáticas, lo que ayuda a los modelos (especialmente los más pequeños) a rendir bien.
Este resultado no significa que 3.5 Turbo sea “más inteligente” que modelos más nuevos como OpenAI o1 o Claude 3.7 Sonnet. Pero sí demuestra que darle a los LLMs un conjunto adecuado de herramientas puede aumentar mucho su utilidad en el mundo real. El Berkeley Function Calling Leaderboard tiene datos excelentes sobre cómo se comportan distintos modelos cuando tienen muchas herramientas para elegir.
Conviértete en un pro del tool calling
¿Te interesa experimentar por tu cuenta? Revisa nuestro código para replicar los resultados.
Al igual que las personas, los LLMs rinden mucho mejor cuando cuentan con buenas herramientas. Por sí solos, modelos de razonamiento potentes como o1-mini y o1-preview tienen problemas con cálculos grandes. Pero cuando se le da una calculadora a GPT 3.5 Turbo, resuelve el problema de forma más barata, más rápida y sin errores. Para que te des una idea, usar o1-mini es caro ($1.10/$4.40 por millón de tokens de entrada/salida), mientras que 3.5 Turbo es significativamente más económico ($0.50/$1.50 por millón de tokens de entrada/salida), alrededor del 40% del precio de o1-mini y solo el 3% del precio de o1.
Nada mal para un modelo de hace 3 años, ¿no? Si estás desplegando productos de AI a escala, esto es algo que debes considerar seriamente al diseñar tus sistemas.
En Arcade nos emociona un futuro donde los agentes de AI usan herramientas para resolver problemas del mundo real de forma efectiva. Si estás desarrollando productos con AI y quieres que tus modelos hagan cosas útiles, prueba Arcade es la forma más simple y poderosa de darle a tus modelos de AI las herramientas que necesitan y evaluar su efectividad en el mundo real.
P.D. - ¿Curioso de cómo le va a GPT-3.5 Turbo sin herramientas? No es bonito.


