LLM math vs Tool-calling for LLMs

Il est courant de tester les grands modèles de langage (LLM) en leur soumettant des puzzles difficiles, commemultiplier des nombres énormes. Ces tests constituent des benchmarks de recherche intéressants, mais ils peuvent passer à côté de l’essentiel : l’utilité réelle. La dernière fois que vous avez demandé à un collègue de multiplier un nombre à 20 chiffres de tête, sans calculatrice, c’était quand ?

L’utilité réelle n’est pas toujours bien captée par des benchmarks artificiels. Tout au long de l’histoire, les humains ont inventé des outils pour amplifier leurs capacités : les menuisiers utilisent des scies, les comptables des calculatrices. Les outils aident les humains à faire plus et à aller plus vite, et ils aident les LLM de la même façon.

Si vous développez des produits alimentés par l’IA, il est logique de laisser les LLM se concentrer sur ce qu’ils font bien (le langage et le raisonnement), tout en déléguant les tâches spécialisées, comme les calculs complexes, à des outils dédiés.

Que se passe-t-il quand les LLM disposent d’outils ?

L’idée de donner à l’IA accès à des outils n’est pas nouvelle. Les premières approches se concentraient sur desoutils assemblés par de simples scripts. Cette approche rudimentaire a évolué vers des agents IA, avec un « cerveau » (le LLM) qui pilote différents outils pour accomplir des tâches réelles. Sans outils, un LLM se cantonne aux conversations. Donnez-lui des outils, et il peut soudainement passer à l’action.

Chez Arcade.dev, nous avons voulu reproduire l’expérience de grande multiplication avec des outils, mais avec une variante : nous avons utilisé GPT-3.5 Turbo d’OpenAI, le modèle le plus ancien capable d’appeler des fonctions (outils). Ce n’est pas le plus récent ni le plus puissant, et il est franchement mauvais en multiplication seul. Mais en lui donnant un outil Multiply, il a réussi le défi sans faute :

math tool calls for LLMs

Vous pourriez dire : « Normal, vous lui avez donné une calculatrice avec un seul bouton ! » C’est juste. Si le LLM dispose d’une calculatrice plus grande avec davantage de « boutons », saura-t-il quand même choisir et utiliser le bon outil ?

Spoiler : oui ! Même en élargissant l’expérience à 20 outils mathématiques différents, le modèle a répondu juste à chaque fois. Nous avons utilisé leframework d’évaluation d’outils d’Arcade pour tester et affiner nos outils mathématiques, ce qui aide les modèles (surtout les plus petits) à bien performer.

Ce résultat ne signifie pas que 3.5 Turbo est « plus intelligent » que des modèles récents comme OpenAI o1 ou Claude 3.7 Sonnet. Mais il montre qu’équiper les LLM d’un ensemble d’outils adaptés peut considérablement accroître leur utilité réelle. LeBerkeley Function Calling Leaderboard regorge de données sur le comportement des différents modèles quand on leur propose de nombreux outils.

Devenez expert en appel d’outils

Envie d’expérimenter par vous-même ? Consultez notre code pourreproduire les résultats.

Comme les humains, les LLM obtiennent de bien meilleurs résultats quand ils disposent de bons outils. Seuls, des modèles de raisonnement puissants comme o1-mini eto1-preview peinent sur les grands calculs. Mais avec un outil calculatrice, GPT 3.5 Turbo résout le problème moins cher, plus vite et sans la moindre erreur. Pour donner un ordre de grandeur : o1-mini coûte cher (1,10 $/4,40 $ par million de tokens en entrée/sortie), alors que 3.5 Turbo est bien moins onéreux (0,50 $/1,50 $ par million de tokens en entrée/sortie), soit environ 40 % du prix d’o1-mini et seulement 3 % du prix d’o1 !

Pas mal pour un modèle sorti il y a 3 ans, non ? Si vous déployez des produits IA à grande échelle, c’est un paramètre décisif à intégrer dès la conception de vos systèmes.

Chez Arcade, nous croyons à un futur où les agents IA utilisent des outils pour résoudre efficacement des problèmes concrets. Si vous développez des produits propulsés par l’IA et souhaitez que vos modèles accomplissent des choses vraiment utiles,essayez Arcade : c’est la façon la plus simple et la plus puissante de doter vos modèles IA des outils dont ils ont besoin et de lesévaluer pour une efficacité dans le monde réel.

P.S. - Curieux de voir comment GPT-3.5 Turbo s’en sort sans outils ? Le résultat n’est pas brillant.

GPT-3.5 Turbo does without tools