Arcade.dev vs Composio : benchmark MCP

Quand nous avons migré notre CRM vers Attio, nous avons construit notre propre toolkit MCP pour automatiser nos workflows go-to-market. Dans ce cadre, nous avons décidé de comparer le toolkit Attio d’Arcade.dev avec celui de Composio pour mesurer l’impact des différences de qualité entre les outils. Sur 8 requêtes CRM, Arcade a consommé 7 426 tokens au total contre 747 083 pour Composio, soit un écart supérieur à 100x.

À cette échelle, le choix du toolkit cesse d’être un détail d’implémentation pour apparaître directement dans vos coûts d’infrastructure et la fiabilité de vos agents. Voici l’analyse complète du benchmark.

Benchmark

Nous avons alimenté un sandbox CRM Attio avec 50 entreprises (Fortune 50), 100 contacts (vrais dirigeants C-suite) et 50 deals répartis sur 6 étapes de pipeline. Nous avons ensuite exécuté 8 requêtes CRM identiques via deux toolkits MCP, Arcade et Composio, en enregistrant le volume brut de tokens de chaque réponse. Les deux tests utilisaient Claude Code comme client et Claude Sonnet 4.6 comme modèle.

L’ensemble des données de réponse brutes, le script de seed du sandbox et les prompts d’évaluation exacts sont disponibles en open source sur github.com/ArcadeAI/attio-mcp-benchmark. Vous pouvez reproduire ce test vous-même.

Résultats

Total de tokens sur les 8 requêtes :

Toolkit	Total Tokens	Avg per Query
Arcade	7,426	928
Composio	747,083	93,385

Composio a fourni 100,6x plus de tokens de réponse qu’Arcade pour les mêmes 8 requêtes sur le même workspace.

Détail par requête :

#	Query	Arcade	Composio	Ratio
01	List 25 companies (name only)	902	144,363	160x
02	Deals in Nurture stage (name + stage)	974	48,792	50x
03	Deals over $50K (name + value)	1,072	66,752	62x
04	Companies with “Tech” in name	354	48,103	136x
05	Technology companies (name + categories)	1,030	165,958	161x
06	Deals before March 2026 (name + date + value)	1,600	111,829	70x
07	Large Technology companies (compound filter)	1,329	159,032	120x
08	Highest-value deal (sort desc, limit 1)	165	2,254	14x

Comptage de tokens via tiktoken cl100k_base. Les deux toolkits ont été testés en conditions réelles sur le même workspace Attio avec les mêmes données seedées.

Pourquoi cet écart existe

Trois différences structurelles expliquent le delta de 100x :

1. Sélection de champs vs dump complet des enregistrements

Arcade exige que les agents précisent quels champs ils ont besoin (nom, valeur, étape). La réponse ne contient que ces champs.

Composio retourne tous les champs de chaque enregistrement : tous les attributs personnalisés, tous les attributs natifs, sans aucune possibilité de sélectionner des champs spécifiques.

Dans ce workspace, un seul enregistrement d’entreprise représente environ 5 800 tokens dans le format de réponse de Composio. Avec Arcade, le même enregistrement avec uniquement le nom sélectionné représente environ 30 tokens.

2. Métadonnées temporelles sur chaque champ

Composio enveloppe chaque valeur d’attribut avec les métadonnées complètes de l’API Attio : active_from، active_until، attribute_type، created_bydes objets acteur et des annotations de type. Il s’agit de la réponse brute de l’API Attio v2 transmise sans modification.

Arcade aplatit tout cela en paires clé-valeur. Un nom d’entreprise est "Apple Inc."et non un objet imbriqué avec des timestamps et des références d’acteur.

3. La récupération sur erreur consomme davantage de contexte

La requête 07 (filtre composé : entreprises Technology avec 1 000+ employés) a nécessité 4 appels d’outil avec Composio contre 1 avec Arcade :

Première tentative échouée : $inopérateur non supporté sur les champs select
Deuxième tentative échouée : les valeurs d’option 501-1000n’existent pas dans ce workspace
Appel de découverte de schéma : récupération du schéma complet des attributs d’entreprise (~40 attributs) juste pour connaître les titres d’option réels (5K-10K، 10K-50K, etc.)
Troisième tentative réussie avec les valeurs d’option correctes

Arcade a résolu la requête en un seul appel. Le contexte total consommé lors de la résolution Q07 par Composio était nettement plus important que ce qui a été enregistré sur disque.

Ce que ça implique pour les agents

Au débit de tokens d’Arcade, un agent peut exécuter les 8 requêtes du benchmark et ne consommer que 3,7 % d’une fenêtre de contexte de 200K.

Au débit de Composio, les mêmes 8 requêtes consomment 373 % d’une fenêtre de 200K : les réponses ne tiennent pas dans un seul contexte. La première réponse batch seule représentait 467K tokens.

Pour les workflows agents multi-étapes, où l’agent doit interroger, raisonner et agir sur plusieurs opérations CRM, la marge de contexte disponible détermine si l’agent mène sa tâche à bien ou perd le fil. Des recherches sur les performances des LLM en long contexte (Lost in the Middle, Liu et al. 2023) montrent que la précision se dégrade à mesure que l’entrée grossit, surtout quand les informations pertinentes sont enfouies au milieu de longues entrées.

Le coût à grande échelle

En utilisant les comptages moyens de tokens par requête issus de ce benchmark (928 pour Arcade, 93 385 pour Composio) au tarif d’entrée de Claude Sonnet 4.6 ($3/M tokens) :

Scale	Queries/Month	Arcade	Composio	Monthly Savings	Annual Savings
Small team (10 agents, 50 queries/day)	15,000	$42	$4,202	$4,161	$49,928
Mid-market (25 agents, 100 queries/day)	75,000	$209	$21,012	$20,803	$249,633
Enterprise (100 agents, 200 queries/day)	600,000	$1,670	$168,093	$166,423	$1,997,071

Ces chiffres représentent uniquement les coûts en tokens d’entrée, soit la différence marginale entre les deux toolkits sur les données de réponse des outils. Les coûts totaux des agents (prompts système, raisonnement, tokens de sortie) s’ajoutent des deux côtés de façon identique.

Au niveau mid-market, le seul choix du toolkit pourrait représenter un quart de million de dollars par an. À l’échelle enterprise, cela pourrait atteindre 2 M$. Et c’est aux tarifs Sonnet. Pour des agents tournant sur Opus 4.6 ($15/M), multipliez ces chiffres par 5.

Méthodologie

Sandbox : 50 entreprises, 100 contacts, 50 deals, 26 attributs personnalisés (15 sur les entreprises, 11 sur les deals). Seedé via scripts/seed_workspace.py.
Client : Claude Code avec Claude Sonnet 4.6
Requêtes : 8 prompts d’évaluation couvrant : liste, filtre par statut, filtre numérique, recherche textuelle, filtre select, comparaison de dates, filtre composé, et tri + limite
Mesure : tiktoken cl100k_base sur les réponses JSON brutes complètes enregistrées sur disque

Reproduisez-le vous-même :

git clone https://github.com/ArcadeAI/attio-mcp-benchmark
cd attio-mcp-benchmark

# Seed a sandbox (requires Attio API key)
ATTIO_API_KEY=your_key python3 scripts/seed_workspace.py

# Run evals (see evals/*.md for the 8 prompts)
# Connect your toolkit's MCP server and run each prompt

# Count tokens
pip3 install tiktoken
python3 scripts/count_tokens.py