El cuello de botella en ingeniería para el AI empresarial cambió. Tu equipo ya construyó agentes que funcionan en entornos de un solo usuario con LangChain o Mastra. El problema llega cuando intentas conectar esos agentes a sistemas empresariales seguros para miles de empleados sin crear nuevas vulnerabilidades de seguridad ni una carga de mantenimiento permanente.

En 2026, los directores de ingeniería enfrentan una decisión arquitectónica real, y no es si deben escribir servidores MCP (Model Context Protocol) personalizados. Esos servidores son la forma de conectar agentes a sistemas internos propietarios, sin importar el camino que elijas. La decisión real es si también construyes la capa de runtime que los envuelve: ciclo de vida OAuth, almacenamiento seguro de credenciales, autenticación multiusuario, lógica de intersección de permisos, pipeline de auditoría, aplicación de políticas y observabilidad. Construye esa capa sobre LangChain o Mastra, o compra un runtime de MCP que la entregue lista para usar.

La respuesta correcta depende de tu perfil de despliegue. Cuando entran en juego la autorización multiusuario, la gobernanza de nivel de auditoría o la observabilidad asíncrona de llamadas a herramientas, el camino de construcción genera costos crecientes y una superficie de riesgo mayor. Mantener tu propio auth, almacenamiento de credenciales y pipeline de auditoría mete cada acción del agente dentro de tu radio de impacto de seguridad. La decisión favorece comprar un runtime.

TL;DR: Construir vs. comprar runtime de MCP

Un runtime de MCP se encarga del trabajo que la mayoría de los equipos no debería escribir por su cuenta: autorización de agentes, rotación de tokens OAuth, registro de auditoría y aplicación de políticas. El runtime es la capa de ejecución, autorización y gobernanza donde corren las herramientas de tu agente (los servidores MCP).

Si construyes tu propio runtime. Tres perfiles específicos encajan en este camino: alcance de un solo usuario, infraestructura de agentes como producto principal, o pipelines de API completamente internos. Conservas el control total y asumes la responsabilidad del ciclo de vida OAuth, el almacenamiento de credenciales, el registro de auditoría y la aplicación de políticas. Cada integración se convierte en una partida permanente en tu roadmap de ingeniería; el mantenimiento de auth y políticas nunca llega a cero.

Si compras un runtime. Esta es la opción predeterminada para producción multiusuario. Obtienes gobernanza centralizada del ciclo de vida que se alinea con tus políticas existentes, autorización multiusuario con gestión completa del ciclo de vida OAuth, ejecución de herramientas y la posibilidad de construir herramientas propias sin reconstruir la capa de runtime.

Cuatro puntos de inflexión obligan a pasar de una capa de runtime propia a una de un proveedor externo:

  • Superar el umbral de tres integraciones, donde el mantenimiento de APIs empieza a consumir sprints completos.
  • Introducir acciones delegadas por usuario, donde los agentes deben ejecutar llamadas a herramientas en nombre de usuarios específicos con permisos distintos.
  • Pasar de tareas síncronas de solo lectura a operaciones asíncronas de larga duración con lectura y escritura que rompen los tiempos de espera estándar del LLM.
  • Necesitar registros de auditoría compatibles con OpenTelemetry para satisfacer a los equipos de cumplimiento y seguridad.

El estado de la infraestructura MCP: el infierno de la configuración vs. el costo de comprar

El Model Context Protocol estandarizó cómo las aplicaciones de AI consumen contexto y ejecutan herramientas, reemplazando los wrappers de API a medida que los equipos escribían para cada función de LLM.

Adoptar MCP introduce desafíos arquitectónicos. Los equipos de plataforma empresarial eligen entre dos cargas operativas: la trampa DIY del «infierno de configuración» o el costo de la dependencia del proveedor y su cadencia de desarrollo.

El infierno de configuración ocurre cuando escalas servidores MCP a medida. Los ingenieros de plataforma pasan el tiempo editando configuraciones JSON para re-mapear esquemas de herramientas cada vez que un proveedor SaaS depreca un endpoint, persiguiendo desvíos en la rotación de tokens cuando un refresh OAuth expira y la lógica de reintento personalizada no maneja el caso extremo, y gestionando el trabajo manual que exige el cumplimiento de SOC 2 y GDPR (registros de esquemas inmutables, manifiestos de herramientas firmados, middleware para redactar PII de las salidas). Cuando construyes tu propia infraestructura, eres dueño de cada conexión rota, cada token expirado y cada parche de seguridad.

El runtime no es un proxy adicional frente a tus herramientas. En una arquitectura agéntica, el agente ya es el proxy. Actúa como intermediario entre el usuario y los sistemas externos, decide qué herramientas llamar y orquesta flujos de trabajo de varios pasos. El runtime es la capa de ejecución donde la acción elegida realmente ocurre: ahí se resuelven las credenciales, se aplican las políticas y se realiza la llamada en nombre de un usuario específico.

El runtime es la mejor puerta de entrada.

Los costos reales del lado de compra son distintos. Aceptas los primitivos de política del runtime y el formato de observabilidad como dependencia del proveedor. Asumes la sobrecarga de las verificaciones de autorización por herramienta y la resolución de tokens en tiempo real, que es una fracción de la latencia de inferencia del LLM y de las APIs externas.

La decisión real en 2026 es de riesgo, no de costo. Si construyes tu propia capa de runtime, tu radio de impacto de seguridad crece con cada integración, usuario y cambio de política. Comprar un runtime traslada ese trabajo a un proveedor que ya fue auditado para ello. Para despliegues empresariales, ese es el lado más seguro del tradeoff.

Cuándo construir tu propio runtime

Construir tu propia capa de runtime es la decisión correcta en un conjunto reducido de escenarios. El ecosistema open-source maduró lo suficiente para que equipos de ingeniería de plataforma con experiencia profunda puedan montar su propia capa de orquestación sobre los SDKs oficiales de Python o TypeScript del Model Context Protocol. Los SDKs implementan la especificación MCP sobre JSON-RPC 2.0 y admiten tanto stdio para comunicación entre procesos locales como Streamable HTTP para ejecución remota. Los equipos envuelven los servidores MCP en adaptadores que proveen frameworks como LangChain o Mastra para que los agentes puedan invocarlos directamente, y luego los despliegan en Kubernetes usando Helm charts personalizados.

Los servidores MCP en sí se convierten en la parte fácil. La capa de runtime que los envuelve es el trabajo real, y los casos donde construir esa capa internamente tiene sentido son pocos.

Construye tu propio runtime si tienes alcance de un solo usuario. El OAuth por usuario, el almacenamiento de tokens y la intersección de permisos son las partes más difíciles de la capa de runtime, y solo importan cuando hay más de una persona involucrada. Un desarrollador en solitario que conecta sus propias credenciales a un agente no las necesita.

Construye tu propio runtime si la infraestructura de agentes es tu producto principal. Una startup cuyo producto completo es un agente de programación inteligente para usuarios finales debe controlar cada capa del stack. Los ingenieros deben profundizar en ese trabajo porque es la empresa en sí.

Construye tu propio runtime solo si controlas cada API del pipeline. Si tus agentes actúan únicamente sobre sistemas y fuentes de datos que tú administras, sin conexiones a SaaS de terceros, te saltas por completo el problema del ciclo de vida OAuth, y el argumento para comprar se debilita.

Los despliegues air-gapped no son un motivo para construir tu propio runtime; son una pregunta sobre el modo de despliegue. Los runtimes auto-hospedados ejecutan la capa de runtime del proveedor completamente dentro de tu infraestructura, satisfacen el requisito air-gap y heredan auth, auditoría y gobernanza del runtime. Construye tu propia capa de runtime solo cuando el despliegue también prohíba software de proveedores externos, lo que típicamente aplica a entornos de alto nivel de clasificación.

Fuera de esos tres casos, construir tu propio runtime es una mala asignación del tiempo de tus ingenieros senior.

Además de los servidores MCP en sí, tendrás que construir bóvedas de tokens seguras para gestionar los ciclos de vida de los refresh de OAuth por usuario y servicio. Manejar los límites de tasa y la paginación específicos de cada proveedor. Diseñar máquinas de estado para el debugging asíncrono cuando una llamada a herramienta tarda diez minutos. Parchear servidores personalizados cada vez que una API upstream cambia su esquema. Si te saltas ese trabajo, obtienes alucinaciones del agente y fallas silenciosas.

Auth y política tienen su propia carga permanente, independiente del drift de APIs. La gente entra y sale de la empresa. Los roles cambian. Los permisos se revocan. Las políticas se endurecen después de un incidente. Cada evento tiene que fluir por tu capa de auth personalizada en tiempo real. Este es un costo permanente de headcount, no un problema de “construyes una vez y te olvidas”, y nunca disminuye conforme crece el despliegue.

Cuándo comprar un runtime

Un runtime MCP desplaza el esfuerzo de ingeniería de la infraestructura al producto. Tu equipo opera sobre una capa de ejecución que ya gestiona auth, bóvedas, auditoría y política, en lugar de construir cada una.

Un runtime te da cuatro cosas listas para usar.

Gobernanza centralizada del ciclo de vida. El runtime es el punto de aplicación de las políticas que tu organización ya definió en otros sistemas (tus IDPs, tus herramientas de ventas, tus sistemas de seguridad). Las mapea a esas políticas existentes y las aplica en la capa de agente, sin pedirte que recrees políticas de acceso dentro de una nueva herramienta. Los administradores tienen un único plano de control para gestionar el comportamiento de los agentes, auditar la ejecución de herramientas y desplegar actualizaciones de forma segura en toda la organización.

Autorización post-prompt multiusuario. Cada llamada a herramienta se ejecuta con las credenciales y permisos del usuario que solicita la acción. El runtime gestiona el ciclo de vida del token OAuth (bóveda segura, refresh, rotación) sin exponer las credenciales al LLM.

Un catálogo de herramientas MCP preconfiguradas y con control de versiones, para que tus agentes accedan a miles de sistemas empresariales desde el primer día.

Una ruta para herramientas propietarias que no requiere reconstruir la capa de runtime. Cuando necesitas servidores MCP personalizados para sistemas internos, los escribes sobre el framework MCP open-source del runtime y heredas auth, auditoría y gobernanza sin costo adicional. Si ya tienes servidores MCP personalizados construidos sin el framework, puedes conectarlos al runtime y obtener las mismas capacidades de auth, auditoría, gobernanza y hooks de política pre/post llamada sin reescribirlos.

Los ingenieros de plataforma dejan de escribir scripts de integración frágiles y depurar flujos OAuth rotos, y pasan a gestionar políticas de acceso de alto nivel. Tu equipo define qué agentes pueden acceder a qué herramientas, configura filtros de visibilidad para que cada equipo solo vea las integraciones permitidas, y monitorea dashboards compatibles con OpenTelemetry para rastrear el razonamiento del agente y la latencia de ejecución de herramientas. Dedicas el tiempo a la lógica del agente, no a la fontanería.

Scorecard MCP empresarial: criterios para decidir entre construir o comprar

Ocho dimensiones separan un prototipo local de un despliegue en producción. La matriz evalúa cada opción contra ellas.

Dimensión de evaluaciónCapa de runtime DIY (SDKs open-source)Runtime MCP de proveedor
Control y personalizaciónAbsoluto. Control total sobre las capas de transporte, estado de memoria personalizado y aislamiento de hardware a medida.Alto. Ejecución estandarizada de herramientas con hooks para políticas personalizadas, pero acceso limitado a la infraestructura subyacente.
Velocidad de configuraciónSemanas a meses. Requiere construir capas de auth, bóvedas de tokens y pipelines de despliegue de infraestructura.Horas a días. Integración directa con IdPs existentes y acceso inmediato a catálogos de herramientas preconfiguradas.
Carga de mantenimientoAlta. El equipo gestiona todas las actualizaciones de esquemas de API, deprecaciones, lógica de rotación de tokens y parches de seguridad. El trabajo se acumula con cada integración y cada cambio de política.Mínima. El proveedor absorbe el drift de APIs, el ciclo de vida de tokens y los parches de seguridad. Tu equipo gestiona políticas de acceso y visibilidad, no infraestructura.
Autorización multiusuarioImplementación manual. Alto riesgo de inyección de prompts y filtración de credenciales si se construye incorrectamente.Integrada. Emisión automatizada de tokens just-in-time, con alcance por usuario y aislados del LLM.
Gobernanza del ciclo de vidaFragmentada. Requiere middleware de logging personalizado, integraciones SIEM dispares y control de versiones manual.Centralizada. Plano de control unificado, logs de auditoría nativos de OpenTelemetry y prevención de MCP shadow.
Manejo de tareas asíncronasComplejo. Requiere construir polling externo, colas de dead-letter y máquinas de estado duraderas para timeouts.Nativo. Ejecución paralelizada, failover automático, reintentos inteligentes y obtención desacoplada de resultados.
Opciones de despliegueInfinitas. Despliega en cualquier lugar, incluyendo entornos completamente air-gapped y sin conexión.Cloud, auto-hospedado on-prem o en cloud (nivel enterprise del proveedor), híbrido o completamente air-gapped. Cloud requiere egreso de red hacia el plano de control del proveedor; self-hosted ejecuta el runtime completamente en tu propia infraestructura.
Perfil de equipo idealAlcance de un solo usuario, la infraestructura de agentes es tu producto principal, controlas cada API del pipeline.Producción multiusuario, combinación de requisitos propietarios y SaaS, equipos que optimizan para tiempo de obtención de valor y gobernanza de nivel auditoría.

Autorización multiusuario en producción

La autorización multiusuario es donde la mayoría de los proyectos de agentes empresariales se detienen antes de llegar a producción.

Un desarrollador que prueba localmente pasa sus API keys personales al sistema. En producción, un agente atiende a miles de usuarios con distintos alcances de permisos.

Si tu capa de runtime depende de una cuenta de servicio compartida o reenvía el bearer token de alcance completo del usuario al contexto del LLM, creaste un vector de ataque. Un ataque de inyección de prompts le indica al agente que use esos permisos heredados para exfiltrar datos o eliminar repositorios.

Las cuentas de servicio compartidas también rompen los requisitos de trazabilidad en auditorías: los sistemas no pueden distinguir una acción autónoma del agente de una dirigida por un humano.

Un runtime resuelve esto con autorización multiusuario posterior al prompt. El runtime aplica una intersección de permisos en el momento de ejecución:

Permisos del agente ∩ Permisos del usuario = Alcance efectivo de acción

El agente solo puede ejecutar una acción si tanto la política de rol del agente como los permisos nativos del usuario en el SaaS lo permiten. Cualquier otra combinación se deniega.

Por ejemplo, un agente de RRHH limitado a tareas de reclutamiento es invocado por un empleado con privilegios de administrador en Workday, incluyendo acceso a datos globales de nómina. Cuando el agente intenta leer la nómina, el runtime evalúa la intersección en el momento de la llamada y deniega la solicitud. El usuario tiene la autoridad, pero el alcance restringido del agente bloquea la acción.

El runtime obtiene un token de alcance reducido y just-in-time para ejecutar la acción permitida en nombre del usuario. Las credenciales nunca llegan al cliente LLM, lo que elimina la inyección de prompts como vector directo de robo de credenciales.

Gobernanza del ciclo de vida y auditoría

Sin gobernanza centralizada, los despliegues de agentes empresariales se convierten en shadow IT. Los desarrolladores levantan servidores MCP no autorizados en máquinas locales o instancias cloud sin supervisión, conectando LLMs a bases de datos internas sin ningún control.

Un runtime actúa como el punto central de aplicación de las políticas que tu organización ya definió en otros sistemas. Se conecta con tus IDPs, tus herramientas de ventas y tus sistemas de seguridad, y aplica lo que ya existe. No te pide que recrees políticas de acceso dentro de una nueva herramienta. Piensa en el runtime como el filtro: aplica, no define. Todas las herramientas y servidores se registran en un catálogo único. El filtrado de visibilidad garantiza que un agente de RRHH solo vea herramientas de RRHH, mientras que un agente de código solo vea herramientas de repositorios.

Además de aplicar lo ya definido, el runtime expone hooks previos y posteriores a cada llamada de herramienta para lógica personalizada. Los equipos de cumplimiento inyectan sus propias variables (estado del flujo de trabajo, ventanas de tiempo, volumen de solicitudes, datos contextuales del usuario o la sesión), y el runtime las trata como primitivas de aplicación de primera clase junto a las políticas estándar. Las condiciones específicas de cada organización se integran sin necesidad de bifurcar el runtime.

El runtime genera logs de auditoría detallados y compatibles con OpenTelemetry. Cada acción queda registrada: qué usuario activó el agente, qué modelo LLM generó la llamada a la herramienta, qué parámetros se enviaron y qué devolvió la API de destino. Esa visibilidad es un requisito previo para pasar revisiones de seguridad en industrias reguladas.

Tareas asíncronas y de larga duración

Las arquitecturas LLM estándar son síncronas. Los endpoints de inferencia expiran en cuestión de minutos.

Las acciones de agentes empresariales, como disparar builds de pipelines CI/CD, aprovisionar infraestructura cloud o consultar grandes almacenes de datos, pueden ejecutarse durante decenas de minutos o incluso horas.

Con un runtime DIY, los ingenieros de plataforma construyen el andamiaje asíncrono ellos mismos: colas de trabajos, sincronización de estado en memoria externa, mecanismos de polling y colas de mensajes fallidos para operaciones que no se completan.

Un runtime se encarga de ese trabajo. Soporta las últimas especificaciones de MCP Tasks, así que los agentes disparan un proceso de larga duración, reciben un identificador de tarea de inmediato y consultan el resultado de forma asíncrona.

El runtime gestiona la ejecución en paralelo, el enrutamiento de failover cuando un endpoint cae y los reintentos con backoff. El flujo de trabajo del agente se mantiene robusto sin que la capa de aplicación tenga que administrar el estado.

Observabilidad: trazas OpenTelemetry de extremo a extremo

El costo oculto de los stacks MCP DIY es el debugging. Cuando un agente falla en una llamada a herramienta a las 3 a.m., los ingenieros de plataforma tienen que unir trazas del run del agente, los logs de cada servidor MCP, los logs de reintentos de cada SDK de proveedor y la página de estado de cada API SaaS de destino. No existe una vista correlacionada. Investigar una sola acción asíncrona fallida significa hacer grep en tres sistemas en paralelo y reconstruir la secuencia a mano.

Un runtime emite una sola traza OpenTelemetry que cubre la cadena completa. Un ejemplo de árbol de spans para una acción de agente (“agendar una reunión de seguimiento y enviar el resumen”):

agent.run (root)                 user_id, session_id, agent_id
├─ llm.infer                     model, prompt_tokens, completion_tokens
├─ mcp.tool_call                 tool=google_calendar.create_event
│  ├─ mcp.authz                  policy_result=allow, user_scope=calendar.events.write
│  ├─ mcp.oauth.refresh          token_id, refresh_outcome=ok
│  └─ mcp.http.execute           target_host, status=200, latency_ms=412
├─ mcp.tool_call                 tool=gmail.send
│  ├─ mcp.authz                  policy_result=allow
│  ├─ mcp.retry                  attempt=2, reason=rate_limited
│  └─ mcp.http.execute           status=202, latency_ms=890
└─ llm.infer                     result synthesis

Exporta esa traza a Honeycomb, Datadog o tu SIEM, y puedes responder “¿qué usuario, agente, herramienta, política, token o reintento causó el fallo?” en una sola vista. Con DIY llegas ahí solo si construyes la capa de correlación de trazas tú mismo y la mantienes a medida que evolucionan los SDKs, los formatos de logs de proveedores y los motores de políticas. Ese mantenimiento es un costo directo de tu stack DIY que desaparece cuando adoptas un runtime que emite trazas de agente a herramienta de forma nativa.

Carga operativa de construir por cuenta propia

La carga operativa de una capa de runtime DIY se acumula con cada integración y cada cambio de política. El desarrollo inicial es la parte más pequeña del trabajo. La mayor parte del esfuerzo de ingeniería llega después del lanzamiento: depreciaciones de API, cambios de esquema, rotación de tokens OAuth, parches de seguridad y la rotación de auth y políticas que crece con cada usuario, cada cambio de rol y cada permiso revocado.

Un postmortem de producción de servidores MCP personalizados documenta la cadena de fallos típica: deriva de auth, estado de sesión huérfano, reintentos frágiles y alucinaciones silenciosas de herramientas. Cada fallo consume capacidad de ingeniería senior para diagnosticar y remediar, en plazos que no se comprimen.

Los ingenieros senior que construyen un runtime DIY pasan su tiempo en scripts de refresco OAuth y parches de respuesta a incidentes. Los que usan un runtime pasan su tiempo en lógica propietaria de agentes y flujos de trabajo específicos del dominio. La diferencia se acumula en cada equipo y cada trimestre.

Cómo evaluar vendors de runtime MCP en 2026

Comprar un runtime empieza por elegir al vendor correcto. El mercado de infraestructura MCP se divide en tres categorías generales. Los gateways enrutan el tráfico MCP. Los registries catalogan los servidores MCP. Los runtimes gestionan la ejecución, la autorización y la gobernanza. Distintos vendors cubren distintas capas. La mayoría cubre una. Algunos agrupan dos. El análisis de gateways, runtimes y registries MCP muestra dónde se ubica cada vendor en las tres categorías.

Dentro de la categoría de runtimes, evalúa a los vendors según cuatro capacidades:

  1. Gobernanza centralizada del ciclo de vida. ¿El runtime aplica las políticas que tu organización ya definió en otros sistemas (IDPs, herramientas de ventas, sistemas de seguridad), o te pide recrearlas en una nueva herramienta? Busca un único plano de control con logs de auditoría, control de versiones y filtrado de visibilidad para cada agente y herramienta.
  2. Autorización post-prompt multiusuario. ¿El runtime evalúa permisos por usuario y por acción en el momento de ejecución, o pasa por una cuenta de servicio compartida? El estándar mínimo es OAuth por usuario, con credenciales aisladas del LLM.
  3. Herramientas optimizadas para agentes, más una ruta para las propietarias. ¿Las herramientas traducen intención, o son simples wrappers de API que obligan al agente a rellenar IDs de objetos y enumeraciones? ¿El proveedor ofrece un framework de código abierto para construir servidores MCP personalizados para sistemas internos, heredando autenticación, auditoría y gobernanza sin reconstruir la capa de runtime?
  4. Hooks de política personalizados para acceso contextual. ¿Tu equipo de cumplimiento puede agregar lógica específica de la organización (estado del flujo, ventanas de tiempo, volumen de solicitudes, datos contextuales del usuario o sesión) como primitivas de enforcement de primera clase, sin hacer fork del runtime?

Cómo Arcade.dev cumple cada punto

Arcade es el runtime de MCP. Entrega las cuatro capacidades en una sola capa para agentes de AI multiusuario a escala.

Gobernanza del ciclo de vida del agente. Arcade es el punto central de enforcement para las políticas que tu organización ya definió. Se mapea y aplica políticas desde tus IDPs, herramientas de ventas y sistemas de seguridad, sin pedirte que recrearlas dentro de una herramienta nueva. Un plano de control único para cada herramienta, agente y proveedor de autenticación. Control de versiones para lanzar actualizaciones de herramientas de forma segura. Un registro compartido que evita que los equipos reconstruyan lo que ya existe. Filtrado de visibilidad para que los agentes solo vean las herramientas que su usuario tiene permiso de invocar. Logs de auditoría detallados, exportables a tu SIEM vía OpenTelemetry, que registran cada acción del agente por usuario y por servicio. La certificación SOC 2 Tipo 2 de Arcade valida estos controles mediante una auditoría independiente.

Autorización del agente. Cada solicitud MCP en Arcade lleva dos capas de identidad: una clave a nivel de proyecto (qué aplicación hace la solicitud) y una identidad a nivel de usuario (en nombre de quién se ejecuta la acción). Arcade evalúa la intersección de permisos del agente y del usuario de forma dinámica en runtime para prevenir escalada de privilegios. Maneja el ciclo de vida completo de OAuth (refresco, rotación, discrepancias) con credenciales aisladas del LLM, y se conecta con sistemas de gobernanza de identidad empresarial existentes como Okta, Entra y SailPoint para aplicar las políticas que la empresa ya definió, sin duplicarlas. Esa es la capa que elimina la inyección de prompts como vector directo de robo de credenciales.

Herramientas optimizadas para agentes. El catálogo de más de 8,000 herramientas MCP optimizadas para agentes de Arcade no son wrappers de API. Traducen la intención en lenguaje natural a llamadas de API estructuradas, para que un agente al que se le pide “envía esto a Finanzas” no tenga que alucinar el recipient_user_id. El costo en tokens se refleja en los benchmarks: para consultas de CRM idénticas, las herramientas de nivel de intención produjeron 100 veces menos tokens de respuesta que un enfoque de passthrough directo de API, con una salida equivalente al 3.7% de una ventana de contexto de 200K frente al 373%. A escala, esa sobrecarga se traduce en desbordamiento de la ventana de contexto en flujos de trabajo de múltiples pasos y menor precisión del agente. El runtime maneja ejecución paralela de herramientas, failover y reintentos. El Arcade MCP Framework te permite construir herramientas propietarias personalizadas que se federan en el mismo plano de control con la misma envoltura de autenticación y gobernanza.

Acceso contextual y políticas personalizadas. Además de aplicar las políticas que tu organización ya definió en otros sistemas, Arcade expone hooks previos y posteriores a la llamada de herramienta para lógica personalizada. Los equipos de cumplimiento agregan sus propias variables (estado del flujo, ventanas de tiempo, volumen de solicitudes, datos contextuales del usuario o sesión), y el runtime las trata como primitivas de enforcement de primera clase. Las condiciones específicas de la organización se conectan sin hacer fork del runtime.

Para empresas con requisitos mixtos (sistemas internos propietarios más amplitud SaaS, autenticación multiusuario más gobernanza, velocidad de despliegue más seguridad), Arcade cubre el conjunto completo sin forzar dependencia de un ecosistema.

Recomendación final

Para la mayoría de los despliegues empresariales en 2026, compra un runtime de MCP. El perfil de despliegue define cómo se implementa el runtime, no si se implementa.

Solo interno y propietario. Los datos sensibles son la señal de compra más clara, no un motivo para construir desde cero. Los sistemas heredados con datos propietarios son precisamente donde Arcade entra. Ahí es donde el dolor operativo es mayor y donde los responsables de seguridad y cumplimiento tienen más accountability directo. Un pipeline OAuth personalizado mantenido por un equipo pequeño es una posición que ningún líder de seguridad quiere defender en una auditoría regulada. Un runtime auditado con certificación SOC 2 Tipo 2 que ya superó escrutinio de terceros es mucho más fácil de defender.

Patrón recomendado: construye servidores MCP personalizados con el Arcade MCP Framework, ejecútalos dentro de tu VPC o on-prem, y crea un gateway MCP en el runtime para conectarlos al plano de control de Arcade. En entornos donde hasta el plano de control debe permanecer en la infraestructura del cliente, ejecuta el runtime en modo self-hosted. Los datos permanecen dentro de tu perímetro. El runtime maneja autenticación, OBO, credenciales en bóveda, logs de auditoría y gobernanza.

Para despliegues completamente air-gapped sin egreso de red externo, ejecuta un runtime self-hosted íntegramente dentro de tu infraestructura. La capa de runtime es idéntica a la versión en nube; solo cambia el modo de despliegue. Construye tu propio runtime únicamente cuando el entorno también prohíba software de proveedores externos.

Principalmente SaaS. En cuanto tu flujo de trabajo de agentes necesite conectarse a Google Workspace, Microsoft, Salesforce, GitHub o Slack, compras. El runtime maneja el ciclo de vida de OAuth, la deriva de esquemas y el mantenimiento de herramientas para cientos de APIs SaaS que tu equipo tendría que reconstruir. La brecha de seguridad es mayor en este perfil. También la brecha operativa.

Mixto (la mayoría de las empresas). Los agentes consultan bases de datos internas propietarias, sintetizan esa información y actúan en aplicaciones SaaS públicas. Los equipos con requisitos mixtos no tienen que elegir entre seguridad propietaria y amplitud SaaS. Adopta un runtime de MCP, como Arcade.dev, para cobertura SaaS, y luego crea un gateway MCP en el runtime para conectar servidores MCP internos (o servidores personalizados construidos con el Arcade MCP Framework) al mismo plano de control. Ambas superficies heredan los mismos controles de seguridad y auditoría, con autorización multiusuario envolviendo cada acción.

Si ya construiste servidores MCP sin el Arcade Framework, no tienes que reescribirlos. Conectar un servidor personalizado existente a Arcade te da autenticación, auditoría, gobernanza y hooks de política previos y posteriores a la llamada, encima de lo que ya tienes.

Resumen

Perfil de despliegueRecomendaciónPatrón
Solo interno-propietarioComprar un runtime de MCPConstruye servidores MCP personalizados con el Arcade MCP Framework, ejecútalos dentro de tu VPC o en sitio, y crea un gateway de MCP en el runtime para acceder a ellos. Autohospedado para entornos donde el plano de control debe permanecer en la infraestructura del cliente.
Completamente aislado (sin egreso externo)Comprar un runtime de MCP, autohospedadoEjecuta el runtime autohospedado de un proveedor completamente dentro de tu infraestructura. Constrúyelo tú mismo solo cuando el despliegue también prohíba software de proveedores externos.
Orientado a SaaSComprar un runtime de MCPAdopta el runtime directamente. Gestiona el ciclo de vida de OAuth, la deriva de esquemas y el mantenimiento de herramientas para cientos de APIs de SaaS.
Mixto: propietario más SaaSComprar un runtime de MCPArcade para cobertura de SaaS. Un gateway de MCP creado en el runtime conecta los servidores MCP internos (construidos con o sin el Arcade Framework) al mismo plano de control.

Lista de verificación para decidir

Evalúa tu plan de despliegue con estas cinco preguntas:

  1. ¿Tus agentes atenderán a más de un usuario con distintos permisos?
  2. ¿Necesitas logs de auditoría que vinculen cada llamada a una herramienta con un usuario, agente y sistema destino específicos?
  3. ¿Alguno de tus agentes realiza acciones asíncronas que superan los tiempos de espera estándar de las solicitudes LLM?
  4. ¿Te estás conectando a cinco o más APIs externas de SaaS en toda la organización?
  5. ¿Tus restricciones regulatorias son tan estrictas que no se permite ningún egreso externo de red, ni siquiera a través de un gateway que corra dentro de tu propia red?

Cómo interpretar las respuestas:

  • “Sí” en cualquiera de las cinco preguntas: compra un runtime de MCP.
  • De lo contrario: verifica si encaja con los tres casos de construcción en “Cuándo construir tu propio runtime” antes de comprometerte con hacerlo tú mismo.

Conclusión

Los despliegues que se estancan en 2026 fallan por el riesgo: autenticación que no puede auditarse, credenciales dentro del contexto de un LLM y un radio de daño en seguridad que nadie en la sala puede dimensionar. Los datos sensibles elevan ese umbral, por eso los escenarios propietarios son una razón para comprar, no para construir. Reconstruir pipelines de OAuth y registros de esquemas es un mal uso del tiempo de ingeniería senior, y la ruta de construcción deja de acumular valor en cuanto aparece un segundo usuario o una auditoría regulatoria.

El runtime de MCP de Arcade.dev ofrece gobierno del ciclo de vida de los agentes, autorización de agentes y un catálogo de herramientas optimizado para agentes en una sola capa.

Siguiente paso: agenda una llamada técnica de 30 minutos con el equipo de Arcade para revisar la arquitectura de autorización multiusuario y las opciones de despliegue para tu entorno.

O empieza en el playground de Arcade. Conecta una herramienta, ejecuta una acción con alcance de usuario y observa cómo el runtime gestiona OAuth, políticas y auditoría en un solo trace.

Preguntas frecuentes

¿Cuál es la diferencia entre un servidor MCP y un runtime de MCP?

Un servidor MCP es un endpoint único que expone herramientas. Un runtime de MCP es la capa de ejecución que hospeda, protege y gobierna esos servidores. El runtime resuelve complejidades de producción como la autorización multiusuario, el balanceo de carga y el registro de auditoría que los servidores individuales no tienen.

¿Cómo manejan los runtimes de MCP los límites de tasa y las tareas de larga duración?

Usan la especificación de MCP Tasks asíncrono: devuelven un ID de tarea de inmediato mientras gestionan el trabajo de larga duración en segundo plano. El runtime controla los límites de tasa de la API del proveedor, los reintentos con backoff y las conmutaciones de conexión. Tu agente consulta el resultado final sin administrar el estado de ejecución.

¿Por qué es tan difícil la autorización multiusuario para agentes de AI personalizados?

La autorización multiusuario requiere una gestión de credenciales dinámica y justo a tiempo para evitar ataques de inyección de prompts que comprometan la cuenta completa de un usuario. Las implementaciones propias deben orquestar de forma segura flujos complejos de tokens “On-Behalf-Of”, guardar las credenciales fuera del contexto del LLM, gestionar la rotación estricta de tokens de actualización y aplicar políticas de acceso granulares en el momento de la ejecución.

¿Se pueden combinar servidores MCP personalizados con un runtime de MCP?

Sí. Los servidores MCP personalizados y los runtimes no son alternativas. En ambas rutas construyes servidores MCP personalizados para sistemas internos propietarios. La pregunta es si también construyes la capa de runtime que los envuelve. Los runtimes soportan arquitecturas híbridas: los servidores personalizados que ejecutan herramientas propietarias dentro de tu VPC se conectan al plano de control del runtime a través de un gateway o un túnel seguro. Esto gobierna las herramientas SaaS públicas y las internas personalizadas a través de un único plano de control. Los servidores construidos con el framework de código abierto heredan la autenticación y la auditoría automáticamente. Los servidores existentes construidos sin el framework se conectan al runtime y obtienen sus hooks de autenticación, auditoría y políticas sin necesidad de reescribirlos.

¿Cuándo conviene construir tu propia capa de runtime en lugar de comprar un runtime de MCP?

Constrúyelo tú mismo si tienes un alcance de un solo usuario sin requisitos multiusuario, si la infraestructura de agentes es tu producto principal, o si eres dueño de todas las APIs del pipeline (sin SaaS de terceros). Los datos sensibles por sí solos no son razón para construir. Los despliegues aislados los resuelven los runtimes autohospedados de proveedores que los ofrecen. En cualquier otro caso, compra un runtime.

¿A partir de cuándo resulta más económico comprar un runtime de MCP?

Cuando tienes múltiples integraciones y OAuth multiusuario. El trabajo de mantenimiento y seguridad supera el costo del runtime a partir de tres integraciones.

¿Los runtimes de MCP exponen tokens OAuth o credenciales al LLM?

No. El runtime guarda las credenciales en un vault y emite tokens de alcance limitado, justo a tiempo, para ejecutar herramientas sin colocar secretos en el contexto del modelo.

¿Qué características de seguridad y cumplimiento debe incluir un runtime MCP empresarial?

Autorización post-prompt, aplicación de privilegio mínimo, registros de auditoría inmutables (compatibles con OpenTelemetry), almacenamiento y rotación de secretos, y controles de administración para acceso y visibilidad de herramientas.

¿Qué es la autorización “post-prompt” (en nombre del usuario) para agentes de AI?

La autorización post-prompt significa que el runtime autoriza y ejecuta cada llamada a herramienta usando los permisos del usuario que la solicita en el momento de ejecución, en lugar de usar una cuenta de servicio compartida o pasar tokens de usuario en los prompts.

¿Cuánta latencia agrega un runtime de MCP?

Una sobrecarga pequeña por las verificaciones de autorización por herramienta y la resolución de tokens justo a tiempo. Es una fracción de la latencia de inferencia del LLM y de las APIs SaaS.

¿Puede un runtime de MCP funcionar en una VPC privada o en un entorno híbrido?

Sí. El gateway MCP del runtime permite que los servidores MCP internos corran dentro de tu VPC mientras la gobernanza y el enrutamiento permanecen centralizados. El despliegue self-hosted ejecuta el runtime completamente en tu propia infraestructura.

¿Cómo ayudan los runtimes de MCP con los registros de auditoría y la respuesta a incidentes?

Registran quién solicitó la acción, qué herramienta se llamó, los parámetros, los resultados y los tiempos. Todo exportable a un SIEM vía OpenTelemetry para cumplimiento e investigaciones.

¿Cómo manejan los runtimes de MCP los cambios en APIs SaaS y el desfase de versiones?

El proveedor mantiene los esquemas de herramientas y actualiza las integraciones de forma centralizada. Esto reduce las roturas por deprecaciones y mantiene las definiciones de herramientas consistentes entre agentes.

¿Podemos empezar con una solución propia y migrar a un runtime después?

Sí. Los equipos arrancan con una solución propia para prototipos y migran a un runtime cuando la autenticación multiusuario, la gobernanza y la carga operativa se vuelven requisitos de producción.