Construyendo Agentes con HuggingFace MCP Server y Fast Agent

Shaun Smith creó Fast Agent, el primer framework de agentes diseñado desde cero para MCP. También construyó el servidor MCP de Hugging Face y, en una entrevista reciente, nos mostró cómo combinarlos desplegando un sub-agente como servidor MCP remoto.

Este artículo está adaptado de una entrevista con Shaun Smith, Open Source/MCP en Hugging Face.

Antes de MCP, los frameworks de agentes desarrollaban sus propios patrones de integración y adaptadores de herramientas. Cuando MCP llegó, los frameworks lo agregaron como una función, pero no rediseñaron sus sistemas base a su alrededor. Según Shaun Smith, el problema con este enfoque de parche es que MCP es, en realidad, todo lo que necesitas.

Shaun trabaja en Hugging Face en open source y MCP. Contribuye activamente a la especificación MCP como parte del grupo de trabajo de transportes, revisando aportaciones (como la contribución de Elicitations de Arcade, aka SEP-1036!). Construyó Fast Agent, el primer framework de agentes diseñado desde cero alrededor del Model Context Protocol, y el servidor MCP de Hugging Face, que da a cualquier cliente MCP acceso dinámico a miles de modelos de AI hospedados en la plataforma.

En una conversación con RL Nabors para la serie MCP MVP de Arcade, Shaun demostró cómo luce un flujo de trabajo nativo de MCP: desde un solo prompt que genera un sitio de noticias temático de gatos, hasta un sub-agente desplegado como servidor MCP remoto en menos de diez minutos.

El servidor MCP de Hugging Face: una herramienta, cientos de modelos

Cuando la mayoría de los desarrolladores piensan en Hugging Face, piensan en fichas de modelos y papers de investigación. Pero el Hub también hospeda miles de aplicaciones de AI ejecutables a través de Spaces: generadores de imágenes, generadores de video, modelos OCR, síntesis de voz, traducción y mucho más.

El servidor MCP de Hugging Face hace todo eso accesible desde cualquier cliente MCP. Configuras las capacidades que quieres a través de tus configuraciones MCP, y el servidor las expone como herramientas. Hay una función llamada Dynamic Spaces que colapsa docenas de modelos especializados en una sola herramienta. Así, tu agente hace una única llamada a la herramienta y el servidor decide a qué modelo enrutar según la tarea.

“Si quieres generar imágenes, hacer OCR o síntesis de voz, puedes integrar todo eso en tu servidor MCP”, dijo Shaun. “Y [elige el correcto] de forma dinámica.”

Esto significa que puedes dimensionar bien tu AI en vez de enrutar todo por un solo modelo frontier caro. Tu agente puede delegar tareas especializadas a modelos construidos para ese fin, que muchas veces ofrecen mejores resultados, más rápido y a menor costo. Tu agente local se encarga del razonamiento y la orquestación; los modelos de Hugging Face manejan la generación de imágenes, el procesamiento de audio, el análisis de documentos o lo que necesites. Como lo planteó RL: “Los modelos frontier suelen ser un exceso para lo que realmente necesitas. Es como el Walmart de los modelos a tu disposición.”

Para demostrarlo, Shaun lanzó un solo prompt: obtén titulares de noticias recientes, genera una imagen de diorama de gatos para los tres primeros y crea una página de inicio estilo periódico para presentarlos. Fast Agent buscó en la web, seleccionó un generador de imágenes de Hugging Face, generó en paralelo tres ilustraciones de noticias temáticas de gatos, construyó una página HTML completa y la publicó. El resultado: “The Daily Paws”, un sitio de noticias filtrado por gatos con titulares como “CES Tech: That’s the Cat’s Meow” y “Olympic Overture Gets Feline Finale”.

“Podríamos cambiar esto para que corra cada mañana”, señaló Shaun. RL quedó convencido: “Me encantaría recibir mis noticias gatificadas cada mañana.”

Por qué existe Fast Agent

Todos los frameworks de agentes prometen integración de herramientas. La apuesta de Fast Agent es que si construyes alrededor de MCP desde el principio, en lugar de añadirlo como un parche, todo lo demás se simplifica.

Fast Agent es un framework de Python con sintaxis declarativa que te permite definir agentes, conectarlos a servidores MCP y componerlos en flujos de trabajo usando decoradores. Soporta el conjunto completo de funciones MCP: herramientas, recursos, prompts, sampling, elicitations y roots. La mayoría de los frameworks implementa un subconjunto; Fast Agent está probado de extremo a extremo contra la especificación completa.

Lo que lo hace prácticamente diferente de frameworks como LangChain o Mastra:

Soporte multi-proveedor de modelos. Fast Agent viene con integraciones nativas para Anthropic, OpenAI, Google, Azure, Ollama, DeepSeek y docenas más a través de TensorZero. Puedes planear con Opus, desarrollar con Codex y buscar con un modelo de peso abierto, todo dentro de un mismo flujo de trabajo, mezclando y combinando proveedores.
Implementación completa del cliente MCP. Fast Agent soporta sampling, elicitations, resources, roots y OAuth. Shaun señaló que Fast Agent ha “estado frecuentemente a la vanguardia de la implementación de MCP” porque construye las funciones del protocolo mientras se están redactando, no meses después.
Visibilidad a nivel de transporte. Fast Agent expone lo que ocurre a nivel de transporte (conexiones HTTP, streams SSE, enrutamiento de llamadas a herramientas), algo que la mayoría de los frameworks oculta. Cuando estás depurando por qué un servidor MCP remoto no responde, ver la capa de transporte importa.
Soporte de skills. Fast Agent incluye un sistema de skills para codificar comportamientos reutilizables. Una skill integrada, el “constructor de herramientas”, le enseña al LLM a navegar el spec de OpenAPI de Hugging Face y crear herramientas CLI personalizadas que puede usar para automatización adicional.

Agentes como herramientas: el patrón MCP poco usado

Luego llegó el momento de desplegar el agente “catificador de noticias” como una herramienta MCP.

MCP permite exponer agentes como herramientas en un servidor. Aunque esto lleva en la especificación MCP desde 2024, el patrón no ha recibido mucha atención. Shaun recorrió una implementación concreta.

Primero, mostró un sub-agente corriendo localmente. Era un agente de búsqueda ligero de Hugging Face respaldado por un modelo de peso abierto rápido. Sabía usar la CLI de Hugging Face para responder preguntas sobre modelos y datasets en tendencia. El agente principal le delegaba consultas, manteniendo el contexto multi-turno del sub-agente aislado del suyo propio. Así, el contexto del agente orquestador se mantenía limpio mientras el sub-agente hacía los ciclos y las consultas.

Shaun desplegó ese mismo sub-agente como servidor MCP remoto en Hugging Face Spaces. Una vez en vivo, cualquier cliente MCP podía conectarse al servidor y usar el agente de búsqueda con la inferencia corriendo en la infraestructura de Hugging Face, no en la máquina del que lo llama.

Todo el proceso tardó menos de 10 minutos, desde el agente local hasta el servidor MCP remoto desplegado.

Los agentes y sub-agentes usan LLMs. “Hugging Face tiene cientos de LLMs disponibles. Así que desplegarlo de esta forma significa que la gente puede usar su cuenta de Hugging Face para utilizar estas herramientas estilo sub-agente”, explicó Shaun.

Skills, modo código y la pregunta de seguridad

RL planteó un patrón que han rastreado a lo largo de la serie de entrevistas MCP MVP: los skills le enseñan al agente cómo razonar sobre una tarea, el modo código le permite escribir scripts para ejecutarla eficientemente, pero las herramientas siguen siendo la forma más segura de acceder a recursos externos. No le darías tus API keys a un LLM. Las herramientas MCP, especialmente al usar OAuth mediante elicitación de URL, mantienen una capa entre el modelo y las operaciones sensibles.

Shaun llevó el razonamiento más lejos. No basta con asegurar herramientas individuales. Hay que prestar atención a la mezcla de herramientas con distintos alcances de autorización. Si le das privilegios elevados a un conjunto de herramientas y las usas junto a otras con menor autorización, el problema de seguridad se agrava. El agente podría enrutar datos privilegiados por un canal sin privilegios sin que nadie lo note.

“Cada vez que invito algo con un nivel de privilegio elevado”, dijo Shaun, “potencialmente estoy mezclando datos que quizás no quiero mezclar.”

RL ofreció una analogía: es como una sesión de chismes con amigos cercanos y alguien mete a un extraño en la sala. La conversación no cambia, pero el público sí. Shaun lo afinó: “¡O alguien dejó un teléfono abierto sobre la mesa!”

Esto apunta hacia un patrón en el que la comunidad MCP trabaja activamente: pensar en el entorno del agente como la unidad de seguridad, no en las herramientas individuales. Un conjunto de modelos, herramientas, skills y datos específico para una tarea, con límites bien definidos sobre qué puede fluir hacia dónde.

Los transportes importan más de lo que crees

Shaun forma parte del Grupo de Trabajo de Transportes de MCP, así que ninguna conversación estaría completa sin hablar de transportes.

MCP soporta actualmente dos transportes: IO estándar para servidores locales (un proceso corriendo en tu máquina) y HTTP para servidores remotos. A medida que las herramientas MCP migran de máquinas de desarrollo local a servicios hospedados, los transportes HTTP con autenticación adecuada se vuelven esenciales. El soporte de OAuth significa que el servidor sabe quién está solicitando, puede personalizar respuestas por cuenta y puede registrar a qué se ha accedido.

“Lo realmente importante con el transporte remoto es que tenemos una buena historia de autenticación”, dijo Shaun. “Podemos entrar con OAuth, el servidor MCP sabe quién eres y qué estás solicitando.”

El grupo de trabajo está enfocado en hacer que los transportes remotos escalen con mayor eficiencia. RL lo conectó con una tendencia más amplia que han observado en la serie MCP MVP: el cambio de correr servidores MCP localmente a consumirlos como servicios hospedados.

Pruébalo tú mismo

Comienza con Fast Agent:

uv pip install fast-agent-mcp
fast-agent setup

Documentación y ejemplos en fast-agent.ai. Código fuente en github.com/evalstate/fast-agent.

Para conectarte al servidor MCP de Hugging Face, visita tus configuraciones MCP para configurar herramientas y Spaces, luego agrega el servidor a tu cliente MCP. Para el servidor de Spaces comunitario, instala vía npm:

npx -y @llmindset/mcp-hfspace

Documentación en huggingface.co/docs/hub/en/agents-mcp. El servidor es open source.

Sigue a Shaun en GitHub como evalstate. Su blog está en llmindset.co.uk.

MCP MVP es una serie de videos de Arcade con RL Nabors que destaca a los creadores que dan forma al ecosistema agéntico. Mira la entrevista completa con Shaun Smith →