Hermes Agent en directo y con subagentes

0:00 / 0:00

Tras ver como iban las estadísticas, finalmente decidí cambiar el orden de los episodios, para traerte de inmediato a Hermes Agent y que puedas poner en funcionamiento lo que hemos visto hasta el momento y lo que veremos en los siguientes episodios. Lo cierto es que mi objetivo era primero contarte algunos de los MCP que he implementado en estas semanas, luego hablarte de RAG y por último traerme a Hermes, pero he tenido que hace un cambio de rumbo, porque he entendido que tener herramientas, pero no tener con que utilizarlas no era lo mejor. Así que, tras este giro en los acontecimientos he decidido traerme a Lara que es como he bautizado a mi agente, para que veas las opciones y posibilidades que ofrece, y algunas de las muchas cosas que puede hacer.

No quería hacer el típico tutorial aburrido donde te explico que para instalarlo tienes que pulsar tres botones y leer un manual, decidí tirar por el camino divertido. Negocié un guion con mi propio agente local de Inteligencia Artificial (a la que he bautizado como Lara) y dejé que fuera ella misma la que tomara los mandos del micrófono en directo.

Hermes Agent en directo y con subagentes… ¿Qué puede salir mal?

Conoce a Lara: Mi asistente virtual sin nubes y con personalidad

El cerebro que has escuchado (o que vas a leer aquí) se ejecuta sobre Hermes Agent, un desarrollo de código abierto programado en Python que tiene una característica fundamental para los que valoramos la privacidad: funciona de forma cien por cien local.

Para que veas que esto no es algo exclusivo de grandes centros de datos o de personas con superordenadores inaccesibles, configuré a Lara para que corriera en mi Slimbook One. Es un equipo compacto, magnífico, pero de lo más normal para el día a día. No tiene tarjeta gráfica potente ni aceleradores de Inteligencia Artificial; todo el procesamiento se realiza tirando exclusivamente de procesador tradicional.

Para comunicarnos con Lara de viva voz, utilizamos dos tecnologías locales muy populares:

Whisper para que el sistema entienda lo que le decimos (el reconocimiento de voz).
Un sintetizador de texto a voz para que Lara pueda respondernos usando archivos de audio generados al vuelo.

Al no disponer de aceleración gráfica dedicada, es verdad que el habla de Lara tiene un deje un tanto robótico y a veces pronuncia de forma muy graciosa palabras en inglés como YouTube o skills. Pero te aseguro que, en cuanto interactúas un rato con ella, ese tono se vuelve de lo más familiar. Además, Lara tiene una ventaja sobre los asistentes comerciales típicos: no es nada empalagosa. No te va a responder con frases prediseñadas como claro, con gusto te ayudo. Ella tiene su propio carácter, es directa y a veces te suelta las respuestas con un puntito de ironía muy divertido.

La arquitectura de un sistema de agentes: Conectores y subagentes

Para entender cómo Lara puede gestionar mi vida diaria desde la línea de comandos, hay que comprender dos conceptos de desarrollo que están revolucionando el mundo de la tecnología:

¿Qué es un conector MCP (Model Context Protocol)?

Un modelo de lenguaje de forma nativa solo sabe procesar palabras, es una especie de cerebro aislado en una habitación a oscuras. Los conectores MCP son como los enchufes de la habitación. Si le conectamos un enchufe de clima, la Inteligencia Artificial puede ver si llueve. Si le ponemos uno de notas, puede leer tu libreta. Gracias a este protocolo abierto impulsado originalmente por la gente de Anthropic, podemos conectar cualquier fuente de datos o aplicación externa al agente usando una interfaz única y reusable.

¿Qué son los subagentes y la multitarea en paralelo?

Esto es lo que realmente marca la diferencia entre un simple chat de Inteligencia Artificial y un sistema agente real. Con Hermes Agent, Lara no tiene que quedarse esperando cruzada de brazos a que termine una búsqueda lenta para poder hacer otra cosa. El sistema le permite clonarse a sí misma, creando subagentes independientes en microsegundos que realizan tareas específicas en segundo plano. Mientras Lara sigue interactuando contigo o estructurando el programa, un clon suyo puede estar consultando una previsión meteorológica y otro puede estar rastreando las últimas publicaciones de la red en paralelo.

Poniendo a prueba el sistema: Siete demostraciones reales

Durante las pruebas en directo, pusimos a Lara frente a varios desafíos cotidianos para ver cómo respondía bajo presión de procesamiento en CPU pura y dura:

Búsqueda de información en Internet: Lara rastreó la red para recopilar qué vídeos de divulgación sobre agentes locales estaban funcionando mejor, localizando de forma impecable las últimas publicaciones de compañeros como Daniel Primo o Daniel Espaladero.
Multitarea simultánea: Le pedimos dos cosas totalmente inconexas a la vez. Lara consultó las condiciones climáticas de Valencia mientras, en paralelo, mandaba a un subagente a YouTube para informarse sobre la última versión de desarrollo de su propio software. Ambos subagentes regresaron con las respuestas procesadas al mismo tiempo.
Recetas y compra inteligente con RAG: Conectamos una base de datos local con más de 1600 recetas a un sistema RAG (generación recuperada por contexto). Lara realizó una búsqueda semántica (buscando por significado, no por coincidencia de palabras exactas) para sugerirme una cena ligera. Tras seleccionar un salteado de pollo con verduras, Lara comparó los ingredientes de la receta con nuestra despensa local y añadió a la lista de la compra únicamente los cuatro ingredientes que nos faltaban, clasificándolos automáticamente por las secciones del supermercado.
Búsqueda semántica en mi base de datos de notas: Accedimos a mi archivo personal de más de 3300 notas de texto y tareas pendientes integradas. Gracias a la indexación por vectores semánticos, Lara fue capaz de recuperar conceptos antiguos basándose en la idea general de mi consulta, sin necesidad de que yo recordara la palabra clave exacta con la que guardé la nota originalmente.
Control deportivo con Strava: Lara leyó mi historial de carreras de los últimos treinta días directo de la base de datos local de Strava, calculando mis distancias totales, ritmos promedio y la sesión más larga, no sin antes soltarme un pequeño chiste sobre la cantidad de horas que paso sentado delante del ordenador programando.
Resumen de noticias y el experimento de simulación: Lara recopiló las noticias del día sobre Inteligencia Artificial y resumió de forma magistral un estudio sobre un experimento de mundos virtuales controlados por diferentes modelos de IA. Un resumen impecable que explicaba cómo algunos modelos caían en el conformismo absoluto mientras que otros se saltaban las normas generando auténticas oleadas de crímenes virtuales simulados.

La importancia de la privacidad y el control de tus datos

Lo verdaderamente revolucionario de este enfoque no es solo que la tecnología funcione bien, sino las condiciones en las que lo hace. No estamos regalando nuestros datos de entrenamiento diario, de salud, de notas íntimas o de gustos de cocina a una multinacional en la nube. Todo el proceso ocurre en tu propia casa, bajo tu control y de manera totalmente gratuita gracias al código abierto.

Además, esta tecnología nos permite reunirnos y compartir experiencias. En el episodio te hablo sobre el taller presencial que realizamos en el Linux Center de Valencia junto al equipo de Slimbook, donde nos juntamos para cacharrear con este tipo de agentes desde cero y resolver problemas por parejas trasteando con hardware real. Es una gozada ver cómo la comunidad se une para dar vida a proyectos tan interesantes como este.

Aquí tienes algunos recursos y enlaces recomendados para que puedas profundizar en todo lo que hemos visto:

El repositorio oficial de Hermes Agent en GitHub para descargar e instalar el proyecto.
La especificación de Model Context Protocol para aprender a conectar tus propias herramientas.
La web oficial de Slimbook para descubrir equipos fantásticos optimizados para sistemas abiertos.
El espacio de aprendizaje y comunidad de Linux Center Valencia para apuntarte a futuros talleres presenciales.
La web de divulgación de Daniel Primo para seguir sus excelentes análisis sobre desarrollo y asistentes locales.