Un estudio anterior Artefactsobre «El futuro del trabajo con AI que las tareas repetitivas y tediosas se verán potenciadas por AI agentiva AI se transformarán en supervisión agentiva. A raíz de este estudio, «El futuro de la supervisión agentiva» analiza en profundidad cómo pueden prepararse las organizaciones para supervisar y gestionar el rendimiento, la seguridad y el valor estratégico de estos nuevos sistemas inteligentes y, en última instancia, reinventar el trabajo en torno a AI agentiva. Esta síntesis resume las principales conclusiones y recomendaciones del estudio, tendiendo un puente entre la gobernanza técnica y empresarial con un manual práctico para las empresas que buscan crear agentes fiables y de gran impacto.
¿En qué se AI agentiva?
AI agentiva no son software tradicional. Son probabilísticos, lo que significa que sus resultados, aunque están muy influenciados por el contexto de entrada, varían en cada ejecución. El software tradicional, por el contrario, se rige por reglas deterministas, en las que se puede confiar plenamente si están bien diseñadas, ya que aplican constantemente la misma lógica, invariable y correcta. Sin embargo, la limitación del software tradicional es que no puede resolver un problema nuevo, ni siquiera uno ligeramente diferente. AI superan esta limitación de alcance a costa de la fiabilidad. Integran capacidades de lenguaje natural con la capacidad de actuar de forma autónoma en herramientas internas, API o bases de datos para resolver nuevos problemas. Esta flexibilidad permite una impresionante creación de valor en los ámbitos de la atención al cliente, las operaciones, los recursos humanos y las compras.
Sin embargo, AI con agentes también cuestionan supuestos arraigados en la gobernanza del software. Mientras que el código tradicional se prueba una sola vez y se implementa con confianza, los agentes deben implementarse teniendo en cuenta los riesgos, y deben ser supervisados, evaluados y mejorados constantemente. Por lo tanto, el futuro de la gobernanza de los agentes no solo pasa por la certificación en el momento de la implementación, sino también por una supervisión continua a gran escala.
La disyuntiva fundamental: valor frente a riesgo
Las empresas se enfrentan a un reto fundamental con AI : no existe el riesgo cero en la lógica probabilística. En consecuencia, los equipos de desarrollo AI deben aportar valor con un nivel de riesgo aceptable. Por un lado, los agentes muy permisivos pueden aportar valor, pero también plantean riesgos operativos, de reputación, éticos o financieros. Por otro lado, los agentes muy limitados pueden ser seguros, ya que optan por respuestas superficiales y sencillas, pero ofrecen una utilidad limitada.
Esta relación entre valor y riesgo debe gestionarse de forma explícita. Las empresas deben definir qué se entiende por «valor» en cada contexto (índice de éxito de las tareas, implicación de los usuarios, aumento de la productividad), así como qué riesgos deben controlarse: alucinaciones, latencia, sesgos, daños a la reputación o sobrecostes. La supervisión se convierte en el mecanismo operativo que ajusta este equilibrio en cada etapa del ciclo de vida AI : en las fases de diseño, desarrollo, implementación y ejecución.
La supervisión en tres pasos: observar, evaluar, actuar
Para lograr este equilibrio, las empresas deben desarrollar una supervisión activa basada en tres capacidades fundamentales:
- Observación: Recopila datade telemetría estructurados: entradas, salidas, llamadas a herramientas, errores y comentarios de los usuarios.
- Evaluación: Utilizar métricas de calidad e indicadores de riesgo para evaluar el rendimiento en relación con los objetivos definidos por la empresa y los umbrales de control.
- Acción: Escalar y gestionar incidentes, volver a entrenar modelos, ajustar los controles de seguridad o revertir las actualizaciones de los agentes.
Este proceso, denominado«supervisión activa», se inspira en las prácticas de DevOps, pero debe adaptarse a la naturaleza probabilística y cambiante de AI, y extenderse más allá de los equipos técnicos para abarcar los procesos y equipos empresariales (Éxito del Cliente, RR. HH., Asesoramiento Jurídico, Operaciones, etc.).
La supervisión comienza desde el nacimiento del agente
La gestión de agentes comienza mucho antes de su implementación. Los equipos técnicos y de negocio deben colaborar desde la fase de exploración para definir los criterios de éxito, identificar los tipos de riesgo y decidir la estrategia de evaluación. Este enfoque de diseño conjunto garantiza que los agentes no solo sean técnicamente sólidos, sino que también estén alineados con las prioridades de negocio desde el principio.
In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.
La supervisión no termina con la implementación. La supervisión continua del entorno de producción es esencial para evaluar y perfeccionar los agentes. Cuando se produce un incidente, el equipo empresarial encargado de la resolución manual debe comunicar al equipo de agentes cuál es el comportamiento correcto esperado, enriqueciendo y mejorando así el conjunto de datos de referencia.
La implementación basada en métricas requiere la participación de la empresa
Una innovación importante en la gestión de agentes es la idea de que estos se activan en función de umbrales métricos multidimensionales. Esto incluyemétricas de rendimientotradicionales (precisión, latencia),métricas empresariales(finalización de tareas) ymétricas de riesgo(toxicidad, sesgo, incumplimiento de políticas).
Es fundamental que la decisión de llevar un agente a la fase de producción no recaiga únicamente en los equipos técnicos. Las partes interesadas del ámbito empresarial deben definir los umbrales de riesgo aceptables y aprobar los criterios de implementación. La gobernanza se convierte en una responsabilidad compartida entre AI , los gestores de producto, los responsables de cumplimiento normativo y los expertos en la materia.
El papel del modelo de lenguaje grande (LLM) como juez
La evaluación de los resultados generados por los modelos de lenguaje grande (LLM) puede resultar subjetiva y llevar mucho tiempo. Ahí es donde entran en juego las técnicas de «LLM como juez». Estas técnicas consisten en utilizar modelos de lenguaje grande independientes para puntuar los resultados de otros modelos de lenguaje grande, evaluando la pertinencia, la veracidad o el tono de las respuestas.
Aunque algunos puedan mostrarse escépticos ante el uso AI evaluar AI, la experiencia demuestra que los modelos independientes pueden evaluar de forma fiable los resultados generados. Sin embargo, la condición para que un modelo de lenguaje grande (LLM) actúe como evaluador de forma fiable es la simplicidad, y que solo se le pidan juicios binarios como «aceptable o no». En otras palabras, AIque genere criterios binarios específicos resulta muy eficaz a la hora de evaluar AIque genere textos extensos. Esta técnica agiliza los procesos de evaluación y reduce la dependencia de evaluadores humanos en cada caso, aunque el juicio humano sigue siendo esencial en revisiones de alto riesgo.
Las barreras de seguridad son medidas de protección que deben establecerse desde el primer día
La evaluación es un componente esencial de las medidas de protección que previenen modos de fallo conocidos mediante controles proactivos. Estas medidas de protección pueden aplicarse a nivel de entrada (por ejemplo, filtrando la introducción de comandos), a nivel de salida (por ejemplo, bloqueando completados inseguros) o mediante lógica intermedia (por ejemplo, condiciones de acceso a herramientas).
Pero las barreras de seguridad conllevan ventajas e inconvenientes. Si son demasiado estrictas, provocan bucles de rechazo o fallos silenciosos que deterioran la experiencia del usuario. Si son demasiado laxas, se supera el nivel de tolerancia al riesgo. Las barreras de seguridad deben evolucionar al ritmo de las capacidades del agente y la madurez del negocio, comenzando con barreras estrictas para garantizar la confianza y relajándolas gradualmente para mejorar el valor al tiempo que se controlan los riesgos. Por lo tanto, diseñar, probar y ajustar las barreras de seguridad no es una tarea puntual, sino que forma parte del ciclo de vida de la supervisión continua.
Gestión de incidentes: el auge de los supervisores humanos
Incluso en sistemas bien equipados, los incidentes son inevitables. Una parte fundamental de la supervisión de los agentes consiste en detectar fallos en los mecanismos de seguridad y escalarlos a equipos humanos. Estos pueden incluir incumplimientos de las normas de seguridad, fallos en la ejecución de tareas, resultados ambiguos o un uso indebido de las herramientas.
El puesto de supervisor debe estar concebido para que resulte motivador, sostenible y productivo. Los supervisores de primera línea necesitan:
- Contexto rico y estructurado: registros de seguimiento completos, explicaciones de los desencadenantes y metadatos de los usuarios.
- Interfaces optimizadas: flujos de trabajo para la toma de decisiones, recomendaciones predeterminadas, opciones alternativas.
- Enrutamiento inteligente: asigna las escalaciones en función de la especialización y el equilibrio de carga.
- Gestión de la fatiga: asegúrate de que el volumen y la complejidad de las alertas sean manejables.
Cuando se lleva a cabo correctamente, la supervisión se convierte en un círculo virtuoso: las decisiones humanas alimentan los conjuntos de datos de reentrenamiento y perfeccionan las políticas de control. La supervisión no se limita a la contención, sino que impulsa la mejora a largo plazo del agente.
Herramientas: la pila de AgentOps
Para poner todo esto en práctica, las empresas deben adoptar una nueva clase de herramientas: la pila de AgentOps. Entre ellas se incluyen plataformas como LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases y Robust Intelligence para:
- Observabilidad
- Evaluación
- Anotación de datos de referencia
- Seguimiento de experimentos
- Orquestación de Guardrail
La mayoría de las plataformas combinan estas funciones, pero cada una tiene sus propios puntos fuertes. Algunas se centran más en la observabilidad, otras en la implementación de agentes y otras en un ámbito de riesgo concreto, como la seguridad. Estas herramientas son similares a las plataformas de DevOps y MLOps, pero están adaptadas a las necesidades específicas de los sistemas basados en agentes. Recomendamos integrar estas herramientas con los flujos de CI/CD y data existentes para mantener la trazabilidad y facilitar la reutilización.
La gobernanza es un trabajo en equipo
Una de las conclusiones clave del estudio es que la gestión de los agentes no puede ser responsabilidad exclusiva de AI . Los equipos empresariales deben colaborar en el diseño de medidas de control, definir los umbrales de riesgo aceptables y participar en los protocolos de escalado. Los departamentos jurídico, de cumplimiento normativo, de marketing y de asistencia técnica deben tener acceso a paneles de control adaptados a sus respectivos riesgos.
Esto implica una nueva forma de gobernanza, que combina AI con la responsabilidad empresarial. Recomendamos organizar los equipos de supervisión no por agente, sino por tipo de riesgo (por ejemplo, jurídico, operativo, de marca), lo que permite una supervisión horizontal que abarca a múltiples agentes. Sin una organización de este tipo, resultará difícil ampliar la confianza en los agentes.
El papel de DataOps
AI agencial AI las deficiencias en data empresariales como pocos sistemas lo han hecho antes. Los agentes basados en la recuperación suelen mostrar data obsoletos, confidenciales o irrelevantes data los repositorios subyacentes no están debidamente gestionados. Por eso, la gobernanza agencial debe ir de la mano de DataOps. Los incidentes deben rastrearse no solo hasta la lógica de las indicaciones del agente, sino también hasta los data que lo alimentan.
AgentOps, cuando se implementa correctamente, refuerza data empresariales. Y viceversa.
Una guía práctica para dar los primeros pasos
Para ayudar a las empresas a pasar de la teoría a la práctica, ofrecemos cuatro recomendaciones:
- Empieza con proyectos reales, no con prototipos: centra los esfuerzos de gestión en los agentes de alto valor destinados a la producción. Crea sistemas reales, no demostraciones efímeras, para detectar a tiempo las realidades operativas.
- A la hora de elegir herramientas, piensa primero en los desarrolladores: opta por herramientas de observabilidad que se adapten a los flujos de trabajo de ingeniería. Los paneles de control empresariales son útiles, pero la aceptación por parte de los desarrolladores es fundamental para recopilar metadatos de calidad.
- Aclarar la responsabilidad sobre los riesgos: definir qué funciones son responsables de cada riesgo. ¿Quién es responsable de la seguridad, la privacidad, los sesgos o el deterioro de la experiencia de usuario? Establecer vías de escalado y normas de aprobación.
- Unificar AgentOps con DataOps: considerar los agentes y data como dos caras de la misma moneda. Supervisar conjuntamente data y el comportamiento de los agentes para diagnosticar las causas fundamentales de las incidencias.
Conclusión: De la supervisión a la ventaja estratégica
La supervisión de los sistemas agenticos no consiste solo en prevenir daños, sino en fomentar la confianza a gran escala. Mediante el establecimiento de métricas compartidas, herramientas sólidas y protocolos de colaboración, las organizaciones pueden aprovechar todo el potencial de los sistemas agenticos sin dejar de controlar los riesgos.
La gestión de agentes evolucionará rápidamente. Sin embargo, sus fundamentos son atemporales: claridad, colaboración y aprendizaje continuo. Las empresas que adopten esta disciplina desde el principio no solo evitarán errores costosos, sino que se forjarán una ventaja competitiva duradera.

BLOG






