El estudio anterior de Artefactsobre El futuro del trabajo con AI concluía que el trabajo repetitivo y tedioso se verá aumentado por AI agéntica y se transformará en supervisión agéntica. Como continuación de este estudio, The Future of Agentic Supervision (El futuro de la supervisión con IA) profundiza en el modo en que las organizaciones pueden prepararse para supervisar y gestionar el rendimiento, la seguridad y el valor estratégico de estos nuevos sistemas inteligentes y, en última instancia, reinventar el trabajo en torno a la supervisión con AI . Esta síntesis resume las principales ideas y recomendaciones del estudio, tendiendo un puente entre la gobernanza técnica y empresarial con un manual práctico para las empresas que desean crear agentes fiables y de gran impacto.
¿Qué hace diferente a AI agéntica?
Los sistemas AI agenética no son software tradicional. Son probabilísticos, lo que significa que sus resultados, aunque muy influidos por el contexto de entrada, varían en cada ejecución. El software tradicional, por el contrario, se rige por reglas deterministas, en las que se puede confiar plenamente si están bien diseñadas, porque aplican constantemente la misma lógica invariable y correcta. Sin embargo, el límite del software tradicional es que no puede resolver un problema nuevo, aunque sea ligeramente diferente. Los agentes de AI resuelven esta limitación de alcance a costa de la fiabilidad. Integran capacidades de lenguaje natural con el poder de actuar de forma autónoma a través de herramientas internas, API o bases de datos para resolver nuevos problemas. Esta flexibilidad permite una impresionante creación de valor a través de la atención al cliente, las operaciones, los recursos humanos y las compras.
Pero los sistemas de AI agéntica también alteran los antiguos supuestos de la gobernanza del software. Mientras que el código tradicional se prueba una vez y se despliega con confianza, los agentes deben desplegarse teniendo en cuenta el riesgo, supervisarse, evaluarse y mejorarse constantemente. Por lo tanto, el futuro de la gobernanza de los agentes no consiste únicamente en la certificación en el momento de la implantación, sino también en la supervisión continua a gran escala.
La disyuntiva central: valor frente a riesgo
Las empresas se enfrentan a un reto fundamental con los agentes de AI : no existe el riesgo cero con la lógica probabilística. En consecuencia, los equipos de desarrollo de agentes de AI deben aportar valor con un riesgo aceptable. Por un lado, los agentes muy permisivos pueden aportar valor, pero también plantear riesgos operativos, de reputación, éticos o financieros. Por otro lado, los agentes muy restrictivos pueden ser seguros y preferir respuestas superficiales y sencillas, pero ofrecer una utilidad limitada.
Este equilibrio entre valor y riesgo debe gestionarse de forma explícita. Las empresas deben definir qué significa "valor" en su contexto (tasa de éxito de la tarea, compromiso del usuario, aumento de la productividad), así como qué riesgos deben controlarse: alucinación, latencia, sesgo, daño a la reputación o sobrecostes. La supervisión se convierte en el mecanismo operativo que afina este equilibrio en cada paso del ciclo de vida del agente de AI : en el diseño, el desarrollo, el despliegue y la ejecución.
La supervisión en tres pasos: Observar, Evaluar, Actuar
Para lograr este equilibrio, las empresas necesitan construir una supervisión agéntica en torno a tres capacidades básicas:
- Observación: Captura de datatelemetría estructurados data, salidas, llamadas a herramientas, errores y comentarios humanos.
- Evaluación: Utilizar métricas de calidad e indicadores de riesgo para evaluar el rendimiento con respecto a los objetivos definidos por la empresa y los umbrales de control.
- Acción: Escalar y gestionar los incidentes, volver a formar a los modelos, ajustar los guardarraíles o anular las actualizaciones de los agentes.
Este proceso, denominado "supervisión activa", refleja las prácticas de DevOps, pero debe adaptarse a la naturaleza probabilística y evolutiva de AI, y extenderse más allá de los equipos tecnológicos para abarcar los procesos y equipos empresariales (éxito del cliente, RRHH, jurídico, operaciones, etc.).
La supervisión comienza con el nacimiento del agente
La gobernanza agéntica comienza mucho antes del despliegue. Los equipos empresariales y técnicos deben colaborar desde la fase de exploración para definir los criterios de éxito, identificar los tipos de riesgo y decidir la estrategia de evaluación. Este enfoque de co-diseño garantiza que los agentes no sólo sean técnicamente robustos, sino que también estén alineados con las prioridades empresariales desde el principio.
In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.
La supervisión no termina con el despliegue. La supervisión continua de la producción es esencial para evaluar y perfeccionar los agentes. Cuando surge un incidente, el equipo de negocio responsable de la resolución manual debe transmitir al equipo de agentes el comportamiento correcto esperado, enriqueciendo y mejorando así el conjunto de datos de la verdad sobre el terreno.
La implantación basada en métricas requiere la aportación de las empresas
Una innovación importante en la gobernanza de agentes es la idea de que los agentes se liberan en función de umbrales métricos multidimensionales. Esto incluye métricas de rendimiento tradicionales (precisión, latencia), métricas de negocio (finalización de tareas) y métricas de riesgo (toxicidad, sesgo, violación de políticas).
Es fundamental que la decisión de pasar un agente a producción no recaiga únicamente en los equipos técnicos. Las partes interesadas de la empresa deben definir los umbrales de riesgo aceptables y aprobar los criterios de despliegue. La gobernanza se convierte en una responsabilidad compartida entre ingenieros de AI , gestores de productos, responsables de cumplimiento y expertos en la materia.
El papel del LLM como juez
La evaluación de los resultados generados por LLM puede ser subjetiva y requerir mucho tiempo. Ahí es donde entran en juego las técnicas del LLM como juez. Consisten en utilizar LLMs independientes para puntuar los resultados de otros LLMs, evaluando la relevancia de la respuesta, los hechos o el tono.
Aunque algunos se muestren escépticos ante la posibilidad de utilizar la AI para AI, la experiencia demuestra que los modelos independientes pueden evaluar con fiabilidad los resultados generados. Sin embargo, la condición para que un LLM-como-juez sea fiable es la simplicidad y que sólo pida juicios binarios como "aceptable o no". En otras palabras, la " AIsimple" que genera criterios binarios específicos es muy eficaz para juzgar la " AIcompleja" que genera textos extensos. Esta técnica acelera los procesos de evaluación y reduce la dependencia de calificadores humanos para cada caso, aunque el juicio humano sigue siendo esencial en las revisiones de alto riesgo.
Los quitamiedos son redes de seguridad que deben instalarse desde el primer día.
La evaluación es un componente esencial de las barreras de seguridad que previenen modos de fallo conocidos con controles proactivos. Los guardarraíles pueden aplicarse a nivel de entrada (por ejemplo, filtrando inyecciones rápidas), a nivel de salida (por ejemplo, bloqueando terminaciones inseguras) o a través de lógica intermedia (por ejemplo, condiciones de acceso a herramientas).
Pero los guardarraíles tienen sus inconvenientes. Si son demasiado estrictos, provocan bucles de rechazo o fallos silenciosos que degradan la experiencia del usuario. Si son demasiado laxos, se supera la tolerancia al riesgo. Los guardarraíles deben evolucionar con las capacidades del agente y la madurez del negocio, empezando con guardarraíles estrictos para garantizar la confianza, y aflojándolos gradualmente para mejorar el valor al tiempo que se controlan los riesgos. Por lo tanto, el diseño, las pruebas y el ajuste de los controles no es una tarea puntual, sino que forma parte del ciclo de vida continuo de la supervisión.
Gestión de incidentes: El auge de los supervisores humanos
Incluso con sistemas bien instrumentados, los incidentes son inevitables. Una parte crítica de la supervisión agéntica es detectar fallos con barandillas y escalarlos a los equipos humanos. Puede tratarse de infracciones de seguridad, fallos en las tareas, resultados ambiguos o uso indebido de herramientas.
El trabajo de supervisión debe diseñarse para que resulte atractivo, sostenible y productivo. Los supervisores de primera línea necesitan:
- Contexto rico y estructurado: registros de seguimiento completos, explicaciones de activación, metadatos de usuario.
- Interfaces simplificadas: flujos de decisión, recomendaciones por defecto, opciones alternativas.
- Enrutamiento inteligente: asigne escalaciones en función de la experiencia y el equilibrio de la carga.
- Gestión de la fatiga: garantizar que el volumen y la complejidad de las alertas sean manejables.
Cuando se hace bien, la supervisión se convierte en un bucle virtuoso: las decisiones humanas alimentan los conjuntos de datos de reentrenamiento y perfeccionan las políticas de contención. La supervisión no se limita a la contención, sino que impulsa la mejora de los agentes a largo plazo.
Herramientas: La pila AgentOps
Para hacer operativo todo esto, las empresas deben adoptar una nueva clase de herramientas: la pila AgentOps. Se trata de plataformas como LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases y Robust Intelligence for:
- Observabilidad
- Evaluación
- Anotación de la verdad sobre el terreno
- Seguimiento de experimentos
- Orquestación de barandillas
La mayoría de las plataformas combinan estas características, pero cada una tiene puntos fuertes específicos. Algunas se centran más en la observabilidad, otras en el despliegue ágil, otras en un riesgo vertical como la seguridad. Estas herramientas son un reflejo de las plataformas DevOps y MLOps, pero están adaptadas a las necesidades específicas de los sistemas ágiles. Recomendamos la integración de estas herramientas con los conductos CI/CD y las plataformas de data existentes para mantener la trazabilidad y la reutilización.
La gobernanza es un deporte de equipo
Una de las principales conclusiones del estudio es que la gobernanza de los agentes no puede ser responsabilidad exclusiva de los ingenieros de AI . Los equipos de negocio deben codiseñar barandillas, definir umbrales de riesgo aceptables y participar en protocolos de escalado. Los departamentos jurídico, de cumplimiento normativo, de marketing y de soporte deben tener acceso a cuadros de mando adaptados a sus riesgos.
Esto implica una nueva forma de gobernanza, que combine la observabilidad de AI con la responsabilidad empresarial. Recomendamos organizar los equipos de supervisión no por agente, sino por tipo de riesgo (por ejemplo, legal, operativo, de marca), permitiendo una supervisión horizontal a través de múltiples agentes. Sin una organización de este tipo será difícil ampliar la confianza de los agentes.
El papel de DataOps
La AI robótica revela los fallos en la calidad de data empresariales como pocos sistemas antes. Los agentes basados en la recuperación a menudo sacan a la luz data obsoletos, confidenciales o irrelevantes si los repositorios subyacentes no están controlados. Por eso la gobernanza de los agentes debe ir de la mano de las operaciones de datos. Los incidentes deben rastrearse no sólo hasta la lógica del agente, sino también hasta los conductos de data que lo alimentan.
AgentOps, cuando se hace bien, refuerza la gobernanza de data empresariales. Y viceversa.
Un manual práctico para empezar
Para ayudar a las empresas a pasar de la teoría a la práctica, ofrecemos cuatro recomendaciones:
- Empezar con proyectos reales, no con prototipos: Centrar los esfuerzos de gobernanza en agentes de alto valor destinados a la producción. Construya sistemas reales, no demostraciones desechables, para descubrir las realidades operativas desde el principio.
- Piense primero en el desarrollador: Elija herramientas de observabilidad que admitan flujos de trabajo de ingeniería. Los cuadros de mando empresariales son útiles, pero la adopción por parte de los desarrolladores es fundamental para recopilar metadatos de calidad.
- Aclarar la propiedad de los riesgos: Defina qué funciones son propietarias de qué riesgos. ¿Quién es responsable de la seguridad, la privacidad, la parcialidad o la degradación de la experiencia del usuario? Establezca vías de escalado y normas de aprobación.
- Unifique AgentOps con DataOps: Trate a los agentes y a las canalizaciones data como dos caras de la misma moneda. Supervise conjuntamente la calidad de data y el comportamiento de los agentes para diagnosticar las causas raíz de las incidencias.
Conclusiones: De la supervisión a la ventaja estratégica
La supervisión robótica no se limita a prevenir daños, sino que permite la confianza a gran escala. Mediante el establecimiento de métricas compartidas, herramientas sólidas y protocolos de colaboración, las organizaciones pueden liberar todo el valor de los sistemas robóticos manteniendo los riesgos bajo control.
La gobernanza de los agentes evolucionará rápidamente. Pero sus cimientos son eternos: claridad, colaboración y aprendizaje continuo. Las empresas que adopten pronto esta disciplina no solo evitarán errores costosos, sino que construirán una ventaja competitiva duradera.

BLOG






