Artefact Survey "The future of Agentic Supervision" - Key Insights

El estudio anterior de Artefact sobre El futuro del trabajo con IA concluyó que el trabajo repetitivo y tedioso se verá aumentado por la IA agéntica y se transformará en supervisión agéntica. Como continuación de este estudio, El futuro de la supervisión agéntica, profundiza en cómo pueden prepararse las organizaciones para supervisar y gestionar el rendimiento, la seguridad y el valor estratégico de estos nuevos sistemas inteligentes y, con el tiempo, reinventar el trabajo en torno a la supervisión agéntica con IA. Esta síntesis resume las ideas y recomendaciones clave del estudio, tendiendo un puente entre la gobernanza técnica y la empresarial con un libro de jugadas práctico para las empresas que buscan construir agentes fiables y de gran impacto.

Descargar la encuesta

¿Qué hace diferente a la IA agéntica?

Los sistemas de IA agenética no son software tradicional. Son probabilísticos, lo que significa que sus resultados, aunque fuertemente influidos por el contexto de entrada, varían en cada ejecución. El software tradicional, por el contrario, se rige por reglas deterministas, en las que se puede confiar plenamente si están bien diseñadas, porque aplican constantemente la misma lógica invariable y correcta. Sin embargo, el límite del software tradicional es que no puede resolver un problema nuevo, ni siquiera ligeramente diferente. Los agentes de IA resuelven esta limitación de alcance a expensas de la fiabilidad. Integran capacidades de lenguaje natural con el poder de actuar de forma autónoma a través de herramientas internas, API o bases data para resolver nuevos problemas. Esta flexibilidad permite una impresionante creación de valor a través de la atención al cliente, las operaciones, los RR.HH. y las adquisiciones.

Pero los sistemas de IA agéntica también trastocan los antiguos supuestos de la gobernanza del software. Mientras que el código tradicional se prueba una vez y se despliega con confianza, los agentes deben desplegarse teniendo en cuenta el riesgo, supervisarse, evaluarse y mejorarse constantemente. El futuro de la gobernanza agéntica, por lo tanto, no se trata sólo de la certificación en el momento del despliegue, sino también de la supervisión continua a escala.

El compromiso central: valor frente a riesgo

Las empresas se enfrentan a un reto fundamental con los agentes de IA: no existe el riesgo cero con la lógica probabilística. En consecuencia, los equipos de desarrollo de agentes de IA necesitan aportar valor con un riesgo aceptable. Por un lado, los agentes muy permisivos pueden aportar valor pero también plantear riesgos operativos, de reputación, éticos o financieros. Por otro lado, los agentes altamente restrictivos pueden ser seguros y preferir respuestas superficiales y sencillas, pero ofrecer una utilidad limitada.

Este equilibrio entre valor y riesgo debe gestionarse de forma explícita. Las empresas deben definir qué significa “valor” en su contexto (tasa de éxito de la tarea, compromiso del usuario, aumento de la productividad), así como qué riesgos deben controlarse: alucinación, latencia, sesgo, daño a la reputación o sobrecostes. La supervisión se convierte en el mecanismo operativo que afina este equilibrio en cada paso del ciclo de vida del agente de IA: en el diseño, el desarrollo, el despliegue y la ejecución.

La supervisión en tres pasos: Observar, Evaluar, Actuar

Para lograr este equilibrio, las empresas necesitan construir una supervisión agéntica en torno a tres capacidades básicas:

Observación: Capture telemetría estructurada data-entradas, salidas, llamadas a la herramienta, errores y retroalimentación humana.
Evaluación: Utilice métricas de calidad e indicadores de riesgo para evaluar el rendimiento con respecto a los objetivos definidos por la empresa y los umbrales de control.
Acción: Escalar y gestionar las incidencias, volver a formar a los modelos, ajustar los guardarraíles o deshacer las actualizaciones de los agentes.

Este proceso, denominado “supervisión activa”, refleja las prácticas DevOps pero debe adaptarse a la naturaleza probabilística y evolutiva de la IA, y extenderse más allá de los equipos tecnológicos para abarcar los procesos y equipos empresariales (Éxito del cliente, RRHH, Legal, Operaciones, etc.).

La supervisión comienza en el nacimiento de un agente

La gobernanza agéntica comienza mucho antes del despliegue. Los equipos empresariales y técnicos deben colaborar desde la fase de exploración para definir los criterios de éxito, identificar los tipos de riesgo y decidir la estrategia de evaluación. Este enfoque de codiseño garantiza que los agentes no sólo sean técnicamente robustos, sino que también estén alineados con las prioridades empresariales desde el principio.

En la fase de diseño, los equipos a menudo necesitan construir conjuntos data de “verdad básica” que reflejen el comportamiento deseado del agente. Éstos resultan esenciales tanto para la formación como para la evaluación. Durante el desarrollo, los equipos deben determinar los umbrales de lanzamiento “go/no-go” a través de múltiples métricas. El éxito ya no es binario (por ejemplo, todas las pruebas se superan); es probabilístico (por ejemplo, >90% en el éxito de la tarea, <2% en la toxicidad), lo que exige que la gobernanza defina qué aspecto tiene ser "suficientemente bueno".

La supervisión no termina con el despliegue. La supervisión continua de la producción es esencial para evaluar y perfeccionar los agentes. Cuando surge un incidente, el equipo de negocio responsable de la resolución manual debe retroalimentar al equipo de agentes sobre el comportamiento correcto esperado, enriqueciendo y mejorando así el conjunto datauth.

El despliegue basado en métricas requiere la aportación empresarial

Una innovación importante en el gobierno de los agentes es la idea de que éstos se liberen en función de umbrales métricos multidimensionales. Esto incluye los tradicionales métricas de rendimiento (precisión, latencia), métricas empresariales (finalización de la tarea), y métricas de riesgo (toxicidad, parcialidad, violación de la política).

Desde un punto de vista crítico, la decisión de pasar un agente a producción no debe recaer únicamente en los equipos técnicos. Las partes interesadas del negocio deben definir los umbrales de riesgo aceptables y aprobar los criterios de despliegue. La gobernanza se convierte en una responsabilidad compartida entre los ingenieros de IA, los jefes de producto, los responsables de cumplimiento y los expertos en la materia.

El papel del LLM como juez

La evaluación de los resultados generados por LLM puede ser subjetiva y requerir mucho tiempo. Ahí es donde entran en juego las técnicas de LLM-como-juez. Éstas implican el uso de LLM independientes para puntuar los resultados de otros LLM, evaluando la relevancia de la respuesta, la factualidad o el tono.

Aunque algunos se muestren escépticos sobre el uso de la IA para juzgar la IA, la experiencia demuestra que los modelos independientes pueden evaluar de forma fiable los resultados generados. Sin embargo, la condición para que un LLM-como-un-juez sea fiable es la simplicidad y que sólo pida juicios binarios como “aceptable o no”. En otras palabras, la “IA simple” que genera criterios binarios específicos es muy eficaz para juzgar la “IA compleja” que genera textos largos. Esta técnica acelera los procesos de evaluación y reduce la dependencia de calificadores humanos para cada caso, aunque el juicio humano sigue siendo esencial en las revisiones de alto riesgo.

Las barandillas son redes de seguridad que deben establecerse desde el primer día

La evaluación es un componente esencial de los guardrails que previenen los modos de fallo conocidos con controles proactivos. Los guardrails pueden aplicarse a nivel de entrada (por ejemplo, filtrando inyecciones rápidas), a nivel de salida (por ejemplo, bloqueando terminaciones inseguras) o a través de una lógica intermedia (por ejemplo, condiciones de acceso a la herramienta).

Pero los guardarraíles conllevan contrapartidas. Demasiado estrictos, y provocan bucles de rechazo o fallos silenciosos que degradan la UX. Demasiado laxos, y se supera la tolerancia al riesgo. Los guardarraíles deben evolucionar con las capacidades del agente y la madurez del negocio, empezando con guardarraíles estrictos para garantizar la confianza, y aflojándolos gradualmente para mejorar el valor a la vez que se controlan los riesgos. Por lo tanto, diseñar, probar y ajustar los guardrails no es una tarea de una sola vez, sino que forma parte del ciclo de vida continuo de la supervisión.

Gestión de incidentes: El auge de los supervisores humanos

Incluso con sistemas bien instrumentados, los incidentes son inevitables. Una parte crítica de la supervisión agéntica es detectar fallos con barandillas y escalarlos a los equipos humanos. Estos pueden incluir violaciones de la seguridad, fallos en las tareas, salidas ambiguas o un mal uso de las herramientas.

El trabajo de supervisión debe diseñarse para que sea atractivo, sostenible y productivo. Los supervisores de primera línea necesitan:

Contexto rico y estructurado: registros de rastreo completos, explicaciones de activación, metadata de usuario.
Interfaces racionalizadas: flujos de trabajo de decisión, recomendaciones por defecto, opciones alternativas.
Enrutamiento inteligente: asignar escalaciones en función de la experiencia y el equilibrio de la carga.
Gestión de la fatiga: garantizar que el volumen y la complejidad de las alertas sean manejables.

Cuando se hace bien, la supervisión se convierte en un bucle virtuoso: las decisiones humanas alimentan el reciclaje datasets y perfeccionan las políticas de contención. La supervisión no es sólo contención, sino que impulsa la mejora de los agentes a largo plazo.

Herramientas: La pila AgentOps

Para hacer operativo todo esto, las empresas deben adoptar una nueva clase de herramientas: la pila AgentOps. Entre ellas se encuentran plataformas como LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases y Robust Intelligence for:

Observabilidad
Evaluación
Anotación de la verdad sobre el terreno
Seguimiento de experimentos
Orquestación de barandillas

La mayoría de las plataformas combinan estas características, pero cada una tiene puntos fuertes específicos. Algunas se centran más en la observabilidad, otras en el despliegue agéntico, otras en una vertical de riesgo como la seguridad. Estas herramientas son un reflejo de las plataformas DevOps y MLOps, pero están adaptadas a las necesidades específicas de los sistemas agénticos. Recomendamos integrar estas herramientas con los conductos CI/CD y data platforms existentes para mantener la trazabilidad y la reutilización.

La gobernanza es un deporte de equipo

Una de las conclusiones clave del estudio es que la gobernanza de los agentes no puede ser responsabilidad exclusiva de los ingenieros de IA. Los equipos empresariales deben codiseñar las barandillas, definir los umbrales de riesgo aceptables y participar en los protocolos de escalada. Los departamentos jurídico, de cumplimiento, de marketing y de asistencia deben tener acceso a cuadros de mando adaptados a sus riesgos.

Esto implica una nueva forma de gobernanza, que combine la observabilidad de la IA con la responsabilidad empresarial. Recomendamos organizar los equipos de supervisión no por agente, sino por tipo de riesgo (por ejemplo, legal, operativo, de marca), permitiendo una supervisión horizontal a través de múltiples agentes. Sin una organización de este tipo será difícil ampliar la confianza de los agentes.

El papel del DataOps

La IA agenética revela los defectos de calidad data de las empresas como pocos sistemas lo habían hecho antes. Los agentes basados en la recuperación a menudo sacan a la superficie data obsoletos, sensibles o irrelevantes si los repositorios subyacentes no están curados. Por eso la gobernanza de los agentes debe ir de la mano de los DataOps. Los incidentes deben rastrearse no sólo hasta la lógica de consulta del agente, sino hasta los conductos data que lo alimentan.

El AgentOps, cuando se hace bien, refuerza el data governance empresarial. Y viceversa.

Un manual práctico para empezar

Para ayudar a las empresas a pasar de la teoría a la práctica, ofrecemos cuatro recomendaciones:

Empiece con proyectos reales, no con prototipos: Concentre los esfuerzos de gobernanza en los agentes de alto valor destinados a la producción. Construya sistemas reales, no demos desechables, para descubrir pronto las realidades operativas.
Piense primero en el desarrollador a la hora de crear herramientas: Elija herramientas de observabilidad que apoyen los flujos de trabajo de ingeniería. Los cuadros de mando empresariales son útiles, pero la adopción por parte de los desarrolladores es fundamental para recopilar metadata de calidad.
Aclare la propiedad del riesgo: Defina qué funciones son responsables de qué riesgos. ¿Quién es responsable de la seguridad, la privacidad, la parcialidad o la degradación de la UX? Establezca vías de escalado y reglas de aprobación.
Unifique AgentOps con DataOps: Trate a los agentes y a los conductos data como dos caras de la misma moneda. Supervise conjuntamente la calidad data y el comportamiento de los agentes para diagnosticar las causas raíz de los incidentes.

Conclusiones: De la supervisión a la ventaja estratégica

La supervisión agéntica no consiste sólo en prevenir daños, sino en permitir la confianza a escala. Mediante el establecimiento de métricas compartidas, herramientas sólidas y protocolos de colaboración, las organizaciones pueden liberar todo el valor de los sistemas agénticos manteniendo los riesgos bajo control.

La gobernanza de los agentes evolucionará rápidamente. Pero sus cimientos son intemporales: claridad, colaboración y aprendizaje continuo. Las empresas que adopten pronto esta disciplina no sólo evitarán costosos errores, sino que construirán una ventaja competitiva duradera.

Contáctenos

Artefact Encuesta “El futuro de la supervisión agéntica” - Principales conclusiones

Autor

No se ha encontrado nada