Um estudo anterior Artefactsobre “O Futuro do Trabalho com AI que as tarefas repetitivas e tediosas serão complementadas pela AI autônoma AI transformadas em supervisão autônoma. Dando continuidade a esse estudo, “O Futuro da Supervisão Agênica” analisa em profundidade como as organizações podem se preparar para supervisionar e gerenciar o desempenho, a segurança e o valor estratégico desses novos sistemas inteligentes e, eventualmente, reinventar o trabalho em torno AI agênica. Esta síntese resume os principais insights e recomendações do estudo, unindo a governança técnica e empresarial a um manual prático para empresas que buscam construir agentes confiáveis e de alto impacto.
O que diferencia AI autônoma?
AI agênica não são softwares tradicionais. Eles são probabilísticos, o que significa que seus resultados, embora fortemente influenciados pelo contexto de entrada, variam a cada execução. O software tradicional, ao contrário, é orientado por regras determinísticas, nas quais se pode confiar plenamente se forem bem projetadas, pois aplicam constantemente a mesma lógica, invariante e correta. O limite do software tradicional, no entanto, é que ele não consegue resolver um problema novo, mesmo que ligeiramente diferente. AI superam essa limitação de escopo em detrimento da confiabilidade. Eles integram recursos de linguagem natural com o poder de agir de forma autônoma em ferramentas internas, APIs ou bancos de dados para resolver novos problemas. Essa flexibilidade permite uma impressionante criação de valor nas áreas de suporte ao cliente, operações, RH e compras.
Mas AI com agentes também desafiam pressupostos de longa data na governança de software. Enquanto o código tradicional é testado uma vez e implantado com confiança, os agentes devem ser implantados levando em conta os riscos, sendo constantemente monitorados, avaliados e aprimorados. O futuro da governança de sistemas com agentes, portanto, não se resume apenas à certificação no momento da implantação, mas também à supervisão contínua em grande escala.
O dilema central: valor versus risco
As empresas enfrentam um desafio fundamental com AI : não existe risco zero na lógica probabilística. Consequentemente, as equipes de desenvolvimento AI precisam gerar valor com um nível de risco aceitável. Por um lado, agentes altamente permissivos podem gerar valor, mas também representam riscos operacionais, de reputação, éticos ou financeiros. Por outro lado, agentes altamente restritos podem ser seguros, optando por respostas superficiais e simples, mas oferecem utilidade limitada.
Essa relação entre valor e risco deve ser gerenciada de forma explícita. As empresas devem definir o que significa “valor” nesse contexto (taxa de sucesso das tarefas, engajamento do usuário, ganhos de produtividade), bem como quais riscos devem ser controlados: alucinações, latência, viés, danos à reputação ou excedentes de custos. A supervisão torna-se o mecanismo operacional que ajusta esse equilíbrio em cada etapa do ciclo de vida AI : nas fases de projeto, desenvolvimento, implantação e execução.
Supervisão em três etapas: Observar, Avaliar, Agir
Para alcançar esse equilíbrio, as empresas precisam desenvolver uma supervisão proativa em torno de três capacidades essenciais:
- Observação: Capture datade telemetria estruturados — entradas, saídas, chamadas de ferramentas, erros e feedback humano.
- Avaliação: Utilize métricas de qualidade e indicadores de risco para avaliar o desempenho em relação aos objetivos definidos pela empresa e aos limites de controle.
- Ação: Escalar e gerenciar incidentes, retreinar modelos, ajustar limites de segurança ou reverter atualizações de agentes.
Esse processo, denominado“supervisão ativa”, reflete as práticas de DevOps, mas deve ser adaptado à natureza probabilística e em constante evolução da AI, além de ser estendido para além das equipes técnicas, de modo a abranger processos e equipes de negócios (Sucesso do Cliente, RH, Jurídico, Operações, etc.).
A supervisão começa desde o nascimento do agente
A governança de agentes começa muito antes da implantação. As equipes comerciais e técnicas devem colaborar desde a fase de exploração para definir critérios de sucesso, identificar tipos de risco e decidir sobre a estratégia de avaliação. Essa abordagem de co-projeto garante que os agentes não sejam apenas tecnicamente robustos, mas também estejam alinhados com as prioridades comerciais desde o início.
In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.
A supervisão não termina com a implantação. O monitoramento contínuo da produção é essencial para avaliar e aperfeiçoar os agentes. Quando ocorre um incidente, a equipe de negócios responsável pela resolução manual deve informar o comportamento correto esperado à equipe de agentes, enriquecendo e melhorando assim o conjunto de dados de referência.
A implantação baseada em métricas requer contribuições da área de negócios
Uma grande inovação na governança de agentes é a ideia de que os agentes são liberados com base em limites métricos multidimensionais. Isso incluimétricastradicionaisde desempenho(precisão, latência),métricas de negócios(conclusão de tarefas) emétricas de risco(toxicidade, viés, violação de políticas).
É fundamental que a decisão de levar um agente para a produção não recaia exclusivamente sobre as equipes técnicas. As partes interessadas da área de negócios devem definir limites de risco aceitáveis e aprovar os critérios de implantação. A governança passa a ser uma responsabilidade compartilhada entre AI , gerentes de produto, responsáveis pela conformidade e especialistas na área.
O papel do LLM como juiz
Avaliar os resultados gerados por LLMs pode ser subjetivo e demorado. É aí que entram em cena as técnicas do tipo “LLM como juiz”. Elas envolvem o uso de LLMs independentes para pontuar os resultados de outros LLMs, avaliando a relevância, a veracidade ou o tom das respostas.
Embora alguns possam se mostrar céticos quanto ao uso AI avaliar AI, a experiência mostra que modelos independentes podem avaliar com confiabilidade os resultados gerados. No entanto, a condição para que um LLM atue como avaliador seja confiável é a simplicidade e a solicitação exclusiva de julgamentos binários, como “aceitável ou não”. Em outras palavras, AIque gera critérios binários específicos é muito eficaz para avaliar AIque gera textos extensos. Essa técnica acelera os processos de avaliação e reduz a dependência de avaliadores humanos em cada caso, embora o julgamento humano continue sendo essencial em revisões de alto risco.
As grades de proteção são medidas de segurança que devem ser implementadas desde o primeiro dia
A avaliação é um componente essencial das medidas de proteção que previnem modos de falha conhecidos por meio de controles proativos. Essas medidas de proteção podem ser aplicadas no nível de entrada (por exemplo, filtrando injeções de prompt), no nível de saída (por exemplo, bloqueando completamentos inseguros) ou por meio de lógica intermediária (por exemplo, condições de acesso a ferramentas).
Mas as barreiras de segurança envolvem compromissos. Se forem muito rígidas, causam ciclos de rejeição ou falhas silenciosas que prejudicam a experiência do usuário. Se forem muito flexíveis, a tolerância ao risco é excedida. As barreiras de segurança devem evoluir de acordo com as capacidades do agente e a maturidade do negócio, começando com barreiras rígidas para garantir a confiança e, gradualmente, flexibilizando-as para aumentar o valor, ao mesmo tempo em que se controlam os riscos. Portanto, projetar, testar e ajustar as barreiras de proteção não é uma tarefa pontual, mas parte do ciclo de vida contínuo da supervisão.
Gestão de incidentes: A ascensão dos supervisores humanos
Mesmo em sistemas bem equipados, os incidentes são inevitáveis. Uma parte essencial da supervisão de agentes consiste em detectar falhas nas medidas de segurança e encaminhá-las às equipes humanas. Isso pode incluir violações de segurança, falhas nas tarefas, resultados ambíguos ou uso indevido das ferramentas.
A função de supervisão deve ser concebida de forma a ser envolvente, sustentável e produtiva. Os supervisores da linha de frente precisam de:
- Contexto rico e estruturado: registros completos de rastreamento, explicações sobre gatilhos, metadados do usuário.
- Interfaces simplificadas: fluxos de trabalho para tomada de decisão, recomendações padrão, opções alternativas.
- Roteamento inteligente: atribua escalações com base na especialização e no balanceamento de carga.
- Gestão da fadiga: garantir que o volume e a complexidade dos alertas sejam controláveis.
Quando bem executada, a supervisão se transforma em um ciclo virtuoso: as decisões humanas alimentam os conjuntos de dados de retreinamento e refinam as políticas de proteção. A supervisão não se resume apenas à contenção; ela impulsiona o aprimoramento do agente a longo prazo.
Ferramentas: A pilha do AgentOps
Para colocar tudo isso em prática, as empresas devem adotar uma nova categoria de ferramentas: a pilha AgentOps. Entre elas estão plataformas como LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases e Robust Intelligence para:
- Observabilidade
- Avaliação
- Anotação de referência
- Acompanhamento de experimentos
- Orquestração do Guardrail
A maioria das plataformas combina esses recursos, mas cada uma tem seus pontos fortes específicos. Algumas se concentram mais na observabilidade, outras na implantação de sistemas baseados em agentes e outras ainda em uma área de risco específica, como a segurança. Essas ferramentas se assemelham às plataformas de DevOps e MLOps, mas são adaptadas às necessidades específicas dos sistemas baseados em agentes. Recomendamos integrar essas ferramentas aos pipelines de CI/CD e data existentes para manter a rastreabilidade e a reutilização.
A governança é um esporte coletivo
Uma das principais conclusões do estudo é que a governança dos agentes não pode ser de responsabilidade exclusiva dos AI . As equipes de negócios devem participar da concepção de medidas de proteção, definir limites de risco aceitáveis e participar dos protocolos de escalonamento. Os departamentos jurídico, de conformidade, de marketing e de suporte devem ter acesso a painéis de controle adaptados aos seus riscos.
Isso implica uma nova forma de governança, que combine AI com a responsabilidade empresarial. Recomendamos organizar as equipes de supervisão não por agente, mas por tipo de risco (por exemplo, jurídico, operacional, de marca), permitindo uma supervisão horizontal que abranja vários agentes. Sem essa organização, será difícil ampliar a confiança nos agentes.
O papel do DataOps
AI agentiva AI as falhas na data corporativos como poucos sistemas antes conseguiram. Os agentes baseados em recuperação de dados frequentemente apresentam data desatualizados, confidenciais ou irrelevantes data os repositórios subjacentes não forem devidamente gerenciados. É por isso que a governança agentiva deve andar de mãos dadas com o DataOps. Os incidentes devem ser rastreados não apenas até a lógica do prompt do agente, mas também até os data que o alimentam.
Quando bem implementado, o AgentOps fortalece data corporativos. E vice-versa.
Um guia prático para começar
Para ajudar as empresas a passar da teoria à prática, oferecemos quatro recomendações:
- Comece com projetos reais, não com protótipos: concentre os esforços de governança em agentes de alto valor destinados à produção. Crie sistemas reais, não demonstrações descartáveis, para identificar as realidades operacionais desde o início.
- Ao escolher ferramentas, priorize os desenvolvedores: opte por ferramentas de observabilidade que ofereçam suporte aos fluxos de trabalho de engenharia. Os painéis de negócios são úteis, mas a adesão dos desenvolvedores é fundamental para a coleta de metadados de qualidade.
- Esclarecer a responsabilidade pelos riscos: definir quais funções são responsáveis por quais riscos. Quem é responsável pela segurança, privacidade, preconceitos ou deterioração da experiência do usuário? Estabelecer procedimentos de escalonamento e regras de aprovação.
- Unifique o AgentOps com o DataOps: considere os agentes e data como duas faces da mesma moeda. Supervisione conjuntamente data e o comportamento dos agentes para diagnosticar as causas originais dos incidentes.
Conclusão: Da supervisão à vantagem estratégica
A supervisão de sistemas autônomos não se resume apenas a prevenir danos, mas sim a promover a confiança em grande escala. Ao estabelecer métricas compartilhadas, ferramentas robustas e protocolos colaborativos, as organizações podem explorar todo o potencial dos sistemas autônomos, mantendo os riscos sob controle.
A governança de agentes evoluirá rapidamente. Mas seus fundamentos são atemporais: clareza, colaboração e aprendizagem contínua. As empresas que adotarem essa disciplina desde o início não apenas evitarão erros dispendiosos, como também construirão uma vantagem competitiva duradoura.

BLOG






