O estudo anterior da Artefactsobre O futuro do trabalho com AI concluiu que o trabalho repetitivo e tedioso será ampliado pela AI agêntica e transformado em supervisão agêntica. Dando continuidade a esse estudo, The Future of Agentic Supervision (O Futuro da Supervisão Agêntica) examina a fundo como as organizações podem se preparar para supervisionar e gerenciar o desempenho, a segurança e o valor estratégico desses novos sistemas inteligentes e, por fim, reinventar o trabalho em torno da supervisão de AI agêntica. Esta síntese resume os principais insights e recomendações do estudo, unindo a governança técnica e comercial com um manual prático para empresas que buscam criar agentes confiáveis e de alto impacto.
O que torna AI agêntica diferente?
Os sistemas AI agêntica não são softwares tradicionais. Eles são probabilísticos, o que significa que seus resultados, embora fortemente influenciados pelo contexto de entrada, variam a cada execução. O software tradicional, ao contrário, é orientado por regras determinísticas, que podem ser totalmente confiáveis se bem projetadas, pois aplicam constantemente a mesma lógica invariante e correta. O limite do software tradicional, entretanto, é que ele não pode resolver um problema novo, mesmo que ligeiramente diferente. Os agentes AI resolvem essa limitação de escopo às custas da confiabilidade. Eles integram recursos de linguagem natural com a capacidade de agir de forma autônoma em ferramentas internas, APIs ou bancos de dados para resolver novos problemas. Essa flexibilidade permite uma impressionante criação de valor no suporte ao cliente, nas operações, no RH e nas compras.
No entanto, os sistemas AI agêntica também rompem com as suposições de longa data da governança de software. Enquanto o código tradicional é testado uma vez e implantado com confiança, os agentes devem ser implantados com o risco em mente, monitorados, avaliados e aprimorados constantemente. O futuro da governança agêntica, portanto, não se trata apenas de certificação no momento da implantação, mas também de supervisão contínua em escala.
A troca central: valor vs. risco
As empresas enfrentam um desafio central com os agentes AI : não existe risco zero com a lógica probabilística. Como consequência, as equipes de desenvolvimento de agentes AI precisam fornecer valor com risco aceitável. Por um lado, agentes altamente permissivos podem agregar valor, mas também representam riscos operacionais, de reputação, éticos ou financeiros. Por outro lado, agentes altamente restritos podem ser seguros, preferindo respostas simples e superficiais, mas oferecem utilidade limitada.
Essa compensação entre valor e risco deve ser gerenciada de forma explícita. As empresas devem definir o que significa "valor" no contexto (taxa de sucesso da tarefa, envolvimento do usuário, ganhos de produtividade), bem como quais riscos devem ser controlados: alucinação, latência, parcialidade, danos à reputação ou custos excessivos. A supervisão se torna o mecanismo operacional que ajusta esse equilíbrio em cada etapa do ciclo de vida do agente AI : no projeto, no desenvolvimento, na implantação e nos tempos de execução.
Supervisão em três etapas: Observar, Avaliar, Agir
Para alcançar esse equilíbrio, as empresas precisam criar uma supervisão agêntica com base em três recursos principais:
- Observação: Capture dataestruturados de telemetria data, saídas, chamadas de ferramentas, erros e feedback humano.
- Avaliação: Use métricas de qualidade e indicadores de risco para avaliar o desempenho em relação aos objetivos definidos pela empresa e aos limites de controle.
- Ações: Escalar e gerenciar incidentes, treinar novamente os modelos, ajustar as proteções ou reverter as atualizações do agente.
Esse processo, chamado de "supervisão ativa", espelha as práticas de DevOps, mas deve ser adaptado à natureza probabilística e evolutiva da AI e estendido para além das equipes de tecnologia para abranger processos e equipes de negócios (Sucesso do Cliente, RH, Jurídico, Operações etc.).
A supervisão começa no nascimento de um agente
A governança autêntica começa bem antes da implementação. As equipes comerciais e técnicas devem colaborar desde a fase de exploração para definir critérios de sucesso, identificar tipos de risco e decidir sobre a estratégia de avaliação. Essa abordagem de co-projeto garante que os agentes não sejam apenas tecnicamente robustos, mas também estejam alinhados com as prioridades comerciais desde o início.
In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.
A supervisão não termina com a implantação. O monitoramento contínuo da produção é essencial para avaliar e refinar os agentes. Quando ocorre um incidente, a equipe de negócios responsável pela resolução manual deve informar o comportamento correto esperado à equipe de agentes, enriquecendo e aprimorando o conjunto de dados da verdade básica.
A implementação baseada em métricas requer informações comerciais
Uma grande inovação na governança de agentes é a ideia de que os agentes são liberados com base em limites de métricas multidimensionais. Isso inclui métricas tradicionais de desempenho (precisão, latência), métricas de negócios (conclusão de tarefas) e métricas de risco (toxicidade, parcialidade, violação de políticas).
De forma crítica, a decisão de promover um agente para a produção não deve recair apenas sobre as equipes técnicas. As partes interessadas da empresa devem definir os limites de risco aceitáveis e aprovar os critérios de implementação. A governança torna-se uma responsabilidade compartilhada entre engenheiros AI , gerentes de produtos, diretores de conformidade e especialistas no domínio.
O papel do LLM como juiz
A avaliação dos resultados gerados pelo LLM pode ser subjetiva e demorada. É aí que as técnicas de LLM como juiz entram em ação. Elas envolvem o uso de LLMs independentes para pontuar os resultados de outros LLMs, avaliando a relevância, a factualidade ou o tom da resposta.
Embora alguns possam ser céticos quanto ao uso da AI para julgar AI, a experiência mostra que modelos independentes podem avaliar de forma confiável os resultados gerados. No entanto, a condição para um LLM-as-a-Judge confiável é a simplicidade e a solicitação apenas de julgamentos binários como "aceitável ou não". Em outras palavras, a " AIsimples" que gera critérios binários específicos é muito eficaz para julgar a " AIcomplexa" que gera textos longos. Essa técnica acelera os pipelines de avaliação e reduz a dependência de avaliadores humanos para cada caso, embora o julgamento humano continue sendo essencial em avaliações de alto risco.
As grades de proteção são redes de segurança que devem ser instaladas desde o primeiro dia
A avaliação é um componente essencial das grades de proteção que evitam modos de falha conhecidos com controles proativos. As grades de proteção podem ser aplicadas no nível de entrada (por exemplo, filtrando injeções rápidas), no nível de saída (por exemplo, bloqueando conclusões inseguras) ou por meio de lógica intermediária (por exemplo, condições de acesso à ferramenta).
Mas as grades de proteção têm desvantagens. Se forem muito rígidas, causarão loops de rejeição ou falhas silenciosas que degradam a experiência do usuário. Muito frouxas, e a tolerância ao risco é excedida. Os guardrails devem evoluir com os recursos do agente e com a maturidade dos negócios, começando com guardrails rígidos para garantir a confiança e afrouxando-os gradualmente para aumentar o valor e, ao mesmo tempo, controlar os riscos. Portanto, projetar, testar e ajustar os guardrails não é uma tarefa única, é parte do ciclo de vida da supervisão contínua.
Tratamento de incidentes: A ascensão dos supervisores humanos
Mesmo com sistemas bem instrumentados, os incidentes são inevitáveis. Uma parte essencial da supervisão agêntica é detectar falhas com proteções e encaminhá-las às equipes humanas. Essas falhas podem incluir violações de segurança, falhas de tarefas, resultados ambíguos ou uso indevido de ferramentas.
O trabalho de supervisão deve ser projetado para ser envolvente, sustentável e produtivo. Os supervisores da linha de frente precisam:
- Contexto rico e estruturado: registros completos de rastreamento, explicações de acionamento, metadados do usuário.
- Interfaces simplificadas: fluxos de trabalho de decisão, recomendações padrão, opções de fallback.
- Roteamento inteligente: atribua escalonamentos com base na experiência e no balanceamento de carga.
- Gerenciamento da fadiga: garantir que o volume e a complexidade dos alertas sejam gerenciáveis.
Quando bem feita, a supervisão se torna um ciclo virtuoso: as decisões humanas alimentam os conjuntos de dados de retreinamento e refinam as políticas de proteção. A supervisão não é apenas uma questão de contenção, ela impulsiona a melhoria do agente a longo prazo.
Ferramentas: A pilha do AgentOps
Para operacionalizar tudo isso, as empresas devem adotar uma nova classe de ferramentas: a pilha AgentOps. Isso inclui plataformas como LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases e Robust Intelligence for:
- Observabilidade
- Avaliação
- Anotação da verdade fundamental
- Rastreamento de experimentos
- Orquestração de guardrail
A maioria das plataformas combina esses recursos, mas cada uma tem pontos fortes específicos. Algumas se concentram mais na observabilidade, outras na implantação agêntica, outras em uma vertical de risco como a segurança. Essas ferramentas espelham as plataformas DevOps e MLOps, mas são adaptadas às necessidades específicas dos sistemas agênticos. Recomendamos a integração dessas ferramentas com pipelines de CI/CD e plataformas data existentes para manter a rastreabilidade e a reutilização.
A governança é um esporte de equipe
Uma das principais conclusões do estudo é que a governança do agente não pode ser responsabilidade exclusiva dos engenheiros AI . As equipes comerciais devem co-projetar proteções, definir limites de risco aceitáveis e participar de protocolos de escalonamento. As equipes jurídica, de conformidade, de marketing e de suporte devem ter acesso a painéis de controle adaptados aos seus riscos.
Isso implica uma nova forma de governança, que combina a observabilidade AI com a responsabilidade comercial. Recomendamos organizar as equipes de supervisão não por agente, mas por tipo de risco (por exemplo, jurídico, operacional, de marca), permitindo a supervisão horizontal de vários agentes. Sem essa organização, será difícil dimensionar a confiança do agente.
A função do DataOps
AI agêntica revela as falhas na qualidade data corporativos como poucos sistemas antes. Os agentes baseados em recuperação geralmente trazem à tona data obsoletos, confidenciais ou irrelevantes se os repositórios subjacentes não forem curados. É por isso que a governança agêntica deve andar de mãos dadas com o DataOps. Os incidentes devem ser rastreados não apenas até a lógica do agente, mas também até os pipelines data que o alimentam.
O AgentOps, quando bem feito, fortalece a governança data corporativos. E vice-versa.
Um manual prático para começar
Para ajudar as empresas a passar da teoria à prática, oferecemos quatro recomendações:
- Comece com projetos reais, não com protótipos: Concentre os esforços de governança em agentes de alto valor destinados à produção. Crie sistemas reais, não demonstrações descartáveis, para descobrir as realidades operacionais desde o início.
- Pense no desenvolvedor em primeiro lugar nas ferramentas: Escolha ferramentas de observabilidade que suportem fluxos de trabalho de engenharia. Os painéis de negócios são úteis, mas a adoção do desenvolvedor é fundamental para coletar metadados de qualidade.
- Esclarecer a propriedade dos riscos: Defina quais funções são responsáveis por quais riscos. Quem é responsável pela degradação da segurança, da privacidade, do viés ou da experiência do usuário? Estabeleça caminhos de escalonamento e regras de aprovação.
- Unifique o AgentOps com o DataOps: trate os agentes e os pipelines data como dois lados da mesma moeda. Supervisione conjuntamente a qualidade data e o comportamento do agente para diagnosticar as causas básicas dos incidentes.
Conclusão: Da supervisão à vantagem estratégica
A supervisão agêntica não se trata apenas de evitar danos, mas também de possibilitar a confiança em escala. Ao estabelecer métricas compartilhadas, ferramentas robustas e protocolos colaborativos, as organizações podem liberar o valor total dos sistemas agênticos e, ao mesmo tempo, manter os riscos sob controle.
A governança de agentes evoluirá rapidamente. Mas sua base é atemporal: clareza, colaboração e aprendizado contínuo. As empresas que adotarem essa disciplina desde o início não apenas evitarão erros dispendiosos, mas também criarão uma vantagem competitiva duradoura.

BLOG






