Die frühere Studie von Artefactüber die Zukunft der Arbeit mit AI kam zu dem Schluss, dass repetitive und langwierige Arbeit durch agentenbasierte AI ergänzt und in eine agentenbasierte Überwachung umgewandelt werden wird. Die auf dieser Studie aufbauende Studie The Future of Agentic Supervision befasst sich eingehend mit der Frage, wie sich Unternehmen darauf vorbereiten können, die Leistung, die Sicherheit und den strategischen Wert dieser neuen intelligenten Systeme zu überwachen und zu verwalten und schließlich die Arbeit rund um die agentengestützte AI neu zu erfinden. Diese Synthese fasst die wichtigsten Erkenntnisse und Empfehlungen der Studie zusammen und schlägt eine Brücke zwischen technischer und geschäftlicher Governance mit einem praktischen Leitfaden für Unternehmen, die vertrauenswürdige, hochwirksame Agenten entwickeln wollen.
Laden Sie die Umfrage herunter
Was macht agentenbasierte AI anders?
Agentische AI sind keine herkömmliche Software. Sie sind probabilistisch, d. h. ihre Ergebnisse sind zwar stark vom Eingabekontext abhängig, variieren aber bei jedem Durchlauf. Herkömmliche Software hingegen wird durch deterministische Regeln gesteuert, denen man voll und ganz vertrauen kann, wenn sie gut konzipiert sind, weil sie stets die gleiche, unveränderliche und korrekte Logik anwenden. Die Grenze herkömmlicher Software liegt jedoch darin, dass sie kein neues, auch nur leicht verändertes Problem lösen kann. AI lösen diese Einschränkung des Anwendungsbereichs auf Kosten der Zuverlässigkeit. Sie integrieren natürlichsprachliche Fähigkeiten mit der Fähigkeit, über interne Tools, APIs oder Datenbanken hinweg autonom zu handeln, um neue Probleme zu lösen. Diese Flexibilität ermöglicht eine beeindruckende Wertschöpfung in den Bereichen Kundensupport, Betrieb, Personalwesen und Beschaffung.
Agentenbasierte AI stellen jedoch auch langjährige Annahmen zur Softwareverwaltung in Frage. Während herkömmlicher Code einmal getestet und dann vertrauensvoll eingesetzt wird, müssen Agenten risikobewusst eingesetzt, ständig überwacht, bewertet und verbessert werden. Die Zukunft der agentenbasierten Governance liegt daher nicht nur in der Zertifizierung zum Zeitpunkt der Bereitstellung, sondern auch in der kontinuierlichen Überwachung im großen Maßstab.
Der zentrale Kompromiss: Wert vs. Risiko
Unternehmen stehen bei AI vor einer zentralen Herausforderung: Bei probabilistischer Logik gibt es kein Nullrisiko. Folglich müssen die Entwicklungsteams für AI einen Mehrwert bei akzeptablem Risiko bieten. Einerseits können sehr freizügige Agenten zwar einen Mehrwert bieten, aber auch betriebliche, reputationsbezogene, ethische oder finanzielle Risiken mit sich bringen. Andererseits können stark eingeschränkte Agenten sicher sein, da sie oberflächliche und einfache Antworten bevorzugen, aber nur einen begrenzten Nutzen bieten.
Dieser Kompromiss zwischen Wert und Risiko muss explizit verwaltet werden. Unternehmen müssen definieren, was "Wert" im jeweiligen Kontext bedeutet (Erfolgsquote der Aufgabe, Engagement der Benutzer, Produktivitätssteigerung) und welche Risiken kontrolliert werden müssen: Halluzinationen, Latenz, Verzerrungen, Rufschädigung oder Kostenüberschreitungen. Die Überwachung wird zum operativen Mechanismus, der dieses Gleichgewicht bei jedem Schritt im Lebenszyklus des AI abstimmt: beim Entwurf, bei der Entwicklung, bei der Bereitstellung und während der Laufzeit.
Supervision in drei Schritten: Beobachten, Beurteilen, Handeln
Um dieses Gleichgewicht zu erreichen, müssen die Unternehmen eine agenturgestützte Überwachung um drei Kernkompetenzen herum aufbauen:
- Beobachtung: Erfassen Sie strukturierte data, Ausgaben, Werkzeugaufrufe, Fehler und menschliches Feedback.
- Bewertung: Verwenden Sie Qualitätsmetriken und Risikoindikatoren, um die Leistung anhand der vom Unternehmen festgelegten Ziele und Kontrollschwellen zu bewerten.
- Aktion: Eskalieren und verwalten Sie Vorfälle, schulen Sie Modelle neu, passen Sie Leitplanken an oder nehmen Sie Agentenaktualisierungen zurück.
Dieser Prozess, der als "aktive Überwachung" bezeichnet wird, spiegelt die DevOps-Praktiken wider, muss jedoch an die probabilistische, sich entwickelnde Natur der AI angepasst und über die technischen Teams hinaus auf Geschäftsprozesse und -teams (Customer Success, HR, Legal, Operations usw.) ausgeweitet werden.
Die Aufsicht beginnt mit der Geburt eines Bediensteten
Agentic Governance beginnt lange vor der Einführung. Geschäfts- und Technikteams müssen bereits in der Sondierungsphase zusammenarbeiten, um Erfolgskriterien zu definieren, Risikotypen zu ermitteln und über die Bewertungsstrategie zu entscheiden. Dieser Co-Design-Ansatz stellt sicher, dass die Agenten nicht nur technisch robust sind, sondern auch von Anfang an mit den geschäftlichen Prioritäten übereinstimmen.
In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.
Die Überwachung endet nicht mit dem Einsatz. Die kontinuierliche Überwachung der Produktion ist für die Bewertung und Verfeinerung der Agenten unerlässlich. Wenn ein Vorfall auftritt, muss das für die manuelle Lösung verantwortliche Geschäftsteam das erwartete korrekte Verhalten an das Agententeam zurückmelden und so den Datensatz der Grundwahrheit anreichern und verbessern.
Metrikbasierte Bereitstellung erfordert Input aus dem Unternehmen
Eine wichtige Neuerung bei der Agentensteuerung ist die Idee, dass Agenten auf der Grundlage multidimensionaler metrischer Schwellenwerte freigegeben werden. Dazu gehören herkömmliche Leistungsmetriken (Genauigkeit, Latenz), Geschäftsmetriken (Aufgabenerfüllung) und Risikometriken (Toxizität, Verzerrung, Verletzung von Richtlinien).
Entscheidend ist, dass die Entscheidung, einen Agenten in die Produktion zu überführen, nicht allein von den technischen Teams getroffen werden darf. Die Unternehmensverantwortlichen müssen akzeptable Risikogrenzen festlegen und Einsatzkriterien genehmigen. Für die Governance sind AI , Produktmanager, Compliance-Beauftragte und Fachexperten gemeinsam verantwortlich.
Die Rolle des LLM als Richter
Die Bewertung von LLM-generierten Ergebnissen kann subjektiv und zeitaufwändig sein. Hier kommen LLM-as-a-Judge-Techniken ins Spiel. Dabei werden unabhängige LLMs eingesetzt, um die Ergebnisse anderer LLMs zu bewerten, indem sie die Relevanz, die Faktizität oder den Ton der Antworten beurteilen.
Auch wenn einige skeptisch sind, AI zur Beurteilung von AI einzusetzen, zeigt die Erfahrung, dass unabhängige Modelle die erzeugten Ergebnisse zuverlässig bewerten können. Voraussetzung für ein zuverlässiges LLM als Richter ist jedoch, dass es einfach ist und nur binäre Urteile wie "akzeptabel oder nicht" verlangt. Mit anderen Worten: Eine "einfache AI", die spezifische binäre Kriterien erzeugt, ist sehr effektiv bei der Beurteilung einer "komplexen AI", die lange Texte erzeugt. Diese Technik beschleunigt die Bewertungspipelines und verringert die Abhängigkeit von menschlichen Bewertern für jeden Fall, obwohl die menschliche Beurteilung bei hochrangigen Prüfungen weiterhin unerlässlich ist.
Leitplanken sind Sicherheitsnetze, die vom ersten Tag an aufgebaut werden müssen
Die Evaluierung ist eine wesentliche Komponente von Leitplanken, die bekannte Fehlermodi durch proaktive Kontrollen verhindern. Guardrails können auf der Eingabeebene (z. B. Filtern von Prompt-Injektionen), auf der Ausgabeebene (z. B. Blockieren unsicherer Vervollständigungen) oder über eine Zwischenlogik (z. B. Werkzeugzugriffsbedingungen) angewendet werden.
Doch Leitplanken haben ihre Tücken. Sind sie zu streng, führen sie zu Ablehnungsschleifen oder stillen Fehlern, die die Benutzerfreundlichkeit beeinträchtigen. Zu locker, und die Risikotoleranz wird überschritten. Guardrails müssen sich mit den Fähigkeiten des Agenten und dem Reifegrad des Unternehmens weiterentwickeln, wobei mit strengen Guardrails begonnen wird, um Vertrauen zu gewährleisten, und diese schrittweise gelockert werden, um den Wert zu steigern und gleichzeitig die Risiken zu kontrollieren. Daher ist das Entwerfen, Testen und Abstimmen von Leitplanken keine einmalige Aufgabe, sondern Teil des laufenden Überwachungslebenszyklus.
Umgang mit Vorfällen: Der Aufstieg der menschlichen Aufsichtspersonen
Selbst bei gut ausgestatteten Systemen sind Zwischenfälle unvermeidlich. Ein wichtiger Teil der agentengestützten Überwachung ist die Erkennung von Fehlern mit Leitplanken und deren Eskalation an menschliche Teams. Dazu können Sicherheitsverstöße, Aufgabenfehler, unklare Ergebnisse oder der Missbrauch von Werkzeugen gehören.
Die Aufsichtstätigkeit muss so gestaltet sein, dass sie ansprechend, nachhaltig und produktiv ist. Aufsichtspersonen an vorderster Front brauchen:
- Reichhaltiger, strukturierter Kontext: vollständige Ablaufverfolgungsprotokolle, Erklärungen zu Auslösern, Benutzer-Metadaten.
- Optimierte Schnittstellen: Entscheidungsworkflows, Standardempfehlungen, Fallback-Optionen.
- Intelligentes Routing: Zuweisung von Eskalationen auf der Grundlage von Fachwissen und Lastausgleich.
- Ermüdungsmanagement: Sicherstellen, dass der Umfang und die Komplexität der Alarme überschaubar sind.
Wenn sie gut gemacht ist, wird die Überwachung zu einem positiven Kreislauf: Menschliche Entscheidungen fließen in die Umschulungsdatensätze ein und verfeinern die Leitplankenpolitik. Bei der Überwachung geht es nicht nur um die Eindämmung, sondern um die langfristige Verbesserung von Agenten.
Werkzeuge: Der AgentOps-Stapel
Um all dies zu operationalisieren, müssen Unternehmen eine neue Klasse von Tools einsetzen: den AgentOps-Stack. Dazu gehören Plattformen wie LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases und Robust Intelligence for:
- Beobachtbarkeit
- Bewertung
- Kommentierung der Grundwahrheit
- Verfolgung von Experimenten
- Orchestrierung der Leitplanken
Die meisten Plattformen kombinieren diese Merkmale, aber jede hat spezifische Stärken. Einige konzentrieren sich mehr auf die Beobachtbarkeit, andere auf die agentengestützte Bereitstellung, wieder andere auf einen Risikobereich wie die Sicherheit. Diese Tools spiegeln DevOps- und MLOps-Plattformen wider, sind aber an die spezifischen Anforderungen von Agentensystemen angepasst. Wir empfehlen, diese Tools in bestehende CI/CD-Pipelines und data zu integrieren, um Nachvollziehbarkeit und Wiederverwendung zu gewährleisten.
Regieren ist ein Mannschaftssport
Eine der wichtigsten Schlussfolgerungen der Studie ist, dass die Steuerung von Agenten nicht allein in der Verantwortung von AI liegen kann. Geschäftsteams müssen Leitplanken mitgestalten, akzeptable Risikoschwellen definieren und an Eskalationsprotokollen teilnehmen. Rechtsabteilung, Compliance, Marketing und Support müssen Zugang zu Dashboards haben, die auf ihre Risiken zugeschnitten sind.
Dies setzt eine neue Form der Governance voraus, die die Beobachtbarkeit der AI mit der Rechenschaftspflicht des Unternehmens verbindet. Wir empfehlen, Aufsichtsteams nicht nach Agenten, sondern nach Risikotypen (z. B. rechtlich, operativ, Marke) zu organisieren, um eine horizontale Aufsicht über mehrere Agenten zu ermöglichen. Ohne eine solche Organisation wird es schwierig sein, das Vertrauen in die Agenten zu erhöhen.
Die Rolle von DataOps
Agentische AI deckt die Schwachstellen in der data von Unternehmen auf wie kaum ein anderes System zuvor. Retrieval-basierte Agenten decken oft veraltete, sensible oder irrelevante data auf, wenn die zugrunde liegenden Repositories nicht kuratiert sind. Aus diesem Grund muss Agenten-Governance Hand in Hand mit DataOps gehen. Vorfälle müssen nicht nur bis zur Abfragelogik des Agenten zurückverfolgt werden, sondern auch bis zu den data , die ihn speisen.
AgentOps stärkt, wenn es richtig gemacht wird, die data Governance im Unternehmen. Und vice versa.
Ein praktisches Handbuch für die ersten Schritte
Um Unternehmen beim Übergang von der Theorie zur Praxis zu unterstützen, geben wir vier Empfehlungen:
- Beginnen Sie mit echten Projekten, nicht mit Prototypen: Konzentrieren Sie sich bei der Steuerung auf hochwertige Agenten, die für die Produktion bestimmt sind. Bauen Sie reale Systeme und keine Einwegdemos, um die betrieblichen Realitäten frühzeitig zu erkennen.
- Denken Sie beim Tooling zuerst an den Entwickler: Wählen Sie Observability-Tools, die technische Arbeitsabläufe unterstützen. Unternehmens-Dashboards sind hilfreich, aber die Akzeptanz durch die Entwickler ist entscheidend für die Erfassung hochwertiger Metadaten.
- Klären Sie die Verantwortung für die Risiken: Legen Sie fest, welche Funktionen für welche Risiken verantwortlich sind. Wer ist für Sicherheit, Datenschutz, Voreingenommenheit oder UX-Verschlechterung verantwortlich? Legen Sie Eskalationspfade und Abzeichnungsregeln fest.
- Vereinheitlichen Sie AgentOps mit DataOps: Behandeln Sie Agenten und data als zwei Seiten derselben Medaille. Überwachen Sie gemeinsam die data und das Agentenverhalten, um die Ursachen von Vorfällen zu diagnostizieren.
Schlussfolgerung: Von der Aufsicht zum strategischen Vorteil
Bei der Überwachung durch Agenten geht es nicht nur darum, Schaden zu verhindern, sondern auch darum, Vertrauen in großem Umfang zu ermöglichen. Durch die Etablierung gemeinsamer Messgrößen, robuster Werkzeuge und kollaborativer Protokolle können Unternehmen den vollen Wert agentenbasierter Systeme ausschöpfen und gleichzeitig die Risiken unter Kontrolle halten.
Agent Governance wird sich schnell weiterentwickeln. Die Grundlage ist jedoch zeitlos: Klarheit, Zusammenarbeit und kontinuierliches Lernen. Unternehmen, die sich diese Disziplin frühzeitig zu eigen machen, werden nicht nur kostspielige Fehler vermeiden, sondern sich auch einen dauerhaften Wettbewerbsvorteil verschaffen.

BLOG





