Die frühere Studie von Artefact über die Zukunft der Arbeit mit KI kam zu dem Schluss, dass repetitive und mühsame Arbeit durch agentenbasierte KI ergänzt und in eine agentenbasierte Überwachung umgewandelt werden wird. Die Studie The Future of Agentic Supervision (Die Zukunft der agentengestützten Überwachung) geht der Frage nach, wie sich Unternehmen darauf vorbereiten können, die Leistung, die Sicherheit und den strategischen Wert dieser neuen intelligenten Systeme zu überwachen und zu verwalten und schließlich die Arbeit rund um die agentengestützte KI-Überwachung neu zu erfinden. Diese Synthese fasst die wichtigsten Erkenntnisse und Empfehlungen der Studie zusammen und schlägt eine Brücke zwischen technischer und geschäftlicher Governance mit einem praktischen Leitfaden für Unternehmen, die vertrauenswürdige, hochwirksame Agenten entwickeln wollen.
Laden Sie die Umfrage herunter
Was macht agentenbasierte KI anders?
Agentische KI-Systeme sind keine herkömmliche Software. Sie sind probabilistisch, d.h. ihre Ausgaben werden zwar stark vom Eingabekontext beeinflusst, variieren aber bei jedem Lauf. Herkömmliche Software hingegen wird von deterministischen Regeln gesteuert, denen man voll und ganz vertrauen kann, wenn sie gut konzipiert sind, weil sie stets die gleiche, unveränderliche und korrekte Logik anwenden. Die Grenze herkömmlicher Software besteht jedoch darin, dass sie kein neues, auch nur leicht verändertes Problem lösen kann. KI-Agenten lösen diese Einschränkung auf Kosten der Zuverlässigkeit. Sie verbinden natürlichsprachliche Fähigkeiten mit der Fähigkeit, über interne Tools, APIs oder data-Basen hinweg autonom zu handeln, um neue Probleme zu lösen. Diese Flexibilität ermöglicht eine beeindruckende Wertschöpfung in den Bereichen Kundensupport, Betrieb, Personalwesen und Beschaffung.
Agentenbasierte KI-Systeme stellen jedoch auch langjährige Annahmen der Softwareverwaltung in Frage. Während herkömmlicher Code einmal getestet und dann vertrauensvoll eingesetzt wird, müssen Agenten mit Blick auf das Risiko eingesetzt, ständig überwacht, bewertet und verbessert werden. Die Zukunft der agentenbasierten Governance liegt daher nicht nur in der Zertifizierung zum Zeitpunkt des Einsatzes, sondern auch in der kontinuierlichen Überwachung in großem Maßstab.
Der zentrale Kompromiss: Wert vs. Risiko
Unternehmen stehen bei KI-Agenten vor einer zentralen Herausforderung: Bei probabilistischer Logik gibt es kein Nullrisiko. Folglich müssen die Entwicklungsteams für KI-Agenten einen Mehrwert mit akzeptablem Risiko bieten. Einerseits können hochgradig freizügige Agenten zwar einen Mehrwert bieten, aber auch operative, reputationsbezogene, ethische oder finanzielle Risiken mit sich bringen. Auf der anderen Seite können stark eingeschränkte Agenten sicher sein, da sie oberflächliche und einfache Antworten bevorzugen, aber nur einen begrenzten Nutzen bieten.
Dieser Kompromiss zwischen Wert und Risiko muss explizit verwaltet werden. Unternehmen müssen definieren, was “Wert” im jeweiligen Kontext bedeutet (Erfolgsquote der Aufgabe, Engagement der Benutzer, Produktivitätssteigerung) und welche Risiken kontrolliert werden müssen: Halluzinationen, Latenz, Verzerrungen, Rufschädigung oder Kostenüberschreitungen. Die Überwachung wird zum operativen Mechanismus, der dieses Gleichgewicht bei jedem Schritt im Lebenszyklus des KI-Agenten abstimmt: beim Design, bei der Entwicklung, bei der Bereitstellung und während der Laufzeit.
Supervision in drei Schritten: Beobachten, Beurteilen, Handeln
Um dieses Gleichgewicht zu erreichen, müssen Unternehmen die Überwachung durch Agenten auf drei Kernkompetenzen aufbauen:
- Beobachtung: Erfassen Sie strukturierte Telemetrie data - Eingaben, Ausgaben, Werkzeugaufrufe, Fehler und menschliches Feedback.
- Bewertung: Verwenden Sie Qualitätsmetriken und Risikoindikatoren, um die Leistung im Vergleich zu den vom Unternehmen definierten Zielen und Kontrollschwellen zu bewerten.
- Aktion: Eskalieren und verwalten Sie Vorfälle, schulen Sie Modelle neu, passen Sie Leitplanken an oder nehmen Sie Agentenaktualisierungen zurück.
Dieser Prozess, genannt “aktive Überwachung”, spiegelt die DevOps-Praktiken wider, muss aber an die probabilistische, sich entwickelnde Natur der KI angepasst und über die technischen Teams hinaus auf Geschäftsprozesse und Teams (Customer Success, HR, Legal, Operations usw.) ausgeweitet werden.
Supervision beginnt bei der Geburt eines Agenten
Agentic Governance beginnt lange vor der Bereitstellung. Geschäfts- und Technikteams müssen bereits in der Sondierungsphase zusammenarbeiten, um Erfolgskriterien zu definieren, Risikotypen zu ermitteln und über die Bewertungsstrategie zu entscheiden. Dieser Co-Design-Ansatz stellt sicher, dass die Agenten nicht nur technisch robust sind, sondern auch von Anfang an mit den geschäftlichen Prioritäten übereinstimmen.
In der Entwurfsphase müssen die Teams oft data-Sets erstellen, die das gewünschte Agentenverhalten widerspiegeln. Diese sind sowohl für das Training als auch für die Bewertung wichtig. Während der Entwicklung müssen die Teams Schwellenwerte für die Freigabe von mehreren Metriken festlegen. Erfolg ist nicht mehr binär (z.B. alle Tests bestehen), sondern probabilistisch (z.B. >90% bei Aufgabenerfolg, <2% bei Toxizität), so dass die Unternehmensführung definieren muss, was “gut genug” ist.
Die Überwachung endet nicht mit dem Einsatz. Die kontinuierliche Überwachung der Produktion ist für die Bewertung und Verfeinerung der Agenten unerlässlich. Wenn ein Vorfall auftritt, muss das für die manuelle Lösung verantwortliche Geschäftsteam das erwartete korrekte Verhalten an das Agententeam zurückmelden und so die Grundwahrheit dataset anreichern und verbessern.
Metrikbasierte Bereitstellung erfordert geschäftlichen Input
Eine wichtige Neuerung in der Agentensteuerung ist die Idee, dass Agenten auf der Grundlage multidimensionaler metrischer Schwellenwerte freigelassen werden. Dies umfasst traditionelle Leistungskennzahlen (Genauigkeit, Latenz), Geschäftsmetriken (Aufgabenerledigung), und Risikometriken (Toxizität, Voreingenommenheit, Verstoß gegen die Richtlinien).
Entscheidend ist, dass die Entscheidung, einen Agenten in die Produktion zu überführen, nicht allein bei den technischen Teams liegt. Geschäftsinteressenten müssen akzeptable Risikogrenzen festlegen und Einsatzkriterien genehmigen. KI-Ingenieure, Produktmanager, Compliance-Beauftragte und Fachexperten tragen gemeinsam die Verantwortung.
Die Rolle des LLM als Richter
Die Bewertung von LLM-generierten Ergebnissen kann subjektiv und zeitaufwändig sein. Hier kommen die LLM-as-a-Judge-Techniken ins Spiel. Dabei werden unabhängige LLMs eingesetzt, um die Ergebnisse anderer LLMs zu bewerten, indem sie die Relevanz, die Faktizität oder den Ton der Antworten beurteilen.
Manche mögen zwar skeptisch sein, wenn es darum geht, KI zur Beurteilung von KI einzusetzen, aber die Erfahrung zeigt, dass unabhängige Modelle die erzeugten Ergebnisse zuverlässig beurteilen können. Die Voraussetzung für eine zuverlässige LLM-as-a-Judge ist jedoch, dass sie einfach ist und nur binäre Urteile wie “akzeptabel oder nicht” abfragt. Mit anderen Worten: Eine “einfache KI”, die spezifische binäre Kriterien erzeugt, ist sehr effektiv bei der Beurteilung einer “komplexen KI”, die lange Texte erzeugt. Diese Technik beschleunigt die Bewertungspipelines und verringert die Abhängigkeit von menschlichen Bewertern für jeden einzelnen Fall, auch wenn die menschliche Beurteilung bei hochrangigen Bewertungen weiterhin unerlässlich ist.
Leitplanken sind Sicherheitsnetze, die von Tag 1 an aufgebaut werden müssen
Die Evaluierung ist eine wesentliche Komponente von Guardrails, die bekannte Fehlermodi mit proaktiven Kontrollen verhindern. Guardrails können auf der Eingabeebene (z.B. Filtern von Prompt-Injektionen), auf der Ausgabeebene (z.B. Blockieren unsicherer Vervollständigungen) oder über eine zwischengeschaltete Logik (z.B. Zugriffsbedingungen für Werkzeuge) angewendet werden.
Aber Leitplanken sind mit Abstrichen verbunden. Wenn sie zu streng sind, führen sie zu Ablehnungsschleifen oder stillen Fehlern, die die Benutzerfreundlichkeit beeinträchtigen. Zu locker, und die Risikotoleranz wird überschritten. Leitplanken müssen sich mit den Fähigkeiten des Agenten und dem Reifegrad des Unternehmens weiterentwickeln. Dabei beginnen Sie mit strengen Leitplanken, um Vertrauen zu schaffen, und lockern sie nach und nach, um den Wert zu steigern und gleichzeitig die Risiken zu kontrollieren. Daher ist das Entwerfen, Testen und Abstimmen von Leitplanken keine einmalige Aufgabe, sondern Teil des laufenden Überwachungslebenszyklus.
Umgang mit Zwischenfällen: Der Aufstieg der menschlichen Betreuer
Selbst bei gut ausgestatteten Systemen sind Zwischenfälle unvermeidlich. Ein wichtiger Bestandteil der agentengestützten Überwachung ist die Erkennung von Fehlern mit Leitplanken und deren Eskalation an menschliche Teams. Dabei kann es sich um Sicherheitsverstöße, Aufgabenfehler, unklare Ergebnisse oder den Missbrauch von Werkzeugen handeln.
Die Aufsichtstätigkeit muss so gestaltet sein, dass sie ansprechend, nachhaltig und produktiv ist. Aufsichtspersonen an vorderster Front brauchen:
- Reichhaltiger, strukturierter Kontext: vollständige Trace-Protokolle, Trigger-Erklärungen, Benutzer-Metadata.
- Optimierte Schnittstellen: Entscheidungsworkflows, Standardempfehlungen, Fallback-Optionen.
- Intelligentes Routing: weisen Sie Eskalationen auf der Grundlage von Fachwissen und Lastausgleich zu.
- Müdigkeitsmanagement: Sorgen Sie dafür, dass Umfang und Komplexität der Alarme überschaubar sind.
Wenn die Überwachung gut gemacht ist, wird sie zu einem positiven Kreislauf: Menschliche Entscheidungen fließen in die Umschulung von datasets ein und verfeinern die Leitplankenpolitik. Bei der Überwachung geht es nicht nur um die Eindämmung, sondern um die langfristige Verbesserung der Agenten.
Werkzeuge: Der AgentOps-Stapel
Um all dies zu operationalisieren, müssen Unternehmen eine neue Klasse von Tools einsetzen: den AgentOps-Stack. Dazu gehören Plattformen wie LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases und Robust Intelligence for:
- Beobachtbarkeit
- Bewertung
- Anmerkung zur Grundwahrheit
- Experiment verfolgen
- Leitplanken-Orchestrierung
Die meisten Plattformen kombinieren diese Funktionen, aber jede hat ihre eigenen Stärken. Einige konzentrieren sich mehr auf die Beobachtbarkeit, andere auf die agentenbasierte Bereitstellung, wieder andere auf einen Risikobereich wie die Sicherheit. Diese Tools spiegeln DevOps- und MLOps-Plattformen wider, sind aber an die spezifischen Bedürfnisse von Agentensystemen angepasst. Wir empfehlen, diese Tools in bestehende CI/CD-Pipelines und data platforms zu integrieren, um Nachvollziehbarkeit und Wiederverwendung zu gewährleisten.
Regieren ist ein Mannschaftssport
Eine der wichtigsten Schlussfolgerungen der Studie ist, dass die Steuerung von Agenten nicht allein in der Verantwortung von KI-Ingenieuren liegen kann. Geschäftsteams müssen Leitplanken mitgestalten, akzeptable Risikoschwellen definieren und sich an Eskalationsprotokollen beteiligen. Rechtsabteilung, Compliance, Marketing und Support müssen Zugang zu Dashboards haben, die auf ihre Risiken zugeschnitten sind.
Dies setzt eine neue Form der Governance voraus, die die Beobachtbarkeit der KI mit der Rechenschaftspflicht des Unternehmens verbindet. Wir empfehlen, die Aufsichtsteams nicht nach Agenten, sondern nach Risikoarten (z.B. rechtlich, operativ, Marke) zu organisieren, um eine horizontale Aufsicht über mehrere Agenten zu ermöglichen. Ohne eine solche Organisation wird es schwierig sein, das Vertrauen in die Agenten zu erhöhen.
Die Rolle von DataOps
Agentische KI deckt die Schwachstellen in der Qualität von data in Unternehmen auf wie kaum ein anderes System zuvor. Retrieval-basierte Agenten decken oft veraltete, sensible oder irrelevante data auf, wenn die zugrunde liegenden Repositories nicht kuratiert sind. Aus diesem Grund muss die agentenbasierte Governance mit DataOps Hand in Hand gehen. Vorfälle müssen nicht nur bis zur Abfragelogik des Agenten zurückverfolgt werden, sondern auch bis zu den data-Pipelines, die ihn speisen.
AgentOps, wenn richtig gemacht, stärkt das Unternehmen data governance. Und vice versa.
Ein praktisches Spielbuch für den Einstieg
Um Unternehmen beim Übergang von der Theorie zur Praxis zu helfen, bieten wir vier Empfehlungen an:
- Beginnen Sie mit echten Projekten, nicht mit Prototypen: Konzentrieren Sie sich bei der Steuerung auf hochwertige Agenten, die für die Produktion bestimmt sind. Bauen Sie reale Systeme und keine Wegwerf-Demos, um die betrieblichen Realitäten frühzeitig zu erkennen.
- Denken Sie bei den Werkzeugen zuerst an den Entwickler: Wählen Sie Observability-Tools, die technische Arbeitsabläufe unterstützen. Business-Dashboards sind hilfreich, aber die Akzeptanz durch die Entwickler ist entscheidend für die Erfassung von Qualitätsmetadata.
- Klären Sie die Risikoverantwortung: Definieren Sie, welche Funktionen für welche Risiken verantwortlich sind. Wer ist für Sicherheit, Datenschutz, Befangenheit oder UX-Verschlechterung verantwortlich? Legen Sie Eskalationspfade und Abzeichnungsregeln fest.
- Vereinheitlichen Sie AgentOps mit DataOps: Behandeln Sie Agenten und data-Pipelines als zwei Seiten derselben Medaille. Überwachen Sie gemeinsam die data-Qualität und das Verhalten der Agenten, um die Ursachen von Zwischenfällen zu diagnostizieren.
Schlussfolgerung: Von der Überwachung zum strategischen Vorteil
Bei der Überwachung durch Agenten geht es nicht nur darum, Schaden zu verhindern, sondern auch darum, Vertrauen in großem Umfang zu ermöglichen. Durch die Einführung gemeinsamer Metriken, robuster Werkzeuge und kollaborativer Protokolle können Unternehmen den vollen Wert agentenbasierter Systeme ausschöpfen und gleichzeitig die Risiken unter Kontrolle halten.
Agent Governance wird sich schnell weiterentwickeln. Aber ihre Grundlage ist zeitlos: Klarheit, Zusammenarbeit und kontinuierliches Lernen. Unternehmen, die sich diese Disziplin frühzeitig zu eigen machen, werden nicht nur kostspielige Fehler vermeiden, sondern sich auch einen dauerhaften Wettbewerbsvorteil verschaffen.

BLOG





