Eine frühere Studie Artefactzum Thema „Die Zukunft der Arbeit mit AI , dass repetitive und mühsame Arbeiten durch agentische AI ergänzt AI in agentische Überwachung umgewandelt werden. Anknüpfend an diese Studie befasst sich „Die Zukunft der agentischen Überwachung“ eingehend damit, wie sich Unternehmen darauf vorbereiten können, die Leistung, Sicherheit und den strategischen Wert dieser neuen intelligenten Systeme zu überwachen und zu steuern und letztendlich die Arbeit rund um AI agentische AI neu zu gestalten. Diese Zusammenfassung fasst die wichtigsten Erkenntnisse und Empfehlungen der Studie zusammen und schlägt eine Brücke zwischen technischer und geschäftlicher Governance mit einem praktischen Leitfaden für Unternehmen, die vertrauenswürdige, wirkungsvolle Agenten entwickeln möchten.

Umfrage herunterladen

Was zeichnet agentische AI ?

Agentische AI sind keine herkömmliche Software. Sie sind probabilistisch, was bedeutet, dass ihre Ergebnisse zwar stark vom Eingabekontext beeinflusst werden, sich jedoch bei jeder Ausführung unterscheiden. Herkömmliche Software hingegen basiert auf deterministischen Regeln, denen man bei guter Konzeption voll und ganz vertrauen kann, da sie stets dieselbe, unveränderliche und korrekte Logik anwenden. Die Grenze herkömmlicher Software besteht jedoch darin, dass sie kein neues, auch nur geringfügig anderes Problem lösen kann. AI überwinden diese Einschränkung auf Kosten der Zuverlässigkeit. Sie verbinden Fähigkeiten im Bereich der natürlichen Sprache mit der Fähigkeit, autonom über interne Tools, APIs oder Datenbanken hinweg zu agieren, um neue Probleme zu lösen. Diese Flexibilität ermöglicht eine beeindruckende Wertschöpfung in den Bereichen Kundensupport, Betrieb, Personalwesen und Beschaffung.

Agentische AI stellen jedoch auch langjährige Annahmen im Bereich der Software-Governance infrage. Während herkömmlicher Code einmalig getestet und dann ohne Bedenken bereitgestellt wird, müssen Agenten unter Berücksichtigung der Risiken bereitgestellt, ständig überwacht, bewertet und verbessert werden. Bei der Zukunft der agentischen Governance geht es daher nicht nur um die Zertifizierung zum Zeitpunkt der Bereitstellung, sondern auch um eine kontinuierliche Überwachung in großem Maßstab.

Der zentrale Zielkonflikt: Wert vs. Risiko

Unternehmen stehen bei AI vor einer zentralen Herausforderung: Bei probabilistischer Logik gibt es kein Nullrisiko. Folglich müssen Entwicklungsteams AI einen Mehrwert bei akzeptablem Risiko liefern. Einerseits können sehr freizügige Agenten zwar einen Mehrwert bieten, bergen aber auch operative, reputationsbezogene, ethische oder finanzielle Risiken. Andererseits sind stark eingeschränkte Agenten zwar sicher und bevorzugen oberflächliche und einfache Antworten, bieten aber nur einen begrenzten Nutzen.

Dieser Kompromiss zwischen Nutzen und Risiko muss explizit gesteuert werden. Unternehmen müssen definieren, was „Nutzen“ im jeweiligen Kontext bedeutet (Erfolgsquote bei Aufgaben, Nutzerinteraktion, Produktivitätssteigerungen) und welche Risiken kontrolliert werden müssen: Fehldarstellungen, Latenz, Verzerrungen, Reputationsschäden oder Kostenüberschreitungen. Die Überwachung wird zum operativen Mechanismus, der dieses Gleichgewicht in jeder Phase des Lebenszyklus AI abstimmt: bei der Konzeption, der Entwicklung, der Bereitstellung und während des Betriebs.

Supervision in drei Schritten: Beobachten, Bewerten, Handeln

Um dieses Gleichgewicht zu erreichen, müssen Unternehmen die agentische Aufsicht auf drei Kernkompetenzen stützen:

  1. Anmerkung: Erfassen Sie strukturierte data– Eingaben, Ausgaben, Tool-Aufrufe, Fehler und Rückmeldungen von Benutzern.
  2. Bewertung: Verwenden Sie Qualitätskennzahlen und Risikoindikatoren, um die Leistung anhand der vom Unternehmen festgelegten Ziele und Kontrollschwellenwerte zu bewerten.
  3. Maßnahme: Eskalieren und verwalten Sie Vorfälle, trainieren Sie Modelle neu, passen Sie Sicherheitsgrenzen an oder machen Sie Updates von Agenten rückgängig.

Dieser als„aktive Überwachung“ bezeichnete Prozess orientiert sich an DevOps-Praktiken, muss jedoch an den probabilistischen, sich ständig weiterentwickelnden Charakter der AI angepasst und über die technischen Teams hinaus auf Geschäftsprozesse und andere Teams (Kundenerfolg, Personalwesen, Rechtsabteilung, Betrieb usw.) ausgeweitet werden.

Die Betreuung beginnt bereits bei der Geburt des Betreuten

Die agentenbasierte Steuerung beginnt bereits lange vor der Bereitstellung. Geschäftliche und technische Teams müssen bereits in der Sondierungsphase zusammenarbeiten, um Erfolgskriterien zu definieren, Risikotypen zu identifizieren und die Bewertungsstrategie festzulegen. Dieser ko-gestaltete Ansatz stellt sicher, dass die Agenten nicht nur technisch robust sind, sondern von Anfang an auch auf die geschäftlichen Prioritäten abgestimmt sind.

In the design phase, teams often need to build “ground truth” datasets that reflect desired agent behavior. These become essential for both training and evaluation. During development, teams must determine go/no-go release thresholds across multiple metrics. Success is no longer binary (e.g., all tests pass); it’s probabilistic (e.g., >90% on task success, <2% toxicity), requiring governance to define what “good enough” looks like.

Die Überwachung endet nicht mit der Bereitstellung. Die kontinuierliche Überwachung der Produktion ist für die Bewertung und Optimierung der Agenten unerlässlich. Wenn ein Vorfall auftritt, muss das für die manuelle Behebung zuständige Geschäftsteam dem Agententeam das erwartete korrekte Verhalten mitteilen und so den Datensatz der „Ground Truth“ anreichern und verbessern.

Eine auf Kennzahlen basierende Bereitstellung erfordert Input seitens des Unternehmens

Eine wesentliche Neuerung bei der Steuerung von Agenten ist der Ansatz, dass Agenten auf der Grundlage mehrdimensionaler Schwellenwerte freigegeben werden. Dazu gehören traditionelleLeistungskennzahlen(Genauigkeit, Latenz),geschäftliche Kennzahlen(Aufgabenerfüllung) sowieRisikokennzahlen(Toxizität, Verzerrung, Richtlinienverstöße).

Entscheidend ist, dass die Entscheidung, einen Agenten in die Produktion zu übernehmen, nicht allein bei den technischen Teams liegen sollte. Die geschäftlichen Entscheidungsträger müssen akzeptable Risikogrenzen festlegen und die Kriterien für die Bereitstellung genehmigen. Die Steuerung wird zu einer gemeinsamen Verantwortung von AI , Produktmanagern, Compliance-Beauftragten und Fachexperten.

Die Rolle von LLM als Richter

Die Bewertung von durch große Sprachmodelle (LLMs) generierten Ergebnissen kann subjektiv und zeitaufwendig sein. Hier kommen Techniken zum Einsatz, bei denen ein LLM als „Richter“ fungiert. Dabei werden unabhängige LLMs eingesetzt, um die Ergebnisse anderer LLMs zu bewerten und dabei die Relevanz, Sachlichkeit oder den Tonfall der Antworten zu beurteilen.

Auch wenn manche der Verwendung AI Beurteilung AI skeptisch gegenüberstehen, zeigt die Erfahrung, dass unabhängige Modelle generierte Ergebnisse zuverlässig bewerten können. Die Voraussetzung für einen zuverlässigen „LLM-as-a-Judge“ ist jedoch Einfachheit und die Beschränkung auf binäre Urteile wie „akzeptabel oder nicht“. Mit anderen Worten: „Einfache AI, die spezifische binäre Kriterien generiert, ist sehr effektiv bei der Beurteilung von „komplexer AI, die umfangreiche Texte erzeugt. Diese Technik beschleunigt Bewertungsprozesse und verringert die Abhängigkeit von menschlichen Bewertern in jedem Einzelfall, auch wenn menschliches Urteilsvermögen bei Bewertungen mit hohem Risiko weiterhin unverzichtbar bleibt.

Leitplanken sind Sicherheitsvorkehrungen, die vom ersten Tag an getroffen werden müssen

Die Bewertung ist ein wesentlicher Bestandteil von Sicherheitsvorkehrungen, die durch proaktive Kontrollen bekannte Fehlerquellen verhindern. Sicherheitsvorkehrungen können auf der Eingabeebene (z. B. durch das Filtern von Eingabeaufforderungen), auf der Ausgabebene (z. B. durch das Blockieren unsicherer Vervollständigungen) oder über eine zwischengeschaltete Logik (z. B. durch Zugriffsbedingungen für Tools) angewendet werden.

Doch Schutzmechanismen bringen Kompromisse mit sich. Sind sie zu streng, führen sie zu Ablehnungsschleifen oder stillen Fehlern, die die Benutzererfahrung beeinträchtigen. Sind sie zu locker, wird die Risikotoleranz überschritten. Schutzmechanismen müssen sich mit den Fähigkeiten des Agenten und der geschäftlichen Reife weiterentwickeln: Sie sollten zunächst streng sein, um Vertrauen aufzubauen, und dann schrittweise gelockert werden, um den Nutzen zu steigern und gleichzeitig die Risiken zu kontrollieren. Daher ist das Entwerfen, Testen und Optimieren von Leitplanken keine einmalige Aufgabe, sondern Teil des fortlaufenden Überwachungszyklus.

Incident-Handling: Der Aufstieg menschlicher Supervisoren

Selbst bei gut überwachten Systemen sind Zwischenfälle unvermeidlich. Ein wesentlicher Bestandteil der Überwachung durch menschliche Mitarbeiter besteht darin, Fehler bei den Sicherheitsvorkehrungen zu erkennen und an menschliche Teams weiterzuleiten. Dazu können Sicherheitsverstöße, Fehlschläge bei der Aufgabenausführung, mehrdeutige Ergebnisse oder der Missbrauch von Tools gehören.

Die Führungsaufgabe muss so gestaltet sein, dass sie motivierend, nachhaltig und produktiv ist. Vorgesetzte an vorderster Front benötigen:

  • Umfassender, strukturierter Kontext: vollständige Trace-Protokolle, Erläuterungen zu Triggern, Benutzer-Metadaten.
  • Optimierte Benutzeroberflächen: Entscheidungsabläufe, Standardempfehlungen, Ausweichoptionen.
  • Intelligente Weiterleitung: Eskalationen anhand von Fachkenntnissen und zur Lastverteilung zuweisen.
  • Umgang mit Ermüdung: Stellen Sie sicher, dass das Arbeitsvolumen und die Komplexität der Aufgaben überschaubar sind.

Wenn sie richtig umgesetzt wird, entsteht bei der Überwachung ein positiver Kreislauf: Menschliche Entscheidungen fließen in die Trainingsdatensätze ein und verfeinern die Sicherheitsrichtlinien. Bei der Überwachung geht es nicht nur um die Eindämmung von Risiken, sondern sie treibt auch die langfristige Verbesserung der Agenten voran.

Tools: Der AgentOps-Stack

Um all dies in die Praxis umzusetzen, müssen Unternehmen eine neue Art von Tools einsetzen: den AgentOps-Stack. Dazu gehören Plattformen wie LangSmith, Langfuse, DeepEval, Ragas, PRISM Eval, Giskard, Arize, Weights & Biases und Robust Intelligence für:

  • Beobachtbarkeit
  • Bewertung
  • Annotation der Referenzdaten
  • Experimentverfolgung
  • Guardrail-Orchestrierung

Die meisten Plattformen vereinen diese Funktionen, doch jede hat ihre eigenen Stärken. Einige legen den Schwerpunkt eher auf Observability, andere auf die Bereitstellung agentischer Systeme, wieder andere auf einen bestimmten Risikobereich wie Sicherheit. Diese Tools ähneln DevOps- und MLOps-Plattformen, sind jedoch an die spezifischen Anforderungen agentischer Systeme angepasst. Wir empfehlen, diese Tools in bestehende CI/CD-Pipelines und data zu integrieren, um die Rückverfolgbarkeit zu gewährleisten und die Wiederverwendbarkeit zu fördern.

Governance ist eine Teamleistung

Eine der wichtigsten Schlussfolgerungen der Studie lautet, dass die Steuerung von Agenten nicht allein in der Verantwortung der AI liegen darf. Die Geschäftsteams müssen gemeinsam Sicherheitsvorkehrungen entwerfen, akzeptable Risikogrenzen festlegen und an Eskalationsprotokollen mitwirken. Die Abteilungen für Recht, Compliance, Marketing und Support müssen Zugang zu Dashboards haben, die auf ihre jeweiligen Risiken zugeschnitten sind.

Dies erfordert eine neue Form der Unternehmensführung, die AI mit unternehmerischer Rechenschaftspflicht verbindet. Wir empfehlen, Überwachungsteams nicht nach Agenten, sondern nach Risikotypen (z. B. rechtliche, operative, markenbezogene Risiken) zu organisieren, um eine horizontale Aufsicht über mehrere Agenten hinweg zu ermöglichen. Ohne eine solche Organisationsstruktur wird es schwierig sein, das Vertrauen in die Agenten zu stärken.

Die Rolle von DataOps

Agentische AI Schwachstellen in data von Unternehmen AI wie kaum ein anderes System zuvor. Abrufbasierte Agenten liefern oft veraltete, sensible oder irrelevante data die zugrunde liegenden Datenbestände nicht gepflegt werden. Deshalb muss agentische Governance Hand in Hand mit DataOps gehen. Vorfälle müssen nicht nur auf die Prompt-Logik des Agenten zurückgeführt werden, sondern auch auf die data , die ihn versorgen.

Wenn AgentOps richtig eingesetzt wird, stärkt es data im Unternehmen. Und umgekehrt.

Ein praktischer Leitfaden für den Einstieg

Um Unternehmen dabei zu unterstützen, den Schritt von der Theorie zur Praxis zu vollziehen, geben wir vier Empfehlungen:

  1. Beginnen Sie mit echten Projekten, nicht mit Prototypen: Konzentrieren Sie Ihre Governance-Maßnahmen auf hochwertige Agenten, die für den produktiven Einsatz vorgesehen sind. Entwickeln Sie echte Systeme, keine Wegwerf-Demos, um die betrieblichen Gegebenheiten frühzeitig zu erkennen.
  2. Bei der Auswahl der Tools sollte der Entwickler im Vordergrund stehen: Entscheiden Sie sich für Observability-Tools, die die Arbeitsabläufe der Entwickler unterstützen. Dashboards für das Management sind zwar hilfreich, doch die Akzeptanz durch die Entwickler ist entscheidend für die Erfassung hochwertiger Metadaten.
  3. Klärung der Risikoverantwortung: Legen Sie fest , welche Funktionen für welche Risiken verantwortlich sind. Wer ist für Sicherheit, Datenschutz, Verzerrungen oder Beeinträchtigungen der Benutzererfahrung verantwortlich? Legen Sie Eskalationswege und Freigaberegeln fest.
  4. AgentOps und DataOps vereinen: Betrachten Sie Agenten und data als zwei Seiten derselben Medaille. Überwachen Sie gemeinsam data und das Verhalten der Agenten, um die Ursachen von Vorfällen zu ermitteln.

Fazit: Von der Aufsicht zum strategischen Vorteil

Bei der Überwachung autonomer Systeme geht es nicht nur darum, Schäden zu verhindern, sondern auch darum, Vertrauen in großem Maßstab zu schaffen. Durch die Festlegung gemeinsamer Kennzahlen, robuster Tools und kooperativer Protokolle können Unternehmen das volle Potenzial autonomer Systeme ausschöpfen und gleichzeitig die Risiken unter Kontrolle halten.

Die Steuerung von Agenten wird sich rasch weiterentwickeln. Ihre Grundlagen sind jedoch zeitlos: Klarheit, Zusammenarbeit und kontinuierliches Lernen. Unternehmen, die sich frühzeitig auf diese Vorgehensweise einstellen, vermeiden nicht nur kostspielige Fehler, sondern verschaffen sich auch einen dauerhaften Wettbewerbsvorteil.