Langfristige AI , Teil 3: Was das für Unternehmen konkret bedeutet

Victor Coimbra wurde für seine herausragenden Beiträge zur AI in die „Forbes Under 30 Brazil“-Liste aufgenommen. Er war Mitbegründer der lateinamerikanischen Niederlassung Artefact, die heute als globaler Technologie-Hub mit 200 Mitarbeitern fungiert. Er verfügt über fundierte Fachkenntnisse in der Skalierung AI und dem Aufbau leistungsstarker Tech-Teams auf internationalen Märkten.

Wir haben uns bereits mit dem Problem (Teil 1) und den Lösungsansätzen (Teil 2) befasst. Nun zur schwierigeren Frage: Was bedeutet das alles für die tatsächliche Arbeitsweise von Organisationen?

Hier ist meine ehrliche Einschätzung: Die Technologie ist real, aber noch nicht ausgereift. Die Richtung ist klar, der Zeitplan jedoch nicht. Die meisten Unternehmen, die AI 2026 AI mit langer Laufzeit einsetzen, werden teure Lektionen lernen. Nur wenige werden echte Vorteile daraus ziehen.

Der Unterschied wird letztlich auf drei Dinge zurückzuführen sein: wo sie eingesetzt werden, wie sie gesteuert werden und ob sie verstehen, was „autonom“ in der Praxis tatsächlich bedeutet.

Der Wandel vom Assistenten zum Arbeitnehmer

Dies ist der grundlegende Wandel. AI gibt es schon seit Jahren – Systeme, die Menschen dabei helfen, ihre Arbeit schneller zu erledigen. AI etwas anderes: Systeme, die Aufgaben selbstständig erledigen.

Diese Unterscheidung ist für die Organisationsgestaltung von Bedeutung.

Aufgaben, die weniger als fünfzehn Minuten dauern, sind ein bewährtes Terrain. Entwürfe, Vorschläge, schnelle Nachschläge. Das sind Dinge, die AI seit 2023 gut beherrschen. Die menschliche Aufsicht ist implizit gegeben, da Menschen durchgehend anwesend sind.

Der interessante Bereich liegt zwischen einer und acht Stunden. Vollständige Ergebnisse. Vollständige Implementierungen. Arbeiten, für die früher ein Mensch einen Vormittag oder einen Nachmittag lang sitzen musste. Aktuellen Schätzungen zufolge liegt die Zuverlässigkeit in diesem Bereich bei 50–70 %. Gut genug, um nützlich zu sein. Nicht gut genug, um blind darauf zu vertrauen.

Nach 24 Stunden betreten wir Neuland. Autonomie auf Projektebene. Langfristige Forschung. Arbeit, die sich über mehrere Tage erstreckt. Diese Grenze rückt vielleicht näher, aber sie ist noch nicht erreicht. Wer etwas anderes behauptet, will nur etwas verkaufen.

57 Prozent der befragten Unternehmen setzen mittlerweile AI in der Produktion AI . Diese Zahl klingt beeindruckend, bis man sich ansieht, was sie tatsächlich leisten: Bei 68 Prozent ist innerhalb von zehn Schritten menschliches Eingreifen erforderlich. Die meiste AIist nichts anderes als eine etwas großzügiger gestaltete Assistenzfunktion.

Ihre Schnittstelle wird zu einer Delegationsschnittstelle

Wenn lang laufende AI , verändert sich die Art und Weise, wie Menschen mit ihr interagieren, grundlegend.

Eine assistierende Schnittstelle setzt eine Zusammenarbeit in Echtzeit voraus. Man fragt, sie antwortet, man verfeinert, sie passt sich an. Der Mensch ist dabei stets präsent. Bei kurzen Aufgaben funktioniert das gut.

Eine Delegationsschnittstelle setzt eine asynchrone Übergabe voraus. Sie legen ein Ziel fest, überprüfen regelmäßig den Fortschritt und nehmen die Ergebnisse entgegen. Der Mensch ist während der Ausführung nicht anwesend.

Überlegen Sie einmal, was das für die Arbeitsorganisation bedeutet:

Die Verfolgung des Fortschritts ersetzt die Konversation. Nutzer benötigen Dashboards, die zeigen, was die AI , was sie gerade tut und was sie als Nächstes vorhat. Das Ergebnis ist nicht der Chat – es ist ein Statusbericht.
Kontrollpunkte ersetzen das Hin und Her. Anstatt schrittweise zu verfeinern, geben die Nutzer an festgelegten Punkten ihre Zustimmung oder lehnen ab. „Überprüfen Sie den Plan, bevor Sie mit der Arbeit beginnen.“ „Geben Sie vor der Umsetzung Ihre Zustimmung zu dem Vorgehen.“
Protokollierungspfade werden zur Pflicht. Wenn sechs Stunden nach Beginn einer autonomen Sitzung etwas schiefgeht, muss man rekonstruieren können, was passiert ist. Alles zu protokollieren ist keine Paranoia – es ist eine betriebliche Notwendigkeit.
Die Fehlerbehebung wird zu einer Funktion. AI Fehler machen. Die Frage ist, ob sie diese Fehler elegant bewältigt, dokumentiert, was schiefgelaufen ist, und es den Menschen ermöglicht, den Betrieb aus einem sinnvollen Zustand wieder aufzunehmen.

AI meisten aktuellen AI sind nicht dafür ausgelegt. Sie gehen davon aus, dass Menschen zuschauen. Für den Dauerbetrieb von AI Produkte AI , die davon ausgehen, dass dies nicht der Fall ist.

Gute Unternehmensführung ist kein Luxus

AI stundenlang arbeitet, kann auch stundenlang Fehler machen. Diese Fehler häufen sich an, bevor sie bei der manuellen Überprüfung entdeckt werden. Ein Finanzdienstleister verlor 2 Millionen Dollar durch doppelte Verarbeitungsprozesse, weil bei AI seiner AI das Statusmanagement mangelhaft war. Das ist kein hypothetisches Szenario – es ist im Jahr 2025 tatsächlich passiert.

Das sich abzeichnende Rahmenkonzept lautet „begrenzte Autonomie“: klare operative Grenzen, Prüfpfade und Entscheidungspunkte, die ein Eingreifen des Menschen auslösen.

Die praktischen Aspekte

Festlegung des Zugriffsbereichs. Die AI keinen Zugriff über das für die jeweilige Aufgabe erforderliche Maß hinaus haben. Eine AI Wettbewerber AI , sollte keinen Zugriff auf Kundendaten haben, um diese zu ändern. Das klingt selbstverständlich. In der Praxis gewähren Unternehmen jedoch oft zu weitreichende Zugriffsrechte, da dies einfacher ist, als den minimal erforderlichen Zugriffsbereich zu ermitteln.

Protokollierung von Entscheidungen. Nicht nur die Ergebnisse – sondern auch der Denkprozess. Wenn AI eine falsche Entscheidung AI , muss man verstehen, warum. „Es hat einen Fehler gemacht“ ist keine Ursachenanalyse.

Eskalationsauslöser. Legen Sie im Voraus fest, was einer menschlichen Genehmigung bedarf. Ausgaben, die einen bestimmten Schwellenwert überschreiten. Änderungen data. Kommunikation nach außen. Diese Auslöser müssen klar definiert sein und dürfen nicht dem Ermessen AIüberlassen bleiben.

Änderungsprotokollierung. Jede Änderung ist nachvollziehbar und rückgängig zu machen. Versionskontrolle ist für AI Änderungen vornimmt, unverzichtbar. Man muss in der Lage sein, Fehler rückgängig zu machen.

Data ist wichtiger, als Sie denken

AI klare Eingaben, um klare Ergebnisse zu liefern. Unternehmen, die nicht über hochwertige, strukturierte Informationen verfügen, haben Schwierigkeiten, den Nutzen autonomer Systeme voll auszuschöpfen.

Das ist der unspektakuläre Teil. Bevor Sie lang laufende AI einsetzen, benötigen Sie: saubere, einheitliche Datenformate; gut dokumentierte Verbindungen zwischen den Systemen; klare Zuständigkeiten für data ; sowie Prozesse zur Fehlerbehandlung.

„Garbage in, garbage out“ – aber in großem Maßstab, über Stunden hinweg und mit sich verstärkenden Fehlern. Data , die bei Dashboards schon lästig waren, werden bei autonomer AI katastrophal.

Fehlerarten, auf die Sie stoßen werden

Eine Branchenanalyse aus dem Jahr 2025 hat 14 spezifische Fehlermuster in AI identifiziert. Hier sind diejenigen, die Unternehmen unvorbereitet treffen:

Kettenreaktion von Fehlern. Die AI eine falsche Annahme. Sie handelt auf der Grundlage dieser Annahme. Der nächste Schritt baut auf dieser fehlerhaften Grundlage auf. Der darauffolgende Schritt verstärkt den Fehler noch. Bis ein Mensch dies bemerkt, basiert der gesamte Arbeitsablauf bereits auf falschen Prämissen. Das ist keine hypothetische Situation. Es kommt häufig vor.

Mangelhaftes Übergabedesign. Gerade bei Übergängen zwischen AI oder zwischen AI Menschen kommt es zu Problemen. Ein E-Commerce-Unternehmen verzeichnete eine Abbruchrate von 40 %, weil die Nutzer verwirrt waren, als ein AI mitten in der Interaktion an ein anderes übergab. Die Übergabe funktionierte. Das Kundenerlebnis jedoch nicht.

Staatliche Korruption. In langjährigen Systemen häufen sich Probleme an. Alte Entscheidungen bleiben bestehen, obwohl sie eigentlich hätten aufgehoben werden müssen. Parallelabläufe führen zu Konflikten. Die AI den Überblick darüber, was sie eigentlich erreichen wollte.

Gemeinsame Schwachstellen. Wenn alle Ihre AI denselben grundlegenden Funktionen AI , weisen sie auch dieselben Schwachstellen auf. Sie werden in denselben Grenzfällen versagen. Sie werden dieselben blinden Flecken haben. Bei der Diversifizierung geht es nicht nur um Leistungsfähigkeit – es geht um Widerstandsfähigkeit.

Der rote Faden: Es handelt sich nicht um einzelne Fehler. Es sind Systemfehler. Diese lassen sich nicht aufdecken, indem man einzelne Komponenten isoliert testet. Man muss den gesamten Arbeitsablauf unter realistischen Bedingungen und über realistische Zeiträume hinweg testen.

Wo die realistischen Chancen liegen

Angesichts all dieser Vorbehalte: Wo sollten Unternehmen AI 2026 eigentlich lang laufende AI einsetzen?

Beginnen Sie mit dem Zeitfenster von einer bis acht Stunden. Aufgaben, die lang genug sind, um von Eigenverantwortung zu profitieren, und kurz genug, um Schäden zu begrenzen. Implementierungsprojekte mit klaren Vorgaben. Zusammenfassung von Forschungsergebnissen aus definierten Quellen. Prozessdokumentation auf der Grundlage vorhandener Materialien. Erstellung von Berichten mit strukturierten Eingaben.

Suchen Sie nach Aufgaben, deren Abschluss messbar ist. Wenn Sie den Erfolg nicht klar definieren können, AI ihn AI zuverlässig erreichen. Aufgaben, deren Bewertung menschliches Urteilsvermögen erfordert, eignen sich schlecht für die autonome Ausführung.

Konzentrieren Sie sich auf die Aufgaben, die gemieden werden, weil sie anhaltende Konzentration erfordern. Darin liegen die wahren Chancen. Die Aufgaben, die man aufschiebt, weil man dafür vier ununterbrochene Stunden braucht. Die Prozessverbesserungen, die nie umgesetzt werden. Die Dokumentation ist immer veraltet. Die Analyse ist immer unvollständig.

Legen Sie in angemessenen Abständen Kontrollpunkte fest. Vier Stunden autonomes Arbeiten sollten nicht bedeuten, dass vier Stunden lang keine menschliche Aufsicht stattfindet. Bauen Sie Überprüfungsschritte ein. Nicht, weil Sie der AImisstrauen – sondern weil sich Fehler summieren und eine frühzeitige Erkennung den Schaden begrenzt.

Messen Sie die tatsächlichen Erfolgsraten, nicht die Leistung in der Demo. Das ist wichtig. Die Leistung in Benchmark-Tests sagt nichts über die Leistung in der Praxis aus. METR stellte fest, dass null Prozent der AI Ergebnisse ohne Nachbearbeitung verwendbar waren, selbst wenn automatisierte Prüfungen erfolgreich waren. Ihre internen Messungen müssen reale Qualitätsstandards widerspiegeln, nicht idealisierte Bedingungen.

Die historische Parallele, neu betrachtet

Die Dampfmaschine wurde erst Jahrzehnte später erfunden, als Fabriken bereits auf sie umgestellt worden waren. Die Fabrikbesitzer wussten, wie man wasserbetriebene Fabriken führt. Sie verfügten über Arbeitsabläufe, Fachwissen und ganze Geschäftsmodelle, die auf dem alten Ansatz beruhten. Die neue Technologie erforderte neue Strukturen, neue Arbeitsabläufe und neue Denkweisen darüber, wo die Arbeit stattfand und wie sie ablief.

Ich habe diese Analogie in der ursprünglichen Fassung dieses Artikels verwendet, allerdings mit einem Vorbehalt: Die Dampfmaschine funktionierte zuverlässig. AI derzeitigen, über längere Zeit laufenden AI nicht – noch nicht, zumindest nicht durchgängig.

Dieser Vorbehalt gilt nach wie vor. Doch die Richtung, in die die Investitionen gehen, ist unmissverständlich. Jedes große AI optimiert seine Systeme für den Dauerbetrieb. Jeder ernsthafte Anwender entwickelt Lösungen, um die derzeitigen Einschränkungen zu umgehen. Jede Unternehmensplattform erweitert ihre Infrastruktur für länger laufende AI .

Für Unternehmen stellt sich nicht die Frage, ob sie sich auf diesen Wandel einlassen sollen. Die Frage ist vielmehr, wie sie dies verantwortungsbewusst tun können: indem sie zunächst die entsprechenden Rahmenbedingungen schaffen, bevor sie Kapazitäten aufbauen, indem sie die tatsächliche Situation messen statt nur Demonstrationen zu präsentieren, und indem sie klein anfangen, bevor sie skalieren.

Unternehmen, die darauf warten, dass die Technologie ausgereift ist, könnten dann ins Hintertreffen geraten. Unternehmen, die sie zu früh einsetzen, werden teure Lektionen lernen. Der richtige Weg ist das bewusste Experimentieren mit angemessenen Sicherheitsvorkehrungen.

Drei Fragen an Ihre Organisation

Welche Aufgaben in Ihrem Bereich erfordern anhaltende, hohe Konzentration? Suchen Sie nach Tätigkeiten, die über Stunden hinweg konzentriertes Arbeiten erfordern, nicht nur über Minuten. Die Aufgaben, die Menschen aufschieben, weil sie anhaltende Konzentration erfordern – genau diese kommen für Pilotprojekte in Frage.

Lässt sich der Erfolg autonomer Arbeit zuverlässig messen? Nicht im Sinne von „Hat sie Ergebnisse geliefert?“, sondern „Hat sie Ergebnisse geliefert, die Ihren tatsächlichen Standards entsprechen?“ Wenn Sie Erfolg nicht definieren und messen können, können Sie nicht beurteilen, ob AI .

Ist Ihre Governance-Infrastruktur bereit für Aufgaben, die im Verborgenen ablaufen? Protokollierung. Zugriffskontrollen. Eskalationsauslöser. Wiederherstellungsmechanismen. Prüfpfade. Die Infrastruktur für die Delegation muss vorhanden sein, bevor eine Delegation Sinn macht.
2026 wird wahrscheinlich nicht das Jahr sein, in dem AI bei lang andauernden Aufgaben zuverlässig AI . Eine Erfolgsquote von 50 % bei zweistündigen Aufgaben bedeutet immer noch, dass sie in der Hälfte der Fälle scheitert.

Es könnte jedoch sein, dass die seit einem Jahr im Einsatz befindliche AI für bestimmte Anwendungsfälle einsatzfähig AI – gut genug für den produktiven Einsatz bei angemessener Überwachung und einer gewissen Fehlertoleranz.

Die ehrliche Antwort: Niemand weiß genau, wann diese Systeme ausgereift sein werden. Die Anzeichen deuten darauf hin, dass es sich lohnt, dies herauszufinden.

Referenzen

Forschungsarbeiten

Entwicklung produktionsreifer AI skalierbarem Langzeitgedächtnis — arxiv.org/abs/2504.19413
Eine auf Multi-Graphen basierende Speicherarchitektur für AI arxiv.org/abs/2601.03236
Messung von AI der Produktion — arxiv.org/abs/2512.04123

Reports Whitepapers

Fehlerursachen in AI — Microsoft
Erkenntnisse aus dem Jahr 2025 zu AI Vertrauen – Google Cloud
Stand der AI – LangChain
Benchmark-Test vs. Praxistest — METR

Technische Dokumentation

Wie wir unser Multi-Agenten-Forschungssystem entwickelt haben — Anthropic
Spezifikation des Model Context Protocol — modelcontextprotocol.io
„Fresh-Start Cycling“-Dokumentation („Ralph Wiggum“) – Geoffrey Huntley (ghuntley.com/ralph/)

Kontakt

Langfristige AI , Teil 3: Was dies konkret für Unternehmen bedeutet

Autor