Victor Coimbra wurde in der Forbes Under 30 Brazil Liste für seine herausragenden Beiträge zur KI-Innovation ausgezeichnet. Er war Mitbegründer der lateinamerikanischen Niederlassung von Artefact, die heute als globaler Tech-Hub mit 200 Mitarbeitern fungiert. Er verfügt über umfassende Erfahrung in der Skalierung von KI-Lösungen und dem Aufbau von leistungsstarken Technologie-Teams auf internationalen Märkten.
Wir haben das Problem behandelt (Teil 1) und die Ansätze (Teil 2). Und nun die schwierigere Frage: Was bedeutet das alles für die tatsächliche Arbeitsweise von Organisationen?
Hier ist meine ehrliche Meinung. Die Technologie ist real, aber unausgereift. Die Richtung ist klar, aber der Zeitplan ist es nicht. Die meisten Unternehmen, die im Jahr 2026 KI einsetzen, werden teure Lektionen lernen. Einige wenige werden echte Vorteile daraus ziehen.
Der Unterschied wird auf drei Dinge hinauslaufen: wo sie eingesetzt werden, wie sie regieren und ob sie verstehen, was “autonom” in der Praxis tatsächlich bedeutet.
Der Wechsel vom Assistenten zum Arbeiter
Dies ist der grundlegende Wandel. Wir haben schon seit Jahren KI-Assistenten - Systeme, die Menschen helfen, ihre Arbeit schneller zu erledigen. Langlebige KI steht für etwas anderes: Systeme, die ihre Arbeit selbstständig erledigen.
Diese Unterscheidung ist wichtig für das Organisationsdesign.
Aufgaben, die weniger als fünfzehn Minuten dauern, sind ausgereift. Entwürfe, Vorschläge, schnelles Nachschlagen. Die Dinge, die KI-Assistenten seit 2023 gut gemacht haben. Menschliche Aufsicht ist selbstverständlich, denn der Mensch ist immer dabei.
Der interessante Bereich liegt zwischen einer und acht Stunden. Vollständige Ergebnisse. Vollständige Implementierungen. Arbeiten, für die sich früher ein Mensch einen Vormittag oder einen Nachmittag lang hinsetzen musste. Aktuelle Schätzungen gehen von einer Zuverlässigkeit in diesem Bereich von 50-70% aus. Gut genug, um nützlich zu sein. Nicht gut genug, um blind zu vertrauen.
Jenseits von 24 Stunden befinden wir uns auf experimentellem Gebiet. Autonomie auf Projektebene. Anhaltende Forschung. Arbeit, die sich über Tage erstreckt. Diese Grenze mag kommen, aber sie ist noch nicht da. Jeder, der etwas anderes behauptet, verkauft etwas.
Siebenundfünfzig Prozent der befragten Unternehmen haben jetzt KI in der Produktion im Einsatz. Diese Zahl klingt beeindruckend, bis Sie sich ansehen, was sie tatsächlich tun: 68% erfordern innerhalb von zehn Schritten einen menschlichen Eingriff. Die meisten “Produktions-KIs” sind glorifizierte Assistenten mit etwas längeren Leinen.
Ihre Schnittstelle wird zu einer Delegationsschnittstelle
Wenn eine langlebige KI funktioniert, ändert sich die Art und Weise, wie Menschen mit ihr interagieren, grundlegend.
Eine Assistentenschnittstelle setzt eine Zusammenarbeit in Echtzeit voraus. Sie fragen, er antwortet, Sie verfeinern, er überarbeitet. Der Mensch ist die ganze Zeit anwesend. Bei kurzen Aufgaben funktioniert das gut.
Eine Delegationsschnittstelle setzt eine asynchrone Übergabe voraus. Sie geben ein Ziel vor, überprüfen regelmäßig den Fortschritt und erhalten die Ergebnisse. Der Mensch ist während der Ausführung abwesend.
Denken Sie darüber nach, was dies für die Verwaltung der Arbeit bedeutet:
- Die Fortschrittskontrolle ersetzt das Gespräch. Die Benutzer benötigen Dashboards, aus denen hervorgeht, was die KI getan hat, was sie gerade tut und was sie als Nächstes zu tun gedenkt. Die Ausgabe ist nicht der Chat - es ist ein Statusbericht.
- Kontrollpunkte ersetzen das Hin und Her. Anstatt den Plan iterativ zu verfeinern, genehmigen oder verwerfen die Benutzer ihn an bestimmten Toren. “Prüfen Sie den Plan, bevor Sie mit der Arbeit beginnen.” “Genehmigen Sie den Ansatz vor der Ausführung.”
- Prüfpfade werden obligatorisch. Wenn sechs Stunden nach einer autonomen Sitzung etwas schief geht, müssen Sie rekonstruieren, was passiert ist. Alles zu protokollieren ist keine Paranoia, sondern eine betriebliche Notwendigkeit.
- Die Wiederherstellung nach einem Ausfall wird eine Funktion. KI wird versagen. Die Frage ist nur, ob die KI einen guten Eindruck macht, dokumentiert, was schief gelaufen ist, und es dem Menschen ermöglicht, von einem vernünftigen Zustand aus weiterzumachen.
Die meisten aktuellen KI-Produkte sind dafür nicht ausgelegt. Sie gehen davon aus, dass der Mensch zuschaut. Langfristig angelegte KI erfordert Produkte, die davon ausgehen, dass der Mensch es nicht tut.
Governance ist nicht optional
Eine KI, die stundenlang arbeitet, kann auch stundenlang Fehler machen. Fehler häufen sich, bevor sie von Menschen entdeckt werden. Ein Finanzdienstleistungsunternehmen verlor $2M an doppelter Verarbeitung aufgrund von schlechtem Statusmanagement in seiner KI-Installation. Das ist keine hypothetische Annahme - das ist 2025 passiert.
Der sich abzeichnende Rahmen ist eine begrenzte Autonomie: klare operative Grenzen, Prüfpfade und Entscheidungspunkte, die eine menschliche Beteiligung auslösen.
Die praktischen Elemente
Genehmigungs-Scoping. Die KI sollte keinen Zugriff haben, der über das hinausgeht, was die Aufgabe erfordert. Eine KI, die Konkurrenten recherchiert, sollte keinen Zugang zur Änderung von Kundendaten haben. Das klingt offensichtlich. In der Praxis gewähren Unternehmen jedoch zu viel Zugriff, weil es einfacher ist, als den erforderlichen Mindestumfang zu bestimmen.
Entscheidungsprotokollierung. Nicht nur die Ergebnisse, sondern auch den Weg der Argumentation. Wenn eine KI eine schlechte Entscheidung trifft, müssen Sie verstehen, warum. “Sie hat einen Fehler gemacht” ist keine Ursachenanalyse.
Auslöser der Eskalation. Legen Sie im Voraus fest, was eine menschliche Genehmigung erfordern soll. Ausgaben über einem Schwellenwert. Ändern von Kunden data. Externe Kommunikation. Diese Auslöser müssen explizit sein und dürfen nicht dem Urteil der KI überlassen werden.
Verfolgung von Änderungen. Jede Änderung ist nachvollziehbar und reversibel. Versionskontrolle ist für KI, die Dinge verändert, nicht optional. Sie müssen in der Lage sein, das, was schief gelaufen ist, rückgängig zu machen.
Data Qualität ist wichtiger, als Sie denken
KI braucht klare Eingaben, um klare Ergebnisse zu erzielen. Unternehmen ohne qualitativ hochwertige, strukturierte Informationen haben es schwer, einen Nutzen aus autonomen Systemen zu ziehen.
Dies ist der unsexy Teil. Bevor Sie KI einsetzen, die lange läuft, brauchen Sie: saubere, konsistente Informationsformate, gut dokumentierte Verbindungen zwischen Systemen, klare Verantwortlichkeiten für die data-Qualität und Prozesse für den Umgang mit Fehlern.
Müll rein, Müll raus - aber in großem Maßstab, stundenlang, mit sich häufenden Fehlern. Data Qualitätsprobleme, die mit Dashboards ärgerlich waren, werden mit autonomer KI katastrophal.
Fehlermodi, denen Sie begegnen werden
Eine Branchenanalyse aus dem Jahr 2025 hat 14 einzigartige Fehlermuster in KI-Systemen identifiziert. Hier sind diejenigen, die Unternehmen unvorbereitet treffen:
Kaskadierende Fehler. Die KI geht von einer falschen Annahme aus. Sie handelt aufgrund dieser Annahme. Der nächste Schritt baut auf der fehlerhaften Arbeit auf. Der übernächste Schritt verschlimmert den Fehler. Bis ein Mensch es bemerkt, arbeitet der gesamte Arbeitsablauf auf der Grundlage fehlerhafter Prämissen. Das ist nicht hypothetisch. Es ist alltäglich.
Schlechte Gestaltung der Übergabe. Bei Übergängen zwischen KI-Systemen oder zwischen KI und Menschen kommt es zu Problemen. Ein E-Commerce-Unternehmen verzeichnete 40% Kundenabbrüche, weil die Benutzer verwirrt waren, als ein KI-System mitten in der Interaktion an ein anderes weitergab. Die Übergabe funktionierte. Das Erlebnis jedoch nicht.
Staatliche Korruption. Langlaufende Systeme häufen Probleme an. Alte Entscheidungen bleiben bestehen, obwohl sie eigentlich ungültig gemacht werden sollten. Gleichzeitige Operationen führen zu Konflikten. Die KI verliert den Überblick über das, was sie zu erreichen versucht hat.
Gemeinsame Schwachstellen. Wenn all Ihre KI die gleichen zugrundeliegenden Fähigkeiten nutzt, hat sie auch die gleichen Schwächen. Sie wird in denselben Grenzfällen versagen. Sie wird die gleichen blinden Flecken haben. Bei der Diversifizierung geht es nicht nur um Fähigkeiten - es geht auch um Widerstandsfähigkeit.
Der gemeinsame Nenner: Es handelt sich nicht um individuelle Fehler. Es sind Systemfehler. Sie können sie nicht erkennen, wenn Sie einzelne Komponenten isoliert testen. Sie müssen den gesamten Arbeitsablauf unter realistischen Bedingungen und in einem realistischen Zeitrahmen testen.
Wo die realistischen Chancen liegen
In Anbetracht all dieser Vorbehalte: Wo sollten Unternehmen im Jahr 2026 tatsächlich langlaufende KI einsetzen?
Beginnen Sie mit der Zone von einer bis acht Stunden. Aufgaben, die lang genug sind, um von Autonomie zu profitieren, und kurz genug, um den Schaden zu begrenzen. Umsetzungsprojekte mit klaren Vorgaben. Forschungssynthese aus definierten Quellen. Prozessdokumentation aus vorhandenen Materialien. Erstellung von Berichten mit strukturierten Eingaben.
Suchen Sie nach Arbeiten mit messbarem Abschluss. Wenn Sie Erfolg nicht klar definieren können, kann KI ihn nicht zuverlässig erreichen. Aufgaben, deren Bewertung menschliches Urteilsvermögen erfordert, sind schlechte Kandidaten für autonome Arbeit.
Zielarbeit, die vermieden wird, weil sie anhaltende Konzentration erfordert. Das sind die wahren Gelegenheiten. Die Aufgaben, die Menschen aufschieben, weil sie vier ununterbrochene Stunden brauchen. Die Prozessverbesserungen, die nie stattfinden. Die Dokumentation ist immer veraltet. Die Analyse ist immer unvollständig.
Verlangen Sie Kontrollpunkte in angemessenen Abständen. Vier Stunden autonome Arbeit sollten nicht vier Stunden ohne menschliche Aufmerksamkeit bedeuten. Bauen Sie Kontrollpunkte ein. Nicht, weil Sie der KI misstrauen, sondern weil sich Fehler häufen und eine frühzeitige Erkennung den Schaden begrenzt.
Messen Sie die tatsächlichen Erfolgsquoten, nicht die Leistung der Demo. Dies ist wichtig. Die Leistung von Benchmarks sagt nichts über die Leistung in der Realität aus. METR fand heraus, dass null Prozent der von der KI generierten Arbeit ohne Bereinigung verwendbar war, selbst wenn die automatischen Prüfungen bestanden. Ihre internen Messungen müssen reale Qualitätsstandards widerspiegeln, nicht idealisierte Bedingungen.
Die historische Parallele, revisited
Die Dampfmaschine wurde Jahrzehnte vor der Umstellung der Fabriken auf sie erfunden. Die Mühlenbesitzer wussten, wie man Mühlen mit Wasserkraft betreibt. Sie hatten Arbeitsabläufe, Fachwissen und ganze Geschäftsmodelle, die auf dem alten Ansatz aufbauten. Die neue Technologie erforderte neue Strukturen, neue Arbeitsabläufe, neue Denkweisen darüber, wo die Arbeit stattfindet und wie sie abläuft.
Ich habe diese Analogie in der ursprünglichen Version dieses Artikels verwendet, allerdings mit einem Vorbehalt: Die Dampfmaschine funktionierte zuverlässig. Die aktuelle langlebige KI tut das nicht - noch nicht, nicht durchgängig.
Dieser Vorbehalt gilt immer noch. Aber die Richtung der Investitionen ist unverkennbar. Jedes große KI-Unternehmen optimiert für einen dauerhaften Betrieb. Jeder ernsthafte Anwender entwickelt Umgehungslösungen für aktuelle Einschränkungen. Jede Unternehmensplattform fügt eine Infrastruktur für längerfristige KI-Arbeit hinzu.
Die Frage für Unternehmen ist nicht, ob sie sich auf diesen Wandel einlassen sollen. Die Frage ist vielmehr, wie sie sich verantwortungsbewusst engagieren: Aufbau von Governance vor Fähigkeit, Messung der Realität statt Demos und kleiner Anfang vor Skalierung.
Unternehmen, die darauf warten, dass die Technologie ausgereift ist, könnten in Rückstand geraten, wenn dies der Fall ist. Unternehmen, die die Technologie verfrüht einsetzen, werden teure Lektionen lernen. Der schmale Weg ist das bewusste Experimentieren mit angemessenen Leitplanken.
Drei Fragen an Ihr Unternehmen
Welche anhaltenden, aufmerksamkeitsintensiven Aufgaben gibt es in Ihrem Bereich? Suchen Sie nach Aufgaben, die eine konzentrierte Anstrengung über Stunden, nicht Minuten, erfordern. Die Aufgaben, die Menschen aufschieben, weil sie anhaltende Konzentration erfordern - das sind die Kandidaten für Pilotprogramme.
Können Sie den Erfolg Ihrer autonomen Arbeit zuverlässig messen? Nicht “hat sie Leistung erbracht”, sondern “hat sie Leistung erbracht, die Ihren tatsächlichen Standards entspricht”. Wenn Sie den Erfolg nicht definieren und messen können, können Sie auch nicht beurteilen, ob die KI funktioniert.
Ist Ihre Governance-Infrastruktur bereit für Arbeiten, die unbeobachtet stattfinden? Protokollierung. Berechtigungskontrollen. Eskalationsauslöser. Wiederherstellungsmechanismen. Prüfpfade. Die Infrastruktur für die Delegation muss vorhanden sein, bevor die Delegation Sinn macht.
2026 wird wahrscheinlich nicht das Jahr sein, in dem KI bei langwierigen Aufgaben zuverlässig wird. Fünfzig Prozent Erfolg bei zweistündigen Aufgaben bedeutet immer noch die Hälfte der Zeit Misserfolg.
Aber es kann sein, dass die ein Jahr lang laufende KI für bestimmte Anwendungsfälle einsatzfähig wird - gut genug für den Produktionseinsatz mit angemessener Aufsicht und Fehlertoleranz.
Die ehrliche Antwort: Niemand weiß genau, wann diese Systeme ausgereift sein werden. Die Signale legen nahe, dass es sich lohnt, das herauszufinden.
Referenzen
Forschungspapiere
- Aufbau produktionsreifer KI mit skalierbarem Langzeitspeicher - arxiv.org/abs/2504.19413
- Multi-Graph basierte Speicherarchitektur für KI - arxiv.org/abs/2601.03236
- KI in der Produktion messen - arxiv.org/abs/2512.04123
Branchenberichte & Whitepapers
- Fehlermodi in KI-Systemen - Microsoft
- Lektionen aus dem Jahr 2025 über KI und Vertrauen - Google Cloud
- Stand der KI-Technik - LangChain
- Benchmark vs. Bewertung in der realen Welt - METR
Technische Dokumentation
- Wie wir unser Multi-Agenten-Forschungssystem aufgebaut haben - Anthropic
- Spezifikation des Modellkontextprotokolls - modelcontextprotocol.io
- Fresh-Start Cycling Dokumentation (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)

BLOG






