Organisatorische Lücke: Das Haupthemmnis für die Einführung von KI ist nicht die Technik, sondern mangelnde organisatorische Infrastruktur.
Urteilsverlagerung: Organisationen müssen von individuellem zu kollektivem Urteilsvermögen wechseln, um die Entscheidungsfindung von KI-Systemen zu verbessern.
Governance-Bedeutung: Klare Eigentums- und Prüfungsstrukturen einführen, um Verantwortlichkeit von KI-Systemen zu gewährleisten und Fehler zu beheben.
Neubewertung von Werten: Wertmetriken von Geschwindigkeit hin zu Genauigkeit und Qualität der Entscheidungsfindung umgestalten und so die KI-Integration fördern.
Erfolgsfaktoren für Pilotprojekte: Klare Ergebnisse, definierte Verantwortung und abgestimmte IT- und Geschäftsziele sind entscheidend für den Erfolg von KI-Pilotprojekten.
Laut der Deloitte-Studie zu Technologietrends 2025 erforschen 30 % der Unternehmen agentenhafte KI und 38 % testen bereits Lösungen. Aber nur 11 % setzen diese Systeme produktiv ein.
Der Engpass ist nicht die technische Einsatzbereitschaft. Modelle funktionieren. Daten sind vorhanden. Werkzeuge sind zugänglich. Was fehlt, ist die organisatorische Infrastruktur – die Leitplanken, Verantwortlichkeiten und Anreizsysteme, die es sicher machen, Entscheidungen an KI zu übergeben.
Teams, die den Schritt vom Pilotbetrieb zur Produktivsetzung schaffen, nehmen drei ganz bestimmte Veränderungen vor. Keine davon ist vornehmlich technischer Natur.
Erster Wandel: Urteilskraft als organisatorische Fähigkeit neu definieren
Die meisten Organisationen betrachten Urteilskraft als persönliche Fähigkeit, die in den Köpfen der Führungskräfte lebt. Zwei Personen können denselben Fall unterschiedlich behandeln – und niemand kann erklären, warum. Es gibt keine Möglichkeit, den Prozess systematisch zu verbessern, weil die Verantwortung für KI-Entscheidungen ungeklärt bleibt.
Ahmed Zaidi, CEO von Accelirate, stieß auf dieses Muster bei der Arbeit mit einer großen Krankenhausgruppe. Das Team aus 15 Pflegekräften, die Einspruchsschreiben gegen Versicherungsablehnungen entwarfen, folgte scheinbar einem klaren Prozess. Oberflächlich betrachtet schien diese Arbeit leicht zu kodifizieren.
Was schnell zum Streitpunkt wurde, war, dass es tatsächlich keinen einheitlichen Prozess gab", sagt Zaidi. "Jede Pflegekraft hatte über die Jahre ihre eigene Vorgehensweise entwickelt.
Als Zaidis Team versuchte, schriftlich festzuhalten, „wie wir das wirklich machen“, gab es unter den Pflegekräften Uneinigkeit zu grundlegenden Fragen:
- Was stellt eine starke klinische Begründung dar?
- Auf welche Unterlagen sollte man besonderen Wert legen?
- Welcher Tonfall oder welche Sprache bei bestimmten Versicherern am besten wirkt?
- Wann man eskalieren sollte und wann man den Einspruch neu formuliert?
Die versteckten Abhängigkeiten gingen noch weiter. Entscheidungen basierten nicht nur auf dem Ablehnungscode. Sie stützten sich auf Arztberichte, die in einem System verborgen lagen, auf Vorautorisierungsdaten in einem anderen und auf feine klinische Formulierungen in Freitextdokumentationen. Einige Strategien hingen von individuellen Dokumentationsgewohnheiten bestimmter Ärztinnen und Ärzte ab, die nicht standardisiert waren.
„Was einfach aussah – 'Einsprüche automatisieren' – wurde zu einer organisatorischen Übung, implizite Urteilskraft explizit zu machen“, sagt Zaidi.
Der Durchbruch kam, als das Team aufhörte, nach der „richtigen“ Pflegekraft-Strategie zu suchen, und stattdessen das Wissen aller 15 zusammenführte. Sie organisierten strukturierte Sitzungen, in denen Strategien diskutiert, Sonderfälle beleuchtet und Einigkeit darüber erzielt wurde, was historisch zum Erfolg führte. Dann ergänzten sie reale Ergebnisdaten – welche Vorlagen häufiger zu erfolgreichen Einsprüchen führten, welche Dokumentationskombinationen die Erfolgsquote steigerten.
Statt Meinungen wurden validierte Muster kodiert.
Durch diese Externalisierung entsteht etwas, das in Organisationen selten ist: Die Fähigkeit, Urteilskraft im großen Maßstab zu beobachten und gezielt zu verbessern. Jede Entscheidung wird protokolliert. Jede Ausnahme sichtbar gemacht. Jede Anpassung zeigt, wo Regeln nicht mit der Realität übereinstimmen. Teams erkennen Muster, verfeinern Schwellenwerte und steigern die Leistung kontinuierlich.
Das Ergebnis war messbar: Gesteigerte Genauigkeit bei Einsprüchen, verkürzte Bearbeitungsdauer, höhere Rückgewinnungsrate – und verringertes Compliance-Risiko, weil Entscheidungen nun standardisiert, dokumentiert und prüfbar waren.
Governance hat das System nicht ausgebremst – sondern einen Weg geschaffen, wie die Organisation systematisch aus eigenen Entscheidungen lernt.
Zweiter Wandel: Klare Verantwortlichkeit für das Agentenverhalten festlegen
Das entscheidende Hindernis beim Übergang in die Produktion ist das organisatorische Vertrauen, dass KI-Aktionen eingegrenzt, prüfbar, reversibel und überwacht sind.
Teams, die erfolgreich sind, benennen einen operativen Owner, der explizit für das Verhalten des Agenten – einschließlich Fehler – verantwortlich ist. Der erste größere Fehler testet, ob diese Infrastruktur tatsächlich greift.
Im Krankenhaus-Projekt von Zaidi gab es einen Agenten zur Unterstützung bei der Erstellung und Priorisierung von Einspruchsschreiben, der Fälle triagierte und eine Eskalation empfahl, wenn bestimmte Risiken erreicht wurden.
Der erste schwerwiegende Fehler trat auf, als der Agent einen hoch dotierten, zeitkritischen Ablehnungsfall als Routinefall einordnete und nicht eskalierte. Die Logik hatte den Ablehnungscode korrekt interpretiert, aber einen sekundären Kontextfaktor übersehen – das ablaufende Einspruchsfenster, das an den Vertrag dieses Versicherers gebunden war.
Der Fehler blieb zwar begrenzt, war aber finanziell relevant. Entdeckt wurde er durch eine von Team eingebaute tägliche Ausnahmeprüfung – eine menschliche Kontrollschicht, die wertvolle Fälle stichprobenartig prüfte.
Was dieser Moment zeigte, war nicht, dass der Agent fahrlässig war, sondern dass unsere Eskalationskriterien unvollständig waren", so Zaidi. "Wir hatten klinische und Ablehnungslogik kodiert, aber Vertragsmetadaten nicht vollständig ins Priorisierungsmodell integriert.
Die Führungsstruktur half in zweifacher Hinsicht:
- Protokollierung und Nachvollziehbarkeit zeigten genau, warum der Agent die Entscheidung getroffen hatte, und die Auditierung mit Mensch-in-der-Schleife entdeckte risikoreiche Fälle.
- Es wurde eine Lücke aufgedeckt. Die Definition von „Risiko“ war zu eng.
Das Team reagierte, indem es die Eskalationsregeln erweiterte, um finanzielle und zeitliche Risikofaktoren einzubeziehen, dynamische, vertragsbasierte Schwellenwerte einführte, die Überwachung bei auslaufenden Einsprüchen erhöhte und klarere Wege für Übersteuerungen schuf.
In agentischen Systemen entstehen Fehler selten aus einer einzigen schlechten Entscheidung, sondern aus unvollständiger Kontextmodellierung. Verantwortlichkeit in der KI-Führung bedeutet, auf Früherkennung zu setzen, nicht auf Perfektion zu vertrauen.
![]()
Wie die Führung mit diesem ersten Fehler umgeht, entscheidet alles. Wenn sie ihn als Lerngelegenheit nutzen und das System anpassen, gewinnen die Teams Vertrauen. Wenn sie zurückrudern oder individuelle Schuld zuweisen, scheitert das Pilotprojekt.
Erfolgreiche Organisationen vermeiden Fehler nicht. Sie bauen Systeme, die Fehler schnell sichtbar machen, sie als Daten behandeln und daraus besser werden.
Der Governance-Blindfleck
Eine der häufigsten Governance-Schwächen, die Zaidi beobachtet, ist das, was er passive KI-Governance nennt – oder der Glaube, dass Protokollierung gleich Kontrolle sei.
„Organisationen behaupten selbstbewusst: ‚Jede Entscheidung des Agenten wird protokolliert. Wir haben vollständige Nachverfolgbarkeit‘“, sagt Zaidi. „Das klingt beruhigend, besonders in einem regulierten Umfeld. Aber Protokollierung alleine reduziert kein Risiko. Sie dokumentiert es lediglich.“
Im Gesundheitswesen betreffen Agentenentscheidungen und Einsatz von KI oft das Vertragsmanagement und Feinheiten wie klinische Sprache, Interpretationen der Kostenträger und zeitliche Einschränkungen. Selbst wenn jede Ausgabe technisch nachverfolgbar ist, häuft sich das Risiko in Randfällen, die knapp außerhalb der vordefinierten Schwellenwerte liegen, in Veränderungen der Dokumentationsmuster oder Reaktionsverhalten der Kostenträger sowie in Eskalationen, die hätten erfolgen sollen, aber technisch keine Regel verletzt haben.
Viele Organisationen nehmen an, dass das System konform ist, solange nichts schiefgeht. Aber das Ausbleiben eines unmittelbaren Fehlers ist kein Beweis für Sicherheit. Es kann einfach bedeuten, dass niemand genau genug hinschaut.
Reife KI-Governance umfasst definierte Prüfintervallen zur Stichprobenkontrolle von Entscheidungen, quantitative Risikogrenzwerte, die automatisch eine menschliche Überprüfung auslösen, klare Verantwortlichkeiten für das Monitoring auf operativer Ebene und Feedbackschleifen, bei denen sich wiederholende Ausnahmen zu Regelanpassungen führen.
Ich stelle Führungskräften oft eine einfache Frage: ‚Wer wacht morgens auf und ist verantwortlich für das, was der Agent gestern entschieden hat?‘“, sagt Zaidi. „Wenn es darauf keine klare Antwort gibt, ist das Governance-Modell nicht fertig.
Dritte Veränderung: Was wird wertgeschätzt?
In den meisten Organisationen ist Fachwissen eng mit Status, Arbeitsplatzsicherheit und informeller Macht verbunden. „Die/derjenige, die/der Bescheid weiß“ zu sein, bedeutet Einfluss. Die explizite Bewertung von Urteilsvermögen fühlt sich daher oft an, als ob man das einzige Pfand aufgibt, auf das das System einen trainiert hat.
Im Krankenhaus wurde das Pflegeteam traditionell nach Menge gemessen – wie viele Einspruchsschreiben sie pro Tag erstellen konnten.
Nachdem die KI-gestützte Erstellung eingeführt wurde, wurde diese Kennzahl kontraproduktiv. Wenn die KI den ersten Entwurf erstellt, spiegelt allein das Volumen keinen Wert mehr wider.
Leistungsbewertung änderte sich hin zur Genauigkeit der fachlichen Prüfung, Wirksamkeit der Anpassungen an KI-Briefe, Rückgewinnungsbeträge und Beitrag zur Verbesserung von Vorlagen und Eskalationslogik.
Eine bestimmte Pflegekraft stach besonders hervor. Sie hatte ein außergewöhnliches Gespür dafür, warum bestimmte Formulierungen bei bestimmten Versicherern besser funktionieren. Anstatt am Output-Tempo gemessen zu werden, wurde sie essenziell darin, ihr Urteilsvermögen in systematische Regeln und Vorlagen zu übersetzen.
Ihr Einfluss wuchs, weil sie Intuition in strukturierte Logik übersetzen konnte“, sagt Zaidi. „Das ist eine ganz andere Fähigkeit, die in agentischen Umgebungen sehr wertvoll ist.
Der Wandel war kulturell: von „Wie schnell kannst du produzieren?“ zu „Wie gut kannst du Entscheidungssysteme gestalten?“
Wenn Organisationen Heldentum, Geschwindigkeit oder Intuition belohnen – aber nicht Dokumentation, Überwachung oder Systemverbesserung – bleibt Expertise bei Einzelpersonen gefangen. Teams, die den Wandel schaffen, fördern Menschen, die ihr Urteil so lehren können, dass das System davon profitiert, es im Laufe der Zeit verbessert und andere damit besser macht.
Sobald Fachwissen als etwas betrachtet wird, das die organisatorischen Fähigkeiten stärkt anstatt persönliche Unentbehrlichkeit zu zementieren, schwindet der Widerstand gegen KI. Die Übergabe an Agenten wird zum Zeichen von Seniorität anstatt eines Bedrohungsszenarios.
Frühe Warnzeichen des Scheiterns
In den ersten 30 bis 60 Tagen eines Piloten lässt sich ein Scheitern fast immer vorhersehen.
Das größte Warnsignal ist das Fehlen eines klar definierten Ergebnisses. Wenn ein Team nicht in operativen Begriffen beschreiben kann, wie Erfolg aussieht—zum Beispiel verkürzte Durchlaufzeiten, gesteigerte Rückgewinnungen, geringere Fehlerraten—dann ist der Pilot wahrscheinlich nur ein Experiment ohne Richtung.
Weitere Warnzeichen sind: kein klar benannter operativer Verantwortlicher, fehlende Einigkeit zwischen Wirtschaft und IT bezüglich Zeitaufwand und Komplexität, Unfähigkeit den eigentlichen Entscheidungsprozess zu formulieren, der automatisiert werden soll, sowie die Behandlung der Initiative als „KI-Erkundung“ statt als operative Neugestaltung.
Piloten geraten ins Stocken, wenn Geschäftsinteressen den Aufwand unterschätzen, Einschätzungen in strukturierte Logik zu überführen, während die IT die Variabilität und Randfälle im Unternehmensprozess unterschätzt.
Erfolgreiche Piloten erfüllen in den ersten 30 Tagen drei Kriterien:
- Begrenzter Umfang mit messbaren Ergebnissen wird festgelegt
- Benennung eines verantwortlichen Business-Owners und verpflichteter Fachexperten
- Managementrückendeckung, um zu experimentieren und prozedurale Blockaden zu beseitigen
„Agentische KI ist kein Problem des Technikeinsatzes—es ist ein Problem der Entscheidungsarchitektur“, sagt Zaidi. „Wenn das nicht frühzeitig angegangen wird, wird daraus ein Nachweis der Kosten.“
Wie Bereitschaft aussieht
Wenn eine Organisation behauptet, bereit für die Skalierung einer agentischen Lösung zu sein, achtet Zaidi auf strukturelle Reife in Bezug auf Menschen, Prozesse und Technologie. Das bedeutet:
- Ein benannter Business-Owner, der für die Ergebnisse verantwortlich ist
- Ein klar definierter Ausnahme- und Eskalationsprozess
- Nachvollziehbarkeit von Entscheidungen und Resultaten
- Einheitliche Wirtschaftlichkeit, die die Skalierung rechtfertigt
- Ein operierender Rahmen für Governance ist bereits vorhanden.
Die meisten Teams unterschätzen zwei Dinge: die Kosten für die Analyse und den Zeitaufwand, um Entscheidungslogik richtig auszugliedern.
Ein Reifezeichen, auf das Zaidi vertraut:
Wenn ich frage: ‚Wie entscheidet der Agent, wenn er unsicher ist?‘ und sie können klar antworten—einschließlich Eskalationsschwellen und Verantwortlichkeit—sind sie wahrscheinlich bereit. Ist die Antwort vage oder wird auf ‚das Modell findet das schon heraus‘ verwiesen, sind sie noch optimistisch, aber nicht vorbereitet.
Die jetzt entscheidende Fähigkeit befindet sich an der Schnittstelle von Urteilskraft und Systemen. Personen, die nicht nur sagen können, was sie entschieden haben, sondern auch warum. Die Intuition in Signale, Schwellenwerte und Ausnahmen zerlegen können. Die darüber nachdenken, wo ihr eigenes Urteilsvermögen fehlschlägt.
Im Alltag verbringen sie weniger Zeit mit der Abarbeitung von Aufgaben und mehr mit Überwachung, Korrektur und der stetigen Verbesserung der Arbeitsweise—egal ob von Menschen oder Agenten.
Organisationen, die diesen Wandel meistern, gewinnen etwas, das Wettbewerber, die im Pilotmodus feststecken, nicht haben: die Fähigkeit, Urteilsvermögen im großen Maßstab zu optimieren. Sie können Annahmen testen, Ergebnisse messen und die Qualität von Entscheidungen auf eine Weise weiterentwickeln, wie es früher, als das Expertenwissen noch nur in den Köpfen der Mitarbeitenden steckte, unmöglich war.
Der Wettbewerbsvorteil ist nicht, bessere KI zu besitzen. Es ist die organisatorische Infrastruktur, die KI-Eigentümerschaft überhaupt ermöglicht. Diese Infrastruktur—Governance, die Geschwindigkeit erlaubt, Verantwortlichkeit schafft und Anreize für übertragbares Fachwissen setzt—trennt die 11 % in Produktion von den 38 %, die in Piloten feststecken.
