Governance-Wandel: KI-Governance muss sich von Richtlinien zu Überwachung in Echtzeit entwickeln, da agentische KI autonom handelt.
Vorrang für Bereitstellung: AWS priorisiert die schnelle Einführung von KI gegenüber Governance und konzentriert sich auf Lernen und Skalieren im Echtbetrieb.
Nicht abgefederte Risiken: Credo AI katalogisiert 1.600 KI-Risiken; bei 15 % fehlt eine Abmilderung, was Governance-Probleme für agentische KI aufwirft.
Verantwortungslücken: Aktuelle Governance-Rahmenwerke tun sich schwer, Verantwortlichkeiten für Handlungen von KI-Agenten gegenüber Nutzern zuzuweisen.
Während einer Live-Demo auf der HumanX letzte Woche führte Mati Staniszewski, Mitbegründer von ElevenLabs, ein Publikum durch einen auf der Plattform seines Unternehmens entwickelten Regierungsservice-Agenten.
Der Agent leitete einen fiktiven Nutzer durch die Unternehmensregistrierung. Er authentifizierte dessen Identität über WhatsApp, holte Dokumente aus einem verknüpften Google-Konto, wechselte die Sprache mitten im Gespräch, als der Nutzer erwähnte, dass spanischsprachige Mitarbeitende involviert seien, und beantwortete Fragen zum Prozess der Verkäufergenehmigung in Kalifornien.
Dann stellte der Nutzer eine Frage zu Steuern. Der Agent beendete das Gespräch.
Er signalisierte keine Unsicherheit. Er leitete nicht weiter. Er beendete ein Gespräch, das ein echter Nutzer als weiterlaufend angesehen hätte, weil der Agent nicht wusste, dass es eine Steuerabteilung gibt, an die verwiesen werden sollte.
Staniszewski behob das Problem auf der Bühne in wenigen Minuten, verband den Geschäftsagenten mit einem Steueragenten, spielte die Änderung ein und startete neu. Das Publikum sah zu, wie ein Live-Produktions-Update in Echtzeit durchgeführt wurde.
Bemerkenswert ist nicht, dass der Agent scheiterte. Agenten scheitern. Es ist die Art des Scheiterns. Keine Warnung. Keine Übergabe. Keine Dokumentation darüber, was der Nutzer benötigte. Die Lücke wurde erst sichtbar, als ein Nutzer in sie hineinstolperte.
Stellen Sie sich dieses Szenario nun bei Revolut vor, das ElevenLabs-Agenten bei vier Millionen Kunden in über 30 Sprachen im Einsatz hat. Oder bei der Deutschen Telekom, deren Netzwerk Agenten umfasst, die Kundenanfragen in Echtzeit beantworten. Der Engpass, sagte Staniszewski, ist nicht mehr die Technologie. Es ist die Einführung.
Diese Aussage ist sowohl zutreffend als auch – für jeden, der Verantwortung für das Tun dieser Agenten trägt – der wichtigste Satz der gesamten Veranstaltung.
Das Modell, für das Governance geschaffen wurde
In den letzten drei Jahren funktionierte KI-Governance in Unternehmen auf Basis eines überschaubaren Modells. Ein KI-System gab eine Empfehlung. Ein Mensch prüfte sie. Die Verantwortung für alles Weitere lag beim Menschen. Dieses Modell war nicht perfekt, aber nachvollziehbar. Man konnte erkennen, wo eine Entscheidung gefällt wurde und von wem.
Diese Architektur bricht nun auseinander.
Navrina Singh, Gründerin und Geschäftsführerin von Credo AI, baut seit sechs Jahren das von ihr so bezeichnete KI-Governance-Segment auf – beginnend in der Ära des prädiktiven maschinellen Lernens und mittlerweile tief im agentischen Zeitalter tätig.
Auf der HumanX beschrieb sie den zentralen Wandel. Governance drehte sich früher um Richtlinien, nun muss sie um operative und laufende Leitplanken erweitert werden. Der Unterschied ist bedeutender, als es zunächst klingt. Richtlinien schreibt man, prüft sie jährlich und aktualisiert bei Problemen.
Laufende Governance bedeutet, das tatsächliche Handeln eines KI-Systems im Produktionsbetrieb fortlaufend zu überwachen – gemäß Bewertungskriterien, die sich anpassen müssen, wenn sich das zugrundeliegende Modell ändert.
Dieser Wechsel von der Richtlinie zum laufenden Betrieb spiegelt direkt den Unterschied zwischen beratender KI und agentischer KI wider. Beratende KI gibt Vorschläge innerhalb klarer Grenzen. Agentische KI handelt eigenständig, verbindet diese Handlungen systemübergreifend, übergibt an andere Agenten und erzeugt Ergebnisse, die kein Mensch vorab geprüft hat.
Die ElevenLabs-Demo verdichtete das auf wenige Minuten: Eine erste Nutzerinteraktion führte zu einer WhatsApp-Authentifizierung, dem Abruf von Dokumenten aus Google Workspace, einem Sprachwechsel, einer nahtlosen Agentenübergabe und einem proaktiven ausgehenden Anruf mit dem Angebot eines Förderprogramms. Fünf autonome Einzelschritte. Kein Mensch genehmigte jeden davon einzeln. Das ist agentische KI auf die Anwendung eines einzigen Anwendungsfalls heruntergebrochen.
Im Unternehmensmaßstab wird die Steuerungslücke deutlich schwieriger in den Griff zu bekommen.
Die Rechnung der Gestaltenden
Matt Garman, CEO von Amazon Web Services, äußerte sich klar dazu, wo der tatsächliche Mehrwert von KI in Unternehmen entsteht. Die frühen generativen KI-Erfolge – Inhaltserstellung, Dokumentenzusammenfassung – weichen nun etwas Grundsätzlicherem.
Agents sind der Weg, wie die meisten Unternehmen und Firmen den größten Nutzen aus KI ziehen werden.
Die interne Implementierung von Amazon belegt diese Aussage. Das Quick Suite-Tool des Unternehmens verschafft Hunderttausenden von Mitarbeiter:innen Zugang zu KI-Agenten, die mit Unternehmensdaten aus Salesforce, Workday, E-Mail und interner Dokumentation verbunden sind.
Softwareentwickler:innen erzielen mit KI-Unterstützung etwa 4,5-mal mehr Output als ohne. Ein Codierungs-Agent namens Kiro hat kürzlich eine Kundenanfrage bezüglich eines Fehlers bearbeitet und die Korrektur innerhalb von 25 Minuten veröffentlicht.
Das sind echte Fortschritte, und Garman präsentierte sie ohne Übertreibungen. Aber in der Argumentation für die Einführung ist eine Reihenfolge der Prioritäten eingebettet, mit der sich die Governance auseinandersetzen muss. Staniszewski hat dies explizit gemacht.
Der Engpass ist nicht mehr die Technologie. Es ist die Implementierung. Die Unternehmen, die ausliefern, lernen und schnell skalieren, werden die Gewinner sein.
Ausliefern. Lernen. Skalieren. Das ist die Reihenfolge. Governance taucht darin nicht auf – nicht, weil sie ignoriert wird, sondern weil die Logik des Wettbewerbs im aktuellen Moment Geschwindigkeit belohnt. Die "Lern"-Phase in dieser Abfolge findet in der Praxis statt, mit realen Nutzern, mit realen Konsequenzen.
Das ist kein Zynismus. Garman und Staniszewski beschreiben, wie Technologiemärkte funktionieren, wenn sich die Fähigkeiten rasant verbessern und das Zögern realen Preis hat. Für die CHRO, die für KI-Entscheidungen in der Belegschaft verantwortlich ist, oder die COO, deren Betriebsabläufe um agentische Systeme umstrukturiert werden, stellt sich die Rechnung anders dar. Sie profitieren nicht vom Erstvorteil, sondern erben die Verantwortung, wenn etwas schiefgeht.
Eine Lücke, die niemand geschlossen hat
Credo AI hat zusammengestellt, was Singh als das weltweit größte Verzeichnis von KI-Risiken bezeichnet; es umfasst derzeit rund 1.600 verschiedene Kategorien. Für etwa 85 % davon existieren Gegenmaßnahmen.
Für die verbleibenden 15 Prozent – circa 240 bekannte Risikokategorien – gibt es bislang keine etablierten Gegenmaßnahmen. Das ist der Zustand der Governance für beratende KI. Agentische Systeme, in denen mehrere Modelle interagieren, Aufgaben weitergeben und Ergebnisse produzieren, die in weitere automatisierte Entscheidungen einfließen, bringen Versagensmodi hervor, die weder vollständig charakterisiert noch entschärft sind.
Das größere Problem, das Singh identifiziert hat, ist die Herkunftsnachverfolgung. In einem Multi-Agenten-System erfordert die Zuweisung von Verantwortlichkeiten nicht nur die Antwort auf die Frage, welche Entscheidung getroffen wurde, sondern auch auf die Frage, wie sie zustande kam. Also: Welcher Agent hat was beigetragen, welche Datenquellen wurden konsultiert, wo in der Kette ist ein Fehler entstanden, und wie würde eine Korrektur weitergegeben?
Die meisten Governance-Rahmenwerke wurden entwickelt, um die Ausgabe eines Modells zu bewerten. Sie sind nicht dafür gebaut, die Entscheidungsfindung eines miteinander verbundenen Systems nachzuvollziehen, das plattform-, modell- und organisationsübergreifend operiert.
Saahil Jain, CTO von You.com, das sich vom Verbrauchersuchdienst zum Anbieter von Such-APIs für KI-Agenten entwickelt hat, hat das strukturelle Problem folgendermaßen zusammengefasst: Nutzer:innen interagieren mit Informationen und können einschätzen, was sie sehen. Agenten, die Informationen aufnehmen, haben diese Fähigkeit zur Selbstkorrektur nicht im gleichen Maße.
"Sie nutzen im Grunde einfach den Kontext, den sie bekommen, und zitieren ihn auf eine Weise, die Menschen nicht mehr einbezieht", sagte er.
Die von Unternehmen entwickelte Governance-Architektur setzt irgendwo in der Kette eine menschliche Überprüfung voraus. Während der Woche auf der HumanX habe ich den Satz "Agenten steuern Agenten" immer wieder gehört. Agentisches Arbeiten scheint diese Annahme systematisch auszuhebeln, ohne etwas Strukturell-Gleichwertiges an die Stelle zu setzen.
Regulatorische Rahmen schließen die Lücke nicht. Singh hat Regierungen in den USA, Europa, Australien und Indien zu KI-Governance beraten und hat die Existenz eines gewaltigen Rückstands klar benannt.
Regeln, die für ältere maschinelle Lernsysteme entwickelt wurden, passen nicht ohne Weiteres auf agentische Architekturen. Der Colorado AI Act drängt auf Folgenabschätzungen. Europäische Datenschutz- und Transparenzanforderungen werden auf der Ebene von fortgeschrittenen Modellen verschärft.
Doch das Tempo der agentenbasierten Einführung ist dem jedes regulatorischen Zyklus weit voraus, und Singh erwartet, dass dies auf absehbare Zeit so bleibt.
Die Compliance-Untergrenze ist nicht das Limit
SOC 2-Compliance ist zum Mindeststandard bei der Beschaffung von KI-Lösungen für Unternehmen geworden. Singh beschrieb, wie Fortune-500-Kunden nach einem Jahr umfassender Experimente mit mehreren Anbietern nun sehr genau darauf achten, ob die Daten der Anbieter geschützt sind, ob ihre Verantwortlichkeitsstandards dokumentiert wurden und ob durch die Integration ihrer KI-Lösungen ins Unternehmen ein erhöhtes Risiko entsteht.
Laut Singh erreichen dadurch nur etwa 40% der KI-Anbieter überhaupt den Produktiveinsatz in großen Unternehmen. Der Selektionsdruck ist real.
Aber SOC 2-Compliance und agentische Governance sind nicht dasselbe, und die Gleichsetzung dieser beiden Themen ist einer der folgenschwersten Fehler, den der Unternehmensmarkt derzeit macht.
SOC 2 adressiert Sicherheit und Verfügbarkeit. Es sagt etwas Aussagekräftiges darüber aus, ob die Systeme eines Anbieters geschützt und zuverlässig sind. Es sagt jedoch nichts darüber aus, ob die Entscheidungen eines Agenten nachvollziehbar sind, ob seine Ergebnisse kontextuell korrekt sind, ob er Grenzfälle angemessen eskaliert oder ob sein Verhalten abweicht, wenn die zugrundeliegenden Modelle ohne Ankündigung aktualisiert werden.
Das sind Governance-Fragen, und sie benötigen eine andere Art Infrastruktur, als eine Compliance-Zertifizierung bieten kann.
Singh beschrieb in der Praxis, wie diese Infrastruktur aussieht: Governance-Teams, die neben Sicherheitsfachleuten auch Datenwissenschaftler, Risiko- und Datenschutzspezialisten sowie Verhaltensexperten umfassen. Unabhängige Prüfstellen – einschließlich eines neuen Standards namens AIUC –, die agentenbasierte Systeme anhand etablierter Kriterien durch externe Parteien testen. Ständige Überwachung im laufenden Betrieb, nicht nur Bewertungen vor der Einführung.
Credo AI hat kürzlich ein Governance-MCP (zurzeit als Beta-Version) vorgestellt, das darauf abzielt, Leitplanken bereits in den Entwicklungsprozess zu verlagern, sodass Entwickler schon beim Bau Governance-Logik integrieren können, statt diese im Nachhinein aufzusetzen.
Die Richtung stimmt. Ob die Einführung schnell genug erfolgt, ist eine andere Frage.
Die Frage der Verantwortlichkeit
Garman beschreibt die KI-Transformation bei Amazon mit ausgesprochener Zuversicht. Vertriebsteams verbringen den Großteil ihrer Zeit mit Kunden, nicht mehr mit Verwaltungsaufgaben, Softwareentwickler werden von jahrelangen Rückständen befreit, Produkte kommen schneller auf den Markt und orientieren sich stärker an den tatsächlichen Bedürfnissen der Nutzer. Die Fortschritte sind real. Die Logik ist stichhaltig.
Doch in dem Bild der agentenbasierten Einführung verbirgt sich eine Frage, auf die Governance-Rahmenwerke bisher keine eindeutige Antwort geben: Wenn ein KI-Agent eine schädliche Entscheidung trifft, wer trägt die Verantwortung?
Der Sprachassistent, der einen Anruf zum falschen Zeitpunkt beendet und damit einen hilfsbedürftigen Nutzer im Stich lässt. Die Finanz-KI, die jemanden falsch einstuft und so den Zugang zu Krediten beeinflusst. Der HR-Screening-Agent, der einen Kandidaten aufgrund von Kriterien, die historische Verzerrungen enthalten, herabstuft. Die Plattform für Sozialleistungen, die einen Anspruch automatisiert ablehnt, ohne dass vor der Entscheidung noch ein Mensch eingebunden wird.
In jedem Fall handelte ein Agent. In jedem Fall wurde er von einem Menschen in Gang gesetzt. In jedem Fall ist die Kette zwischen Entscheidung und Konsequenz länger und diffuser, als es bestehende Governance-Rahmenwerke abbilden können.
Singhs Bemerkung über das Abwarten sollte über die von ihr angeführte Geschäftslogik hinaus ernst genommen werden.
„Viele Unternehmen sagen uns, sie wollen erst auf einen Zwischenfall warten und dann, falls nötig, in KI-Governance investieren“, sagte sie. „Bis dahin werden sie unbedeutend sein.“
Das ist ein Wettbewerbsargument. Es gibt aber noch ein schwerwiegenderes: Wenn agentenbasierte KI in die Verwaltung von Sozialleistungen, Leistungsbewertungen, Personalplanung, Finanzdienstleistungen oder die medizinische Aufnahme Einzug hält, dann haben die Menschen, die von diesen Entscheidungen betroffen sind, ein berechtigtes Interesse an Transparenz und Rechenschaftspflicht, wenn etwas schief läuft.
Governance-Rahmen, die für KI als Berater konzipiert wurden, reichen nicht aus, wenn KI selbst handelt. Die Entwickler wissen das. Sie führen KI trotzdem ein. Das Zeitfenster, um Verantwortlichkeit in diese Systeme einzubauen, bevor sich die Arbeitsabläufe um sie herum neu organisieren, ist nicht unbegrenzt offen.
