KI-Vorteil: KI-gesteuertes Feedback kann Echtzeiteinblicke liefern und Vorurteile traditioneller Bewertungen verringern.
Datenqualität: Viele Organisationen kämpfen mit unzureichenden, veralteten oder inkonsistenten Daten, was sich negativ auf die Feedbackqualität auswirkt.
Vertrauensprobleme: Transparenz im KI-generierten Feedback ist entscheidend; Offenlegung beeinflusst das Vertrauen der Mitarbeitenden sowie die Wirksamkeit des Feedbacks.
Umsetzungslücke: Die Lücke zwischen dem potenziellen Nutzen von KI und ihrer praktischen Anwendung in Unternehmen wächst.
Feedbackschleifen: Ineffektive Feedbackschleifen verkürzen zwar die Bewertungszyklen, lassen die Probleme der Jahreshauptbewertungen jedoch ungelöst.
Kontinuierliches, KI-gestütztes Leistungsfeedback hat den Sprung von der Wunschliste auf Konferenzen zum unternehmensweiten Rollout schneller geschafft als die meisten anderen HR-Praktiken in jüngster Vergangenheit.
Das Versprechen der Anbieter ist überall ähnlich: Echtzeit-Feedback, weniger Einfluss aktueller Ereignisse, kein Feedback mehr, das davon abhängt, wie sich eine Führungskraft an einem bestimmten Nachmittag gefühlt hat.
Beschäftigte fordern seit Langem häufigeres und spezifischeres Feedback, als es jährliche Beurteilungen bieten können. KI-gestützte Systeme sind genau dafür konzipiert, doch die Lücke zwischen Anspruch und Realität wird immer offensichtlicher.
Das Problem des Führungskräfte-Abnickens
Führungskräfte genehmigen KI-generierte Zusammenfassungen, ohne die Modelle zu prüfen, die sie erstellt haben.
Andrew Whyatt-Sames, Organisationspsychologe und Mitbegründer von UptakeAI, das mit Organisationen bei der Einführung von KI für Personal- und Leistungsprozesse arbeitet, hat dieses Szenario immer wieder erlebt.
Wenn KI eine Leistungszusammenfassung erstellt, behandeln die meisten Führungskräfte sie als Entwurf zur Genehmigung statt als Ausgangspunkt für weiterführende Fragen.
Eine Linienführungskraft, drei Monate nach dem Start in einem Unternehmen mit 2.000 Mitarbeitenden, sagte ihm: „Es hieß ‚starke Kommunikationsfähigkeit‘ und ich stimme zu – die Daten sind ja da, oder?“
Das zugrundeliegende Modell wertete jedoch die Anwesenheit in Besprechungen als Indikator für Kommunikation. Keiner hatte das den Führungskräften mitgeteilt.
Ein Teil des Problems ist grundlegend. Systeme für kontinuierliches Feedback benötigen kontinuierliche, hochwertige Daten. Die meisten Organisationen verfügen nicht darüber.
„Es berücksichtigt nur den Kontext, den man ihr gibt“, sagte Matt Poepsel, VP of Talent Optimization bei The Predictive Index, im Gespräch bei der Transform-Konferenz im März. „Es ist, als würde man einen Freund um Rat über den eigenen Chef bitten, und dieser antwortet: 'Ich kenne deinen Chef eigentlich gar nicht – du musst mir mehr erzählen.'“
Personaldaten, so merkte er an, waren schon vor dem Einsatz von KI inkonsistent. Stellenbeschreibungen, die aus veralteten Ausschreibungen stammen, Kompetenzbewertungen, die an Anforderungen gekoppelt sind, die sich verändert haben, verhaltensbezogene Profile, die Führungskräfte nie erstellt haben, weil niemand sie dazu angeleitet hat.
Wir haben Unmengen an Daten. Die Frage ist, ob es die richtigen Daten sind.
Wenn die zugrunde liegenden Daten schwach sind, kann kontinuierliches Feedback sich nicht selbst korrigieren. Das Problem vergrößert sich mit der höheren Frequenz.
Offenlegung ist so oder so ein Problem
Es gibt eine Vertrauensdynamik, die die Einführung zusätzlich erschwert. Wie wir bereits behandelt haben, zeigte eine 2021 im Strategic Management Journal veröffentlichte Studie, dass KI-generiertes Feedback im Hinblick auf messbare Ergebnisse besser abschneidet als das von menschlichen Führungskräften – aber nur, wenn Mitarbeitende nicht wissen, dass es von einer Maschine stammt. Sobald es offengelegt wird, verschwinden die Leistungszuwächse.
Kamaria Scott, Gründerin und CEO von Enetic, hat das Offenlegungsproblem direkt miterlebt.
„Lügen Sie einfach niemals darüber", sagt sie. „Man muss transparent sein."
Führungskräfte, die KI-generiertes Feedback offenlegen, riskieren, dass Mitarbeitende es ablehnen. Wer das nicht tut, hat früher oder später ein Offenlegungsproblem, das meistens irgendwann auffliegt.
Worum es dabei geht, so Scott, ist die Frage, ob diese Systeme als Ausgangspunkt oder als Endpunkt genutzt werden.
Die Bewertung ist nicht das Endziel. Die Bewertung ist der Gesprächsstarter.
Aus ihrer Sicht ist die am besten vertretbare Nutzung von KI im Leistungsmanagement die eines Dateneingabepunktes, der ein Gespräch eröffnet, nicht aber eine alleinstehende Zusammenfassung. „Etwas, das sagt: ‚Dies ist ein neutraler Ausgangspunkt für uns‘ – das ist hilfreich. Aber man muss sich in der Mitte treffen.“
Mitarbeitende wissen, was gemessen wird
Das Problem des "Gamings" tritt laut Whyatt-Sames meist etwa sechs Monate nach der Einführung auf.
Die Mitarbeitenden merken, was das System verfolgt – meistens durch inoffizielle Kanäle und nicht offiziell kommuniziert – und passen ihr Verhalten entsprechend an. Es gibt mehr Check-in-Kommentare, mehr markierte Ziele, Ausgaben, die für das System lesbar sind, aber sonst keinem helfen. Eine L&D-Leitung, mit der er zusammengearbeitet hat, nannte es „das Dashboard spielen“.
Das Volumenproblem folgt einem ähnlichen Muster. Unternehmen messen die Nutzung an der Anzahl der Aktivitäten. Dreimal so viel Feedback erscheint als Erfolg.
"Wenn man das Feedback selbst überprüft, sinkt die Umsetzbarkeit drastisch", sagte Whyatt-Sames. "Es wird kürzer, formelhafter und konzentriert sich auf das, was das System belohnt."
Die Umkehr von Signal und Rauschen wird oft erst deutlich, wenn jemand eine Retrospektive durchführt – dann ist das Muster bereits fest etabliert.
Wenn die Arbeit selbst mit einer KI geteilt wird
Scott stellte im März eine Frage, auf die es noch keine klare Antwort gibt: „Wie sieht Leistung aus, wenn die Personen selbst die Arbeit nicht (komplett) erledigen oder Agenten die Hälfte davon übernehmen? Wie wollt ihr meine Leistung als Person bewerten, wenn ich die Arbeit gar nicht mehr selbst vollständig mache?“
Das ist eine Frage, auf die die meisten aktuellen Systeme nicht ausgelegt sind, da sie weiterhin individuelle Ergebnisse messen, obwohl der Rahmen für individuelle Beiträge immer unschärfer wird.
Whyatt-Sames‘ Diagnose, warum diese Probleme bestehen bleiben, verbindet die individuellen Fehlerquellen.
„Organisationen behandeln die KI-Schicht als Lösung und überspringen die Veränderungsarchitektur“, sagte er. „Das System generiert Feedback, aber niemand fragt, ob dieses Feedback das Verhalten ändert. Das ist ein Designproblem bei der Einführung, und die meisten Implementierungen haben niemanden, der sich um diesen Abschluss kümmert.“
Hinsichtlich der zugrunde liegenden Bedeutung bringt Poepsel es auf den Punkt.
„Jede Personalentscheidung ist eine Entscheidung mit hoher Tragweite. Wir müssen sorgfältig damit umgehen, damit wir so schnell vorankommen können, wie wir möchten.“
Das Argument für KI-gestütztes kontinuierliches Feedback besteht weiterhin. Der Glaube jedoch, dass die Einführung der Technologie das zugrundeliegende Managementproblem löst, tut das nicht.
