Verliere nicht den Faden: Wie man verhindert, dass KI-Nutzung zum Leistungsindikator wird

David Rice

on May 26, 2026

Erfahre, warum die Erfassung der KI-Nutzung als Leistungsindikator das Verhalten verzerren, Vertrauen schädigen und die tatsächliche Entwicklung von KI-Kompetenzen in Teams schwächen kann.

Key Takeaways

Tokenmaxxing-Problem: Mitarbeitende manipulieren Messwerte zur KI-Token-Nutzung, anstatt sich auf echte Produktivität zu konzentrieren.

Messfehler: Aktuelle Bewertungsmethoden stellen KI-Aktivitäten über sinnvolle Ergebnisse und führen zu irreführenden Leistungsindikatoren.

Korruptionsrisiken: Die Abhängigkeit von Nutzungsdaten verringert deren Zuverlässigkeit, sodass die tatsächliche Leistung der Mitarbeitenden nur schwer einzuschätzen ist.

Präventionsstrategien: Organisationen sollten zu ergebnisorientierten KI-Metriken wechseln und Qualität statt Quantität in der Leistungsmessung in den Mittelpunkt stellen.

Führungskommunikation: Gute Führung muss Lernergebnisse in KI-Diskussionen priorisieren, um echte Kompetenzentwicklung zu fördern.

Anfang April 2026 enthüllte ein durchgesickertes internes Dashboard von Meta, dass das Unternehmen seine rund 85.000 Mitarbeiter nach ihrem KI-Token-Verbrauch bewertete.

Tokens sind die Dateneinheiten, die KI-Modelle verarbeiten, und jemand bei Meta hielt es für sinnvoll, sie zu zählen, um nachzuvollziehen, wer tatsächlich KI nutzt. Der Top-Anwender verschlang in einem einzigen Monat 281 Milliarden Tokens. Die auf dem Dashboard erfasste Gesamtnutzung lag bei mehr als 60 Billionen Token, ehe es entfernt wurde.

Kurz darauf berichtete die Financial Times über ein ähnliches Muster bei Amazon. Mitarbeiter automatisierten unnötige Aufgaben gezielt, um ihre KI-Nutzungszahlen künstlich in die Höhe zu treiben und damit das Bild von Engagement in der KI-Offensive des Unternehmens zu erzeugen.

Dieses Verhalten trägt inzwischen den Namen „Tokenmaxxing“, entlehnt aus der Gen Z-Sprache für Maximierung, hier bezogen auf die sichtbare Leistung beim Einsatz von KI an Stelle des ursprünglich erwünschten Ergebnisses von KI-Nutzung.

Zwei der größten Unternehmen der Welt, das gleiche Phänomen, und ein Name, der darauf hindeutet, dass es sich ausbreitet.

Tokenmaxxing ist weniger ein Technologieproblem als ein Problem von Leistungsmanagement und Unternehmenskultur. Die Spuren führen zu HR und Operations, ganz gleich, ob HR damals bei den prägenden Entscheidungen anwesend war oder nicht.

Irgendjemand hat den Anreiz gesetzt. Irgendjemand hat das Ranking gebaut oder zumindest toleriert. Irgendjemand hat beschlossen, dass Verbrauch ein vernünftiger Stellvertreter für Fähigkeit ist. Dieser Artikel soll aufzeigen, wie es dazu kommt – und was man tun kann, bevor es passiert.

Warum Messungen schiefgehen

Organisationen bauen normalerweise nicht absichtlich eine Wettbewerbskultur mit Ranglisten auf. Tokenmaxxing entsteht im Raum zwischen dem, was Unternehmen sich von KI erhoffen und dem, was momentan tatsächlich messbar ist.

Eine Gallup-Umfrage vom Februar 2026 unter mehr als 23.000 US-Beschäftigten ergab, dass die Hälfte der Erwerbstätigen mindestens einige Male pro Jahr KI nutzt. In Unternehmen, die KI einführen, berichten Beschäftigte häufiger von Störungen und Personalverunsicherung als in nicht-adoptierenden Organisationen.

Daten von Gartner zeigen gleichzeitig, dass nur eine von 50 KI-Investitionen transformativen Wert schafft und nur jede fünfte einen messbaren ROI bringt. Laut McKinseys State of AI 2025 befinden sich die meisten Organisationen trotz schneller Einführung noch immer in einem frühen Stadium der Nutzung auf Unternehmensebene.

Laut McKinsey trennt die Neugestaltung von Arbeitsabläufen und Governance den höheren Mehrwert von den niedrigen, nicht das Nutzungsvolumen an sich.

Doch Aufsichtsräte und CEOs nehmen diese Nuance nicht wahr. Sie empfinden Dringlichkeit – und diese Dringlichkeit schlägt in Forderungen nach sichtbarem Nachweis der Einführung um, was wiederum Abteilungsleiter unter Zugzwang bringt. Wenn der tatsächliche Einfluss von KI nicht messbar ist, wird die nächstmögliche Größe gemessen: Aktivität. Das Dashboard entsteht.

Yakov Filippenko, CEO der beruflichen Netzwerkplattform Intch, zieht den Vergleich zu den Rückkehr-ins-Büro-Vorgaben. Unternehmen holten die Leute teils deshalb zurück, weil Aktionäre über teure, leerstehende Büros verfügten, so seine Argumentation.

Jetzt werden Tokens verbrannt, um Investoren zu zeigen, dass man die KI-Revolution nicht verpasst. In beiden Fällen führt ein legitimer Druck – Transparenz für Aktionäre, Wettbewerbspositionierung – zu Messgrößen, die für die Optik statt für den Geschäftsbetrieb gewählt werden.

Meta-CTO Andrew Bosworth brachte diese Logik offen zum Ausdruck, als er seinen besten Ingenieur öffentlich so lobte: Der gebe das Gegenwert seines Gehalts für KI-Tokens aus und sei „5- bis 10-mal produktiver“ dadurch. „Das ist wie leicht verdientes Geld. Mach weiter so. Kein Limit.“

Die Darstellung von Tokenverbrauch als Produktivitätssignal aus dem Munde einer Führungskraft eines der weltweit einflussreichsten Technologieunternehmen ist kein Einzelfall. Sie steht symptomatisch für eine tiefergehende Unfähigkeit, Korrelation und Kausalität zu trennen. Der Spitzenkönner nutzt zufällig viele Tokens, also erscheint Tokenverbrauch als Ursache von Leistung statt als deren Nebenprodukt.

Der Fehler potenziert sich schnell. Führungskräfte, die diese Argumentation von oben erleben, benötigen keine formale Rangliste, um die Botschaft zu verinnerlichen. Das Verhalten folgt dem Signal, selbst wenn niemand dieses Signal senden wollte.

Was es kostet

Nutzungs-Dashboards waren bereits vor der Manipulation keine verlässliche Messgröße für KI-Produktivität.

Yasser Drif, Gründer von Roman AI, teilte aus seiner Kundenbasis stammende Daten, die zeigen, dass die Kluft zwischen Aktivität und Output größer ist, als viele Organisationen annehmen. Nur etwa 24 % aller von Menschen initiierten KI-Läufe liefern ein brauchbares Ergebnis. Der Rest besteht aus Iteration und unfertiger Arbeit, die durch Volumenmessung zur scheinbaren Produktivität aufgebläht werden. Das ist die Ausgangslage. Tokenmaxxing verschärft das Problem zusätzlich.

Die erste Kostenart ist die Signalverzerrung. Sobald die Nutzung zum wichtigsten Messwert wird, wird Nutzungsdaten nicht mehr vertraut. Man kann nicht mehr erkennen, wer die meiste KI verwendet und daraus verlässlich Rückschlüsse darüber ziehen, wer leistet, lernt oder Wert schafft.

Die Daten wurden manipuliert, und es ist nicht immer ersichtlich, von wem. Jegliche Workforce Analytics, die darauf aufbauen, übernehmen diese Verunreinigung.

Die zweite Kostenart sitzt tiefer. Wenn Mitarbeitende darauf optimieren, KI-Kompetenz nach außen erscheinen zu lassen, statt sie tatsächlich zu entwickeln, kehrt sich die eigentlich notwendige Lernatmosphäre ins Gegensätzliche um. Echte Entwicklung von KI-Fähigkeiten erfordert Experimentieren (auch gescheiterte Experimente) und ehrliche Berichte über das, was funktioniert hat.

Eine Tokenmaxxing-Kultur setzt die Belegschaft unter Druck, öffentlich Kompetenz zu demonstrieren, während ehrliche Berichterstattung als riskant empfunden wird. Das sind unvereinbare Zustände.

Die dritte Kostenart betrifft die Mitarbeitenden, die sich an nichts beteiligen. In einem Umfeld, in dem Tokenverbrauch sichtbar und gewürdigt wird, fühlt sich die Person, die sorgfältig abgegrenzte KI-Arbeit mit starken Ergebnissen, aber ohne spektakuläre Zahlen leistet, bald ins Hintertreffen geraten.

Dieses Gefühl lässt sich nicht einfach durch Zuspruch ausräumen. Der schnellste Weg, um echte KI-Kompetenzentwicklung unsicher erscheinen zu lassen, ist, Menschen, die ihre Zahlen nicht künstlich aufblasen, glauben zu lassen, sie würden bei einem Wettrennen verlieren, dessen Regeln sie nicht verstehen.

Amazon hat auf das von ihnen geschaffene Problem reagiert, indem die teamweite Sichtbarkeit von Nutzungsstatistiken eingeschränkt wurde, sodass nur die jeweilige Person und ihre direkten Vorgesetzten Zugriff darauf haben. Das ist eine Korrekturmaßnahme. Prävention erfordert schon früher im Prozess ein anderes Vorgehen.

Wie lässt sich das verhindern?

Die praktische Frage für einen CHRO oder COO ist: Wo startet man? „Ergebnisse messen, nicht Inputs“ ist zwar richtig, sagt aber niemandem, was montagmorgens konkret zu ändern ist.

Beginnen Sie mit einer Überprüfung dessen, was aktuell nachverfolgt wird und wer Einblick darauf hat. Filippenko markiert jeglichen KI-Einführungs-KPI, der direkt mit der Vergütung verknüpft ist, als sofortige rote Flagge.

Das entspricht in etwa dem, die Leistung eines Anwalts nach der Anzahl der von ihm ausgedruckten Seiten zu messen oder die Effizienz eines Entwicklers an der Zahl der geschriebenen Codezeilen zu bemessen.

Yakov Filippenko

Gründer und CEO von Intch

Yasser Drif, dessen Unternehmen Roman AI KI-Tools baut, die in Organisationen eingesetzt werden, bietet einen praktikablen Ansatzpunkt.

Ziehen Sie 30 Tage Nutzungsdaten heran, sortieren Sie nach Ausgaben und fragen Sie, was tatsächlich ausgeliefert wurde. Kann die Person Ihnen ein Ergebnis vorzeigen?

Yasser Drif

Gründer von Roman AI

Die Warnsignale, auf die sein Team achtet, umfassen unter anderem Nutzer mit hohen Ausgaben, denen kein Lieferergebnis zugeordnet werden kann, Run-Inflation, bei der eine Aufgabe zehn oder mehr KI-Interaktionen ohne Statusänderung ansammelt, sowie einen einzelnen KI-Champion, der einen unverhältnismäßig großen Anteil der Nutzungsguthaben verbraucht, aber wenig Fertiges liefert. Falls Ihre Dashboards die Frage „Was wurde ausgeliefert?“ nicht beantworten können, ist dies das erste Problem, das zu beheben ist.

Wenn Ihr Unternehmen KI-Nutzungs-Dashboards mit Sichtbarkeit über mehrere Mitarbeitende hinweg hat oder wenn das Nutzungsvolumen irgendwo in Leistungsbeurteilungen, Zielvereinbarungen oder Reportingprozessen auftaucht, sind das die Bereiche, in denen Tokenmaxxing-Risiko besteht. Die Frage ist nicht, ob Daten erhoben werden — sondern ob sie auf eine Weise sichtbar sind, die Wettbewerb um Masse statt Qualität auslöst.

Ergebnisbasierte KI-Messungen sehen je nach Funktion unterschiedlich aus. Im Verkauf könnte es darum gehen, ob KI-gestützte Ansprache die Abschlussraten verbessert hat, nicht wie viele Prompts ein Mitarbeiter geschickt hat. Im operativen Bereich kann eine Verkürzung von Durchlaufzeiten oder eine geringere Fehlerquote bei KI-unterstützten Prozessen gemessen werden, nicht System-Log-Auswertungen.

Das Prinzip dahinter ist überall gleich: Es wird gemessen, was sich durch die KI-Nutzung tatsächlich verändert hat – nicht deren bloße Nutzung. Dafür müssen Fachbereichsverantwortliche und HR gemeinsam entscheiden, wie „besser“ eigentlich aussieht, bevor Messrahmen geschaffen werden, nicht danach.

Welche Botschaft senden Sie aus?

Führungskommunikation muss neben den Kennzahlen ebenfalls neu kalibriert werden. Wenn Mitarbeitende nur Botschaften über KI hören, die sich auf Einführungsraten und Nutzungsmeilensteine beziehen, ist das implizite Signal, dass ausschließlich der Konsum beobachtet wird.

Führungskräfte, die echte KI-Fähigkeiten entwickeln wollen, müssen über konkrete Ergebnisse sprechen: darüber, wie KI die Arbeitsweise eines Teams verändert hat, was ein bestimmtes Experiment der Organisation vermittelt hat, wo eine Einführung gescheitert ist und was das offenbart hat. Solche Geschichten signalisieren, dass die Organisation Lernen schätzt, nicht nur das Vormachen von Lernen.

Eine Kurskorrektur in einem Team, in dem Tokenmaxxing bereits vorhanden ist, erfordert Fingerspitzengefühl. Mitarbeitende, die eine Kennzahl "ausgetrickst" haben, reagierten meist auf ein Signal, das die Führung selbst ausgesendet hat. Wenn dies als individuelles Fehlverhalten behandelt wird, übersieht man das und kreiert genau die Bedingungen, die ehrliches Melden unsicher machen.

"Wenn Ihre Mitarbeitenden bereit sind, sinnlose Arbeit zu verrichten, nur um ein Kästchen zu markieren, dann ist das kein Kennzahlenproblem", sagt Filippenko. "Das ist operativer Verfall."

Es zu beheben bedeutet, dass die Führung das eigene Signal anerkennt, bevor sie die Menschen bittet, ihr Verhalten zu ändern.

Der produktivere Ansatz für Führungskräfte ist, die Erwartungen neu zu definieren, worauf es der Organisation wirklich ankommt, und den Mitarbeitenden dann einen Weg zu geben, echte Fähigkeiten zu zeigen. Das heißt: sichtbare Beispiele für erfolgsorientiertes Arbeiten anerkennen – und nicht nur die alte Kennzahl abschaffen.

Drifs empfohlene Maßnahme ist direkt und bedenkenswert: Die Kennzahl öffentlich umbenennen, von „KI-Nutzung“ zu „mit KI erledigte Arbeit“. Schon die Umbenennung signalisiert, was die Organisation wirklich wertschätzt, ohne dass jemand für das Verhalten, das die alte Kennzahl erzeugt hat, herausgegriffen werden muss.

Umgang mit Ungewissheit

Die tiefere Disziplin hier ist Geduld mit Ungewissheit. Die meisten Organisationen sind noch nicht in der Lage, den Beitrag von KI zu Geschäftsergebnissen präzise zu messen, und der Druck, bis dahin irgendetwas vorweisen zu können, ist groß. Dashboards und Bestenlisten füllen dieses Vakuum, weil sie Zahlen produzieren – und Zahlen fühlen sich wie Verantwortlichkeit an.

Das Problem ist, dass sie Verantwortlichkeit für das Falsche erzeugen. Systeme zu schaffen, die Menschen an Ergebnissen messen, dauert länger, erfordert mehr funktionsübergreifende Entwicklungsarbeit – und ist der einzige Weg, die Daten nicht zu verfälschen, die Sie später nutzen müssen, um bessere Entscheidungen zu treffen.

Tokenmaxxing ist ein Frühwarnsignal, kein Endpunkt. Behandeln Sie es als wichtiges kulturelles Signal – dann bekommen Sie später deutlich sauberere Leistungsdaten und eine nachhaltigere KI-Einführung.

Verliere nicht den Faden: Wie man verhindert, dass KI-Nutzung zum Leistungsindikator wird

Lesen Sie weiter – und führen Sie weiterhin intelligenter

Warum Messungen schiefgehen

Was es kostet

Wie lässt sich das verhindern?

More Articles

Welche Botschaft senden Sie aus?

Umgang mit Ungewissheit

Lesen Sie weiter – und führen Sie weiterhin intelligenter

Warum Messungen schiefgehen

Was es kostet

Wie lässt sich das verhindern?

More Articles

Welche Botschaft senden Sie aus?

Umgang mit Ungewissheit

Das Wasser wird wärmer. Ihre besten Mitarbeitenden spüren es.

Jemand muss die Bots führen

Ihre Kulturstrategie wurde nicht für stetigen Wandel entwickelt