Tokenmaxxing-Problematik: Mitarbeiter manipulieren KI-Token-Nutzungsmetriken, anstatt sich auf die tatsächliche Produktivität zu konzentrieren.
Mängel der Messung: Aktuelle Bewertungsmethoden priorisieren KI-Aktivitäten statt sinnvolle Ergebnisse und führen so zu irreführenden Leistungsindikatoren.
Korruptionsrisiken: Die Abhängigkeit von Nutzungsdaten beeinträchtigt deren Zuverlässigkeit und erschwert die Bewertung echter Mitarbeiterleistungen.
Präventionsstrategien: Organisationen sollten zu ergebnisorientierten KI-Kennzahlen wechseln und die Qualität statt Quantität in der Leistung betonen.
Kommunikation durch Führung: Wirksame Führung muss Lernergebnisse bei KI-Themen priorisieren, um echte Kompetenzentwicklung zu fördern.
Anfang April 2026 zeigte ein durchgesickertes internes Dashboard von Meta, dass das Unternehmen seine rund 85.000 Mitarbeitenden nach ihrem KI-Token-Verbrauch einstufte.
Tokens sind die Dateneinheiten, die KI-Modelle verarbeiten, und jemand bei Meta entschied, dass deren Zählung eine sinnvolle Möglichkeit sei, um zu verfolgen, wer tatsächlich KI nutzt. Der Top-Nutzer hatte in einem einzigen Monat 281 Milliarden Tokens verbraucht. Die gesamte auf dem Dashboard erfasste Nutzung überschritt 60 Billionen Tokens, bevor es abgeschaltet wurde.
Kurz darauf berichtete die Financial Times von einem ähnlichen Muster bei Amazon. Mitarbeitende automatisierten unnötige Aufgaben gezielt, um ihre KI-Nutzungszahlen künstlich in die Höhe zu treiben und so den Anschein von Engagement im Rahmen der KI-Offensive des Unternehmens zu erwecken.
Dieses Verhalten wird mittlerweile „Tokenmaxxing“ genannt – ein Begriff aus dem Gen Z-Slang für das Maximieren von etwas. In diesem Fall geht es darum, die sichtbare Leistung durch KI-Nutzung zu maximieren – und nicht das, was die KI-Nutzung eigentlich liefern soll.
Zwei der weltweit größten Unternehmen, die gleiche Dynamik – und eine Bezeichnung, die darauf hindeutet, dass sie sich ausbreitet.
Tokenmaxxing ist weniger ein Technologieproblem als ein Problem des Leistungsmanagements und der Unternehmenskultur. Die Spuren führen zu HR und Operations – unabhängig davon, ob HR während der ursprünglichen Entscheidungen anwesend war, die diese Dynamik ausgelöst haben.
Jemand hat den Anreiz gesetzt. Jemand hat das Leaderboard gebaut oder zumindest geduldet. Jemand ist zu dem Schluss gekommen, dass Verbrauch ein sinnvoller Ersatz für Kompetenz ist. Dieser Artikel soll erklären, wie es dazu kommt – und was zu tun ist, bevor es so weit ist.
Warum Messung schiefgeht
Organisationen beabsichtigen in der Regel nicht, eine Leaderboard-Kultur zu schaffen. Tokenmaxxing entsteht in der Lücke zwischen dem, was Unternehmen sich von KI wirklich erhoffen und dem, was sie derzeit messen können.
Eine Gallup-Umfrage vom Februar 2026 (Link) unter mehr als 23.000 US-Beschäftigten ergab, dass die Hälfte der arbeitenden Erwachsenen mindestens ein paar Mal pro Jahr KI nutzt und Mitarbeitende in KI-adoptierenden Unternehmen mehr Umbruch und Personalverunsicherung erleben als jene in Unternehmen ohne KI.
Gartner-Daten zeigen inzwischen, dass nur eine von 50 KI-Investitionen einen transformativen Nutzen erbringt und nur jede fünfte einen messbaren ROI liefert. Laut McKinseys State of AI 2025 befinden sich die meisten Organisationen trotz rascher Einführung immer noch in der Anfangsphase, was das Ausschöpfen des unternehmensweiten Mehrwerts angeht.
Laut McKinsey sind Workflow-Redesign und Governance die entscheidenden Unterschiede zwischen Ergebnissen mit hohem oder geringem Mehrwert – nicht das reine Nutzungsvolumen.
Aber Aufsichtsräte und CEOs nehmen diese Nuancen nicht wahr. Sie spüren Dringlichkeit, und diese Dringlichkeit schlägt sich nieder in Forderungen nach sichtbarem Nachweis für Adoption – die wiederum bei Führungskräften der mittleren Ebene nach etwas Vorzeigbarem suchen lassen. Wenn sich nicht messen lässt, ob KI Ergebnisse verbessert, misst man das nächstnaheliegende: Aktivität. Enter the Dashboard.
Yakov Filippenko, CEO des professionellen Netzwerks Intch, zieht die Parallele zur Rückkehrpflicht ins Büro: Unternehmen hätten Beschäftigte auch deshalb zurückgeholt, weil die Aktionäre im Besitz teurer, leerstehender Gebäude seien, argumentiert er.
Jetzt verbrennen Unternehmen Tokens, um Investoren zu zeigen, dass sie den KI-Zug nicht verpassen. In beiden Fällen wird ein legitimer, zugrundeliegender Druck – Aktionärstransparenz, Wettbewerbsvorteil – durch eine Messgröße befriedigt, die für das Erscheinungsbild statt für den operativen Nutzen taugt.
Meta-CTO Andrew Bosworth brachte diese Logik offen zur Sprache, als er öffentlich seinen besten Ingenieur dafür lobte, ein Äquivalent seines Gehalts in KI-Tokens auszugeben und dadurch „5x bis 10x produktiver“ zu sein. „Es ist, als ob das leicht verdientes Geld wäre. Einfach weitermachen. Kein Limit.“
Die Darstellung von Token-Ausgaben als Produktivitätsanzeichen aus dem Mund eines führenden Tech-Managers eines der einflussreichsten Unternehmen spiegelt keine Einzelmeinung wider. Sie steht symptomatisch für ein allgemeines Unvermögen, Korrelation und Kausalität zu unterscheiden. Die Spitzenkraft verbraucht viele Tokens, also scheinen diese der Ausweis der hohen Leistung zu sein – statt ein Nebenprodukt davon.
Der Irrtum potenziert sich rasch: Führungskräfte, die diese Sichtweise von oben übernommen sehen, brauchen kein formales Leaderboard, um die Botschaft zu verinnerlichen. Das Verhalten folgt dem Signal – selbst wenn niemand beabsichtigt hat, das Signal zu senden.
Was es kostet
Dashboards zum Nutzungsverhalten waren bereits zuvor ein unzuverlässiges Maß für die KI-Produktivität, noch bevor jemand begann, sie systematisch zu manipulieren.
Yasser Drif, Gründer von Roman AI, berichtete, dass bei seinen Kunden der Abstand zwischen Aktivität und Output größer ist, als viele Unternehmen annehmen. Nur etwa 24 % der menschlich angestoßenen KI-Läufe erzeugen ein nutzbares Ergebnis. Der Rest besteht aus Iteration und unfertiger Arbeit, die sich in den Volumenmetriken als Produktivitätseintrug auftürmen. Das ist der Ausgangszustand. Tokenmaxxing verschärft das Problem weiter.
Die erste Folge ist die Verfälschung von Signalen. Sobald die Nutzung zum Maßstab wird, sind Nutzungsdaten nicht mehr vertrauenswürdig. Man kann nicht mehr zuverlässig erkennen, wer KI am meisten nutzt und daraus Rückschlüsse darauf ziehen, wer am leistungsfähigsten ist, lernt oder Wert schafft.
Die Daten wurden manipuliert – und Sie wissen nicht immer, von wem. Jede Workforce-Analytics-Lösung, die darauf aufbaut, übernimmt diese Verunreinigung.
Die zweite Folge reicht tiefer. Wenn Beschäftigte darauf optimieren, KI-Kompetenz nur vorzutäuschen, anstatt sie tatsächlich zu entwickeln, kehren Sie die notwendigen Lernbedingungen um. Wahrer Kompetenzaufbau für KI erfordert Experimentieren – auch mit scheiternden Tests – und ehrliche Berichte darüber, was funktioniert hat und was nicht.
Eine Tokenmaxxing-Kultur erzeugt Druck, Kompetenz nach außen zu demonstrieren, während ehrliche Berichterstattung riskant erscheint. Diese Bedingungen schließen einander aus.
Die dritte Folge betrifft diejenigen Mitarbeitenden, die überhaupt nichts manipulieren. In einem Umfeld, in dem Tokenverbrauch sichtbar ist und Anerkennung findet, fühlt sich die Person, die sorgfältige, klar abgegrenzte KI-Arbeit leistet, die starke Ergebnisse bringt, aber keine auffälligen Nutzungszahlen generiert, plötzlich abgehängt.
Dieses Gefühl lässt sich nicht durch Zusicherungen korrigieren. Die schnellste Methode, echten Kompetenzaufbau in KI unsicher wirken zu lassen, ist, Menschen glauben zu lassen, die ihre Zahlen nicht künstlich aufblähen, sie würden einen Wettlauf verlieren, dessen Regeln sie nicht kennen.
Amazon hat das von ihm verursachte Problem immerhin anerkannt und darauf reagiert, indem die teamweite Sichtbarkeit der Nutzungsstatistiken eingeschränkt wurde: Nur Einzelpersonen und ihre direkten Vorgesetzten konnten sie einsehen. Das ist eine korrigierende Maßnahme. Prävention wiederum erfordert eine andere, frühere Intervention.
Wie man das verhindert
Die praktische Frage für eine CHRO oder COO lautet: Wo anfangen? „Ergebnisse, nicht Inputs messen“ klingt zwar richtig, sagt aber niemandem, was er am Montagmorgen konkret ändern soll.
Beginnen Sie mit einer Überprüfung dessen, was aktuell getrackt wird und wer es sieht. Filippenko sieht jede KPI zur KI-Einführung, die direkt an Vergütung gekoppelt ist, sofort als Warnsignal.
Das ist vergleichbar damit, die Leistung eines Anwalts an der Anzahl der ausgedruckten Seiten zu messen oder die Effizienz eines Entwicklers an der Zahl der geschriebenen Codezeilen.
Yasser Drif, dessen Unternehmen Roman AI KI-Tools für Organisationen baut, empfiehlt einen praktischen Startpunkt.
Ziehen Sie 30 Tage Nutzungsdaten, sortieren Sie nach Ausgaben und fragen Sie, was tatsächlich ausgeliefert wurde. Kann Ihnen die Person ein Ergebnis zeigen?
Warnzeichen, auf die sein Team achtet, sind z. B. hochpreisige Nutzer:innen ohne geliefertes Ergebnis, Run-Inflation, bei der eine Aufgabe zehn oder mehr KI-Interaktionen ohne Statusänderung anhäuft, oder wenn ein:e einzelne:r KI-Champion einen unverhältnismäßig großen Anteil an Nutzungscredits verbraucht, aber wenig fertige Arbeit produziert. Wenn Ihre Dashboards keine Antwort auf die Frage „Was wurde geliefert?“ geben können, ist das das erste Problem, das es zu beheben gilt.
Hat Ihre Organisation KI-Nutzungs-Dashboards mit teamübergreifender Sichtbarkeit oder taucht das Nutzungsvolumen irgendwo in Feedback-Gesprächen, Zieldefinitionen oder Berichten von Führungskräften auf, sind dies jene Bereiche, in denen das Risiko für Tokenmaxxing akut ist. Die Frage ist nicht, ob die Daten erhoben werden – sondern ob sie so sichtbar sind, dass Konkurrenzdruck auf das Volumen entsteht statt auf die Qualität.
Ergebnisorientierte KI-Messung sieht je nach Funktion unterschiedlich aus. Im Vertrieb könnte sie messen, ob KI-unterstützte Ansprache die Konversionsrate erhöht hat – nicht, wie viele Prompts ein:e Mitarbeitende:r gesendet hat. Im operativen Bereich kann beispielsweise die Zykluszeitverkürzung oder Fehlerrate von KI-gestützten Prozessen getrackt werden, nicht die Anzahl der Systemnutzungen.
Das Gestaltungsprinzip bleibt bei allen Bereichen identisch: Messen Sie, was sich nachgelagert durch den KI-Einsatz verändert hat – nicht den KI-Einsatz selbst. Dafür müssen Führungskräfte und HR gemeinsam festlegen, wie „besser“ konkret aussieht, bevor Messframeworks gebaut werden, nicht erst danach.
Welche Botschaft senden Sie eigentlich?
Kommunikation von Führungskräften muss ebenso wie die Kennzahlen neu ausgerichtet werden. Wenn Mitarbeitende nur Nachrichten über KI in Bezug auf Nutzungsraten und Meilensteine der Einführung hören, wird implizit vermittelt, dass der Konsum das Einzige ist, was beobachtet wird.
Führungskräfte, die eine echte Entwicklung von KI-Kompetenzen fördern wollen, müssen über konkrete Ergebnisse sprechen: Wo KI die Arbeitsweise eines Teams verändert hat, was ein bestimmtes Experiment der Organisation beigebracht hat, wo eine Einführung gescheitert ist und was daraus hervorging. Diese Art des Storytellings signalisiert, dass die Organisation Wert auf Lernen legt, nicht auf das bloße Darstellen von Lernfortschritten.
Eine Kurskorrektur in einem Team, in dem bereits Tokenmaxxing stattfindet, erfordert Fingerspitzengefühl. Mitarbeitende, die eine Kennzahl ausprobiert oder ausgereizt haben, reagierten meist auf ein Signal, das von der Führung ausgelöst wurde. Es als individuelles Fehlverhalten zu behandeln, ignoriert diesen Kontext und schafft genau die Bedingungen, bei denen ehrliches Reporting als unsicher empfunden wird.
Wenn Ihre Mitarbeitenden bereit sind, sinnlose Arbeit zu leisten, nur um ein Häkchen zu setzen, dann ist das kein Kennzahlen-Problem", sagt Filippenko. Das ist ein Anzeichen für organisatorischen Verfall.
Es zu beheben bedeutet, dass die Führung das eigene ausgesendete Signal anerkennt, bevor sie von den Menschen erwartet, ihr Verhalten zu ändern.
Der produktivere Ansatz für Führungskräfte ist, die Erwartungen daran zu justieren, worauf es der Organisation wirklich ankommt, und dann Wege zu schaffen, wie Menschen echte Fähigkeiten nachweisen können. Das bedeutet, sichtbare Beispiele von ergebnisorientiertem Erfolg zu würdigen, und nicht nur alte Kennzahlen zu entfernen.
Drifs vorgeschlagene Intervention ist unverblümt und bedenkenswert: die Kennzahl öffentlich umbenennen, von „KI-Nutzung“ zu „mit KI erledigte Arbeit“. Die Umbenennung selbst sendet das Signal, was der Organisation wirklich wichtig ist – ohne dass jemand für das Verhalten, das die alte Kennzahl gefördert hat, herausgegriffen werden muss.
Ambiguität meistern
Die tiefere Disziplin ist hierbei Geduld im Umgang mit Unklarheiten. Die meisten Organisationen sind noch nicht in der Lage, den Beitrag von KI zu Geschäftsergebnissen präzise zu messen, und der Druck, zwischenzeitlich etwas vorzeigen zu können, ist groß. Dashboards und Bestenlisten füllen dieses Vakuum, weil sie Zahlen liefern, und Zahlen vermitteln das Gefühl von Verantwortlichkeit.
Das Problem ist, dass sie Verantwortlichkeit für das Falsche erzeugen. Messsysteme zu entwickeln, die Menschen für Ergebnisse verantwortlich machen, dauert länger und erfordert mehr bereichsübergreifende Zusammenarbeit – und es ist der einzige Ansatz, der die Daten nicht korrumpiert, die Sie später brauchen, um bessere Entscheidungen zu treffen.
Tokenmaxxing ist ein Frühwarnsignal, kein Endpunkt. Behandeln Sie es als ein Kultursignal, das jetzt ernst genommen werden sollte, und Sie erhalten viel sauberere Leistungsdaten und eine gesündere KI-Akzeptanz in der Zukunft.
