Problema Tokenmaxxing: I dipendenti manipolano le metriche di utilizzo dei token IA invece di concentrarsi sulla produttività reale.
Difetti delle misurazioni: Le attuali modalità di valutazione privilegiano l'attività IA rispetto ai risultati concreti, portando a indicatori di performance fuorvianti.
Rischi di corruzione: Affidarsi ai dati di utilizzo ne compromette l'affidabilità, rendendo difficile valutare la reale performance dei dipendenti.
Strategie di prevenzione: Le organizzazioni dovrebbero passare a metriche IA basate sui risultati, dando priorità alla qualità rispetto alla quantità nella performance.
Comunicazione della leadership: Una leadership efficace deve dare priorità agli apprendimenti nelle discussioni sull'IA, per favorire uno sviluppo reale delle competenze.
All'inizio di aprile 2026, una dashboard interna trapelata da Meta ha rivelato che l'azienda stava classificando i suoi circa 85.000 dipendenti in base al consumo di token AI.
I token sono le unità di dati che i modelli AI processano, e qualcuno in Meta ha deciso che contarli fosse un modo utile per monitorare chi stesse effettivamente usando l’AI. L’utente più attivo aveva bruciato 281 miliardi di token in un solo mese. Il consumo totale registrato sulla dashboard aveva superato i 60 trilioni di token prima che fosse rimossa.
Poco dopo, il Financial Times ha riportato un modello parallelo in Amazon. I dipendenti stavano automatizzando compiti non necessari appositamente per gonfiare i numeri dell’uso dell’AI, creando artificialmente l’apparenza di coinvolgimento nell’iniziativa AI dell’azienda.
Questo comportamento ha poi preso il nome di “tokenmaxxing”, preso dallo slang Gen Z per massimizzare qualcosa, che in questo caso è la performance visibile dell’uso di AI piuttosto che ciò che l’utilizzo dell’AI dovrebbe realmente produrre.
Due delle aziende più grandi al mondo, la stessa dinamica e un nome che suggerisce che si stia diffondendo.
Il tokenmaxxing non è tanto un problema tecnologico quanto un problema di gestione delle performance e di cultura aziendale, e porta le impronte della funzione HR e delle operazioni, sia che siano state presenti o meno quando sono state prese le decisioni originali che ora lo stanno creando.
Qualcuno ha impostato l’incentivo. Qualcuno ha creato o tollerato la classifica. Qualcuno ha deciso che il consumo fosse un ragionevole indicatore delle capacità. Questo articolo vuole comprendere come accade tutto ciò e cosa fare prima che succeda.
Perché la misurazione va storta
Le organizzazioni generalmente non intendono costruire una cultura delle classifiche. Il tokenmaxxing emerge nello spazio tra ciò che le aziende realmente vogliono ottenere dall’AI e ciò che sono attualmente in grado di misurare.
Un sondaggio Gallup di febbraio 2026 (link) su oltre 23.000 lavoratori statunitensi ha rilevato che metà degli adulti impiegati utilizza l’AI almeno alcune volte all’anno e che i dipendenti all’interno di organizzazioni che adottano l’AI riportano più sconvolgimenti e ansia per il personale rispetto a quelli di organizzazioni che ancora non l’hanno adottata.
Nel frattempo, i dati Gartner mostrano che solo un investimento AI su 50 porta a valore trasformativo, e solo uno su cinque offre un ritorno misurabile. Lo studio State of AI 2025 di McKinsey ha scoperto che la maggior parte delle organizzazioni è ancora nelle fasi iniziali della creazione di valore a livello aziendale, nonostante l’adozione accelerata.
Secondo McKinsey, ciò che separa i risultati di maggiore valore da quelli inferiori è la riprojettazione dei flussi di lavoro e la governance, non semplicemente il volume di utilizzo.
Ma i consigli di amministrazione e i CEO non percepiscono questa sfumatura. Sentono invece urgenza, e questa urgenza si trasforma in richiesta di prove tangibili di adozione, che a loro volta diventano responsabilità dei manager intermedi di avere qualcosa da mostrare. Quando non riesci a misurare se l’AI stia davvero migliorando i risultati, misuri la cosa più vicina, ovvero l’attività. Ed ecco che nasce la dashboard.
Yakov Filippenko, CEO della piattaforma di networking professionale Intch, traccia un parallelo con i mandati di ritorno in ufficio. Secondo lui, le aziende hanno riportato i dipendenti in sede in parte perché gli azionisti possedevano edifici costosi ma vuoti.
Ora le organizzazioni bruciano token per dimostrare agli investitori di non perdere la rivoluzione AI. In entrambi i casi, una reale pressione sottostante — visibilità agli azionisti, posizionamento competitivo — ha prodotto una misurazione che serve più l’immagine che le operazioni.
Il CTO di Meta Andrew Bosworth ha reso esplicita questa logica, descrivendo pubblicamente il suo miglior ingegnere come una persona che spendeva in token AI l’equivalente del suo stipendio e che era "5x o 10x più produttivo" di conseguenza. "È come se fossero soldi facili. Continuate così. Nessun limite."
Questa impostazione della spesa in token come segnale di produttività, proveniente da uno dei massimi leader tecnologici di una delle aziende più influenti al mondo, non è un’opinione isolata. Riflette una più ampia incapacità di distinguere tra correlazione e causalità. L’alto performer usa molti token, e così i token iniziano a sembrare la causa della performance elevata anziché un suo effetto collaterale.
L’errore si aggrava rapidamente. I manager che vedono questa impostazione promossa dall’alto non hanno bisogno di una classifica formale per interiorizzare il messaggio. Il comportamento segue il segnale, anche quando nessuno aveva intenzione di darlo.
Quali sono i costi
Le dashboard di utilizzo erano già una misura inaffidabile della produttività tramite AI prima ancora che venissero manipolate.
Yasser Drif, fondatore di Roman AI, ha condiviso dati tratti dalla sua base clienti che suggeriscono che la distanza tra attività e risultato è più ampia di quanto la maggior parte delle organizzazioni supponga. Solo circa il 24% delle esecuzioni AI avviate da persone produce un risultato utile. Il resto è iterazione e lavoro in corso che le metriche di volume gonfiano fino a farle sembrare produttività. Questo è il punto di partenza. Il tokenmaxxing lo peggiora.
Il primo costo è la corruzione del segnale. Una volta che l’utilizzo diventa la metrica di riferimento, i dati di utilizzo diventano inaffidabili. Non è più possibile osservare chi utilizza maggiormente l’IA e trarre conclusioni attendibili su chi sta performando, imparando o generando valore.
I dati sono stati manipolati, e non sempre saprai da chi. Qualsiasi strumento di analisi della forza lavoro costruito su questi dati eredita quella contaminazione.
Il secondo costo è ancora più profondo. Quando i dipendenti si concentrano sull’apparenza della padronanza dell’IA invece che sul suo reale sviluppo, si sono invertite le condizioni di apprendimento necessarie. Lo sviluppo autentico delle competenze IA richiede sperimentazione, inclusi fallimenti, e un resoconto sincero su ciò che ha funzionato.
Una cultura del "massimizzare i token" crea pressione per mostrare competenza pubblicamente, mentre rende rischioso riferire onestamente i risultati. Queste sono condizioni incompatibili.
Il terzo costo riguarda ciò che accade ai dipendenti che non cercano di manipolare nulla. In un ambiente in cui il consumo di token è visibile e valorizzato, chi svolge un lavoro di IA accurato e ben circoscritto, che produce risultati forti ma non genera numeri impressionanti, inizia a sentirsi in svantaggio.
Quella sensazione non si corregge rassicurando. Il modo più rapido per far sentire non sicuro lo sviluppo autentico delle competenze IA è far credere a chi non gonfia i numeri di star perdendo una gara che non comprendono.
Amazon, a suo merito, ha risposto al problema che aveva creato limitando la visibilità dei dati di utilizzo all’intera squadra, così che solo il singolo individuo e il proprio manager diretto potessero vederli. Questa è una misura correttiva. La prevenzione richiede un’azione di tipo diverso e più precoce nel processo.
Come prevenirlo
La domanda pratica per un CHRO o un COO è da dove iniziare. "Misura i risultati, non gli input" è vero ma non dice a nessuno cosa cambiare dal lunedì mattina.
Inizia con una verifica di ciò che attualmente viene monitorato e di chi ne ha visibilità. Filippenko segnala che qualsiasi KPI di adozione IA direttamente collegato alla retribuzione è un immediato campanello d’allarme.
Questo equivale a valutare la performance di un avvocato dal numero di pagine stampate, o l’efficienza di uno sviluppatore dalle linee di codice scritte.
Yasser Drif, la cui azienda Roman AI costruisce strumenti IA distribuiti nelle organizzazioni, propone un approccio concreto per cominciare.
Estrai 30 giorni di dati di utilizzo, ordina per spesa e chiedi cosa è stato effettivamente consegnato. La persona può mostrare un artefatto?
I segnali di allarme che il suo team osserva includono utenti ad alta spesa senza alcun deliverable associato, inflazione delle esecuzioni dove un’attività accumula dieci o più interazioni con l’IA senza cambiamento di stato, e un singolo campione IA che consuma una quota sproporzionata di crediti d’uso producendo però poco lavoro completato. Se i tuoi cruscotti non rispondono alla domanda "cosa è stato consegnato", questo è il primo problema da risolvere.
Se nella tua organizzazione esistono dashboard di utilizzo IA accessibili a più dipendenti, o se il volume di utilizzo compare in una revisione delle prestazioni, un ciclo di definizione degli obiettivi o nei report dei manager, quelli sono i punti in cui il rischio di tokenmaxxing è reale. La questione non è se i dati vengono raccolti — è se sono visibili in modo da creare pressione competitiva sulla quantità invece che sulla qualità.
La valutazione dell’IA basata sui risultati assume aspetti diversi a seconda della funzione. Nel contesto commerciale, può monitorare se un’attività di outreach assistita dall’IA ha migliorato i tassi di conversione, non quanti prompt sono stati inviati da un commerciale. Nelle operations, può monitorare la riduzione dei tempi di ciclo o il tasso di errore nei processi supportati dall’IA, non i log di utilizzo del sistema.
Il principio di progettazione è lo stesso per tutte le funzioni. Misura ciò che cambia a valle dell’uso dell’IA, non l’uso in sé. Questo richiede che i responsabili di funzione e le risorse umane collaborino su quale sia il vero "meglio" prima di costruire i framework di misurazione, non dopo.
More Articles
Che messaggio stai trasmettendo?
La comunicazione della leadership ha bisogno di una ricalibrazione insieme ai parametri. Se gli unici messaggi che i dipendenti sentono sull’IA riguardano i tassi di adozione e le tappe sull’utilizzo, il segnale implicito è che ciò che viene monitorato è il consumo.
I leader che vogliono sviluppare una reale capacità sull’intelligenza artificiale devono parlare di risultati specifici, di come l’IA abbia cambiato il modo in cui un team lavora, di cosa ha insegnato all’organizzazione un determinato esperimento, di dove un’implementazione è fallita e cosa ha rivelato. Questo tipo di narrazione segnala che l’organizzazione valorizza l’apprendimento, non la semplice esibizione dell’apprendimento.
Correggere la rotta in un team dove il tokenmaxxing è già presente richiede attenzione. I dipendenti che hanno "giocato" con un parametro stavano solitamente rispondendo a un segnale creato dalla leadership. Trattarlo come un problema di condotta individuale ignora questo aspetto e crea esattamente le condizioni che fanno sentire insicuro il reporting onesto.
Quando i tuoi dipendenti sono disposti a fare un lavoro inutile solo per spuntare una casella, questo non è un problema di metrica,” dice Filippenko. "Questa è corruzione operativa."
Risolvere il problema significa che la leadership riconosca il segnale che ha inviato prima di chiedere alle persone di cambiare comportamento.
La visione più produttiva per i manager è quella di ridefinire le aspettative su ciò che veramente interessa all’organizzazione e poi offrire alle persone un percorso per dimostrare una reale capacità. Questo significa esempi concreti di successi basati sui risultati che vengono riconosciuti, non solo la semplice eliminazione della vecchia metrica.
L’intervento suggerito da Drif è diretto e degno di considerazione: rinominare pubblicamente la metrica, da "utilizzo dell’IA" a "lavoro completato con l’IA". Il cambio di nome stesso invia il segnale su cosa l’organizzazione realmente valorizza, senza dover individuare nessuno per il comportamento generato dalla vecchia metrica.
Navigare l’Ambiguità
La vera disciplina qui è la pazienza nell’affrontare l’ambiguità. La maggior parte delle organizzazioni non è ancora in grado di misurare con precisione il contributo dell’IA ai risultati aziendali, e la pressione di mostrare comunque qualcosa è reale. Cruscotti e classifiche riempiono quel vuoto perché producono numeri, e i numeri danno la sensazione di responsabilità.
Il problema è che la responsabilità che producono riguarda la cosa sbagliata. Costruire sistemi di misurazione che rendano le persone responsabili dei risultati richiede più tempo e maggior lavoro di progettazione interdisciplinare ed è l’unico approccio che non inquina i dati che alla fine serviranno per prendere decisioni migliori.
Il tokenmaxxing è un segnale precoce, non un punto di arrivo. Trattalo come un segnale culturale da prendere sul serio ora, e in futuro avrai dati sulle performance molto più puliti e un’adozione dell’IA molto più sana.
