Problema de Tokenmaxxing: Los empleados manipulan las métricas de uso de tokens de IA en lugar de centrarse en la productividad real.
Defectos en la medición: Los métodos actuales de evaluación priorizan la actividad con IA sobre los resultados significativos, lo que genera indicadores de rendimiento engañosos.
Riesgos de corrupción: Depender de los datos de uso compromete su fiabilidad, dificultando la evaluación real del desempeño de los empleados.
Estrategias de prevención: Las organizaciones deben cambiar a métricas de resultados en IA, priorizando la calidad sobre la cantidad en el rendimiento.
Comunicación de liderazgo: Un liderazgo efectivo debe priorizar los aprendizajes en las discusiones sobre IA para fomentar un desarrollo genuino de capacidades.
A principios de abril de 2026, un panel de control interno filtrado de Meta reveló que la empresa había estado clasificando a sus aproximadamente 85.000 empleados según su consumo de tokens de IA.
Los tokens son las unidades de datos que procesan los modelos de IA, y alguien en Meta decidió que contarlos era una forma útil de rastrear quién estaba realmente utilizando la IA. El usuario principal había consumido 281.000 millones de tokens en un solo mes. El uso total rastreado en el panel superaba los 60 billones de tokens antes de que fuera retirado.
Poco después, el Financial Times informó de un patrón paralelo en Amazon. Los empleados estaban automatizando tareas innecesarias específicamente para inflar sus cifras de uso de IA, fabricando la apariencia de compromiso con la apuesta por la IA de la empresa.
Desde entonces, este comportamiento ha recibido el nombre de “tokenmaxxing”, tomado de la jerga de la Generación Z para maximizar algo, que en este caso es el rendimiento visible del uso de la IA en lugar del resultado que se supone que debe producir el uso de la IA.
Dos de las mayores empresas del mundo, la misma dinámica y un nombre que sugiere que se está extendiendo.
El tokenmaxxing no es tanto un problema tecnológico como un problema de gestión del desempeño y cultura organizacional, y lleva las huellas de RR.HH. y operaciones, haya estado RR.HH. presente o no cuando se tomaron las decisiones originales que lo provocaron.
Alguien estableció el incentivo. Alguien construyó o permitió la tabla de posiciones. Alguien decidió que el consumo era un indicador razonable de capacidad. Este artículo trata sobre entender cómo ocurre eso y qué hacer antes de que pase.
Por qué falla la medición
Las organizaciones generalmente no parten de la intención de crear culturas de competencia por puestos en tablas de clasificación. El tokenmaxxing surge en el espacio entre lo que realmente quieren que entregue la IA y lo que actualmente pueden medir.
Una encuesta de Gallup de febrero de 2026 a más de 23.000 empleados en EE. UU. reveló que la mitad de los adultos empleados usan IA al menos algunas veces al año, y que los empleados en organizaciones que adoptan IA reportan más interrupciones y ansiedad laboral que aquellos en organizaciones que aún no la adoptan.
Mientras tanto, los datos de Gartner muestran que solo una de cada 50 inversiones en IA entrega valor transformador, y solo una de cada cinco proporciona algún retorno de inversión medible. El informe Estado de la IA 2025 de McKinsey descubrió que la mayoría de las organizaciones aún están en las primeras fases de capturar valor a nivel empresarial a pesar de la rápida adopción.
Según McKinsey, lo que separa los resultados de mayor valor de los de menor valor es el rediseño de flujos de trabajo y la gobernanza, no el volumen bruto de uso.
Pero los consejos y directores generales no sienten ese matiz. Sienten urgencia, y esa urgencia se convierte en demandas de pruebas visibles de adopción que terminan en los mandos intermedios buscando algo que mostrar. Cuando no puedes medir si la IA realmente está mejorando los resultados, mides lo más cercano: la actividad. Así aparece el panel.
Yakov Filippenko, CEO de la plataforma de networking profesional Intch, traza el paralelo con las órdenes de regreso a la oficina. Las empresas empujaron a los empleados de vuelta a las oficinas en parte porque los accionistas poseían edificios vacíos costosos, argumenta.
Ahora las organizaciones consumen tokens para demostrar a los inversores que no se están perdiendo la revolución de la IA. En ambos casos, una presión legítima de fondo —visibilidad para los accionistas, posicionamiento competitivo— produjo una métrica que sirve más para la imagen que para las operaciones.
El CTO de Meta, Andrew Bosworth, hizo explícita esta lógica, describiendo públicamente a su mejor ingeniero como alguien que gastaba el equivalente de su salario en tokens de IA y era "de 5 a 10 veces más productivo" como resultado. "Es como dinero fácil. Sigue así. Sin límite."
Ese enfoque de gastar tokens como señal de productividad, viniendo de un alto directivo tecnológico de una de las empresas más influyentes del mundo, no es una opinión aislada. Refleja un fracaso más amplio en distinguir entre correlación y causalidad. El alto rendimiento coincide con el uso intensivo de tokens, por lo que los tokens empiezan a parecer la causa del alto rendimiento en lugar de una consecuencia.
El error se agrava rápidamente. Los directivos que ven ese marco de referencia promovido desde arriba no necesitan una tabla de posiciones formal para interiorizar el mensaje. El comportamiento sigue la señal, incluso cuando nadie pretendía enviarla.
Lo que cuesta
Los paneles de control de uso ya eran una medida poco fiable de la productividad de la IA antes de que alguien empezara a manipularlos.
Yasser Drif, fundador de Roman AI, compartió datos obtenidos de su base de clientes que sugieren que la brecha entre la actividad y el resultado es mayor de lo que la mayoría de las organizaciones supone. Solo alrededor del 24% de las ejecuciones de IA iniciadas por humanos producen un resultado útil. El resto es iteración y trabajos en curso que las métricas de volumen inflan hasta parecer productividad. Ese es el punto de partida. El tokenmaxxing lo agrava todavía más.
El primer costo es la corrupción de señales. Una vez que el uso se convierte en la métrica, los datos de uso dejan de ser confiables. Ya no se puede observar quién consume más IA y sacar conclusiones confiables sobre quién está rindiendo, aprendiendo o aportando valor.
Los datos han sido manipulados, y no siempre sabrás por quién. Cualquier analítica de fuerza laboral construida sobre esos datos hereda esa contaminación.
El segundo costo es más profundo. Cuando los empleados optimizan para la apariencia de soltura en IA en vez de desarrollarla realmente, se invierten las condiciones de aprendizaje que realmente se necesitan. El desarrollo genuino de capacidades en IA requiere experimentación, incluidos los experimentos fallidos, y reportar con honestidad qué funcionó.
Una cultura de "tokenmaxxing" crea presión para aparentar competencia públicamente, mientras que el reporte honesto se vuelve riesgoso. Esas son condiciones incompatibles.
El tercer costo es lo que les sucede a los empleados que no están manipulando nada. En un entorno donde el consumo de tokens se ha vuelto visible y valorado, la persona que realiza un trabajo con IA cuidadoso y bien delimitado, que produce resultados sólidos pero no genera cifras llamativas, empieza a sentirse rezagada.
Esa sensación no se corrige con tranquilización. La forma más rápida de hacer que el desarrollo genuino de capacidades en IA se sienta inseguro es dejar que las personas que no infla sus números crean que están perdiendo una carrera que no comprenden.
Amazon, para su crédito, respondió al problema que creó restringiendo la visibilidad a nivel de equipo de las estadísticas de uso, para que solo los individuos y sus gerentes directos pudieran verlas. Eso es una medida correctiva. La prevención requiere otro tipo de acción, más temprano en el proceso.
Cómo prevenirlo
La pregunta práctica para un CHRO o COO es por dónde empezar. "Mide los resultados, no las entradas" es cierto pero no dice a nadie qué debe cambiarse el lunes por la mañana.
Comienza con una auditoría de lo que actualmente se rastrea y quién lo ve. Filippenko señala cualquier KPI de adopción de IA vinculado directamente a la compensación como una bandera roja inmediata.
Eso es equivalente a medir el desempeño de un abogado por el número de páginas que imprime, o la eficiencia de un desarrollador por líneas de código.
Yasser Drif, cuya empresa Roman AI construye herramientas de IA desplegadas en organizaciones, ofrece un punto de partida práctico.
Extrae 30 días de datos de uso, ordénalos por gasto y pregunta qué es lo que realmente se entregó. ¿Puede la persona mostrarte un artefacto?
Las señales de alerta que su equipo vigila incluyen usuarios con alto gasto sin entregable adjunto, inflación de ejecuciones donde una tarea acumula diez o más interacciones con IA sin cambio de estado, y un solo campeón de IA consumiendo una parte desproporcionada de créditos de uso mientras produce poco trabajo terminado. Si tus paneles no pueden responder a la pregunta de "qué se entregó", ese es el primer problema a solucionar.
Si tu organización tiene paneles de uso de IA con visibilidad entre empleados, o si el volumen de uso aparece en algún lugar en una evaluación de desempeño, ciclo de fijación de metas o procesos de reportes gerenciales, esos son los lugares donde el riesgo de tokenmaxxing está activo. La pregunta no es si los datos se recopilan: es si son visibles de formas que generan presión competitiva en torno al volumen en vez de la calidad.
La medición de IA basada en resultados se ve diferente según la función. En ventas, podría rastrear si el alcance asistido por IA mejoró la tasa de conversión, no cuántos mensajes envió un representante. En operaciones, podría rastrear la reducción del tiempo de ciclo o la tasa de error en procesos asistidos por IA, no los registros de uso del sistema.
El principio de diseño es el mismo en todos los casos. Mide lo que cambió aguas abajo del uso de IA, no el uso en sí. Esto requiere que los líderes de función y RRHH colaboren para definir qué significa "mejor" antes de crear marcos de medición, no después.
¿Qué mensaje estás enviando?
La comunicación del liderazgo necesita recalibrarse junto con las métricas. Si los únicos mensajes que escuchan los empleados sobre la IA se centran en tasas de adopción y logros de uso, la señal implícita es que lo que se observa es el consumo.
Los líderes que desean desarrollar verdaderas capacidades con IA deben hablar acerca de resultados específicos, de cómo la IA cambió la forma de trabajar de un equipo, de lo que un experimento particular le enseñó a la organización, de dónde falló una implementación y qué reveló eso. Este tipo de relatos comunican que la organización valora el aprendizaje, no solo la apariencia de estar aprendiendo.
Corregir el rumbo en un equipo donde el "tokenmaxxing" ya está presente requiere cuidado. Los empleados que manipularon una métrica normalmente respondían a una señal creada por el liderazgo. Tratarlo como un problema de conducta individual ignora esto y crea exactamente las condiciones que hacen que reportar honestamente se perciba como algo inseguro.
“Cuando tus empleados están dispuestos a hacer trabajo inútil solo para marcar una casilla, eso no es un problema de métricas”, dice Filippenko. “Eso es podredumbre operativa.”
Solucionarlo significa que el liderazgo debe reconocer la señal que envió antes de pedirle a las personas que cambien su comportamiento.
El enfoque más productivo para los gerentes es restablecer las expectativas sobre lo que realmente le importa a la organización y luego dar a las personas una vía para demostrar capacidades reales. Eso implica reconocer ejemplos visibles de éxito basado en resultados, no solo eliminar la métrica anterior.
La intervención sugerida por Drif es directa y vale la pena considerarla: renombrar públicamente la métrica, de “uso de IA” a “trabajo completado con IA”. El simple cambio de nombre envía una señal a las personas sobre lo que realmente valora la organización, sin necesidad de señalar a nadie por el comportamiento que generó la métrica anterior.
Navegando la ambigüedad
La verdadera disciplina aquí es tener paciencia ante la ambigüedad. La mayoría de las organizaciones todavía no están en condiciones de medir con precisión el aporte de la IA a los resultados empresariales, y la presión para mostrar algún avance mientras tanto es real. Los paneles de control y los rankings llenan ese vacío porque generan cifras, y las cifras transmiten una sensación de responsabilidad.
El problema es que la responsabilidad que generan es por algo equivocado. Construir sistemas de medición que hagan a las personas responsables de los resultados lleva más tiempo y requiere más trabajo de diseño interfuncional, y es el único enfoque que no corrompe los datos que eventualmente necesitarás para tomar mejores decisiones.
El "tokenmaxxing" es una alerta temprana, no un punto final. Trátalo como una señal cultural que debe tomarse en serio ahora, y tendrás datos de desempeño mucho más limpios y una adopción de la IA mucho más saludable en el futuro.
