Skip to main content
Key Takeaways

Inteligencia Espacial: La Dra. Fei-Fei Li enfatiza la importancia de la inteligencia espacial como la próxima frontera de la IA.

Modelos del Mundo: Los modelos del mundo predicen los siguientes estados de los entornos físicos, en contraste con los modelos de lenguaje, que se centran en el texto.

Desafíos de los Datos: Adquirir datos espaciales es difícil y escaso, lo que representa una barrera significativa para desarrollar IA espacial.

Implementación Gradual: La aparición de la IA espacial probablemente será gradual y específica de cada dominio, a diferencia de la IA de lenguaje.

Urgencia de Preparación: Las organizaciones deben empezar a prepararse para el impacto de la IA espacial cuanto antes para evitar contratiempos.

Las herramientas de IA que han transformado el trabajo del conocimiento en los últimos tres años comparten una limitación común: existen enteramente en el ámbito del lenguaje.

Leen, escriben, resumen y generan. Lo que no pueden hacer es comprender el mundo físico, la geometría de un almacén, la lógica espacial de un procedimiento quirúrgico o la dinámica tridimensional de una línea de producción.

Esa brecha es donde la Dra. Fei-Fei Li ha apostado su carrera.

Keep Reading—and Keep Leading Smarter

Create a free account to finish this piece and join a community of forward-thinking leaders unlocking tools, playbooks, and insights for thriving in the age of AI.

Paso 1 de 3

Name*
Este campo está oculto cuando se visualiza el formulario

Hablando ayer en HumanX, la científica informática de Stanford y cofundadora de World Labs argumentó que la inteligencia espacial, la capacidad de las máquinas para percibir, razonar y actuar en el espacio tridimensional, representa la próxima frontera significativa en el desarrollo de la IA. No es un reemplazo de los modelos de lenguaje, aclaró cuidadosamente. Es una categoría de problema totalmente distinta.

«La inteligencia humana no es solo lingüística. Piensa en todo lo que hacemos en nuestra vida diaria así como en nuestro trabajo. Todo involucra el mundo en 3D, implica espacio, movimientos e interacción.»

Fei fei-36967
Fei Fei LiOpens new window

Cofundadora y CEO de World Labs

Para los líderes empresariales que han pasado los últimos dos años reorganizando los flujos de trabajo alrededor de grandes modelos de lenguaje, el argumento de Li es un cambio de perspectiva útil. Las ganancias de productividad generadas por la IA en la generación de texto son reales, pero representan una fracción estrecha de lo que la inteligencia, sea humana o artificial, realmente hace.

El trabajo más difícil y con mayor impacto, navegar entornos físicos, interpretar datos espaciales y operar en el mundo en lugar de describirlo, permanece en gran medida sin resolver.

Qué hacen los modelos del mundo

Li traza una clara distinción entre los modelos de lenguaje y lo que ella denomina "modelos del mundo".

Mientras que un modelo de lenguaje predice el siguiente token en una secuencia, un modelo del mundo predice el siguiente estado de un entorno físico. Un tenista que responde un saque de 120 mph está realizando algo similar a esto último: lee el estado actual de la pelota y el cuerpo y calcula lo que sigue en milisegundos.

La predicción de estados o la generación de estados es "fundamental" para la inteligencia espacial,

El modelo de su compañía, llamado Marble, genera mundos tridimensionales reales, no vídeos ni imágenes planas, sino entornos 3D persistentes que pueden ser navegados, modificados y utilizados como entornos de entrenamiento para aplicaciones posteriores.

Las aplicaciones inmediatas que mencionó son instructivas para los líderes que buscan anticipar hacia dónde se dirige todo esto.

La formación en robótica es una: los laboratorios ya están utilizando entornos 3D generados como datos sintéticos para entrenar robots físicos, reduciendo la dependencia de la recolección de datos reales, costosa y lenta. La radiología es otra. Diagnosticar condiciones a partir de datos de imágenes es fundamentalmente un problema espacial. Un nódulo pulmonar existe en tres dimensiones; una IA que solo procesa imágenes bidimensionales trabaja con información incompleta.

Los coches autónomos son el ejemplo más visible ya en el mercado. Li señaló a Tesla y Waymo como compañías que ya han construido modelos del mundo funcionales dentro de un dominio especializado.

"Desde ese punto de vista, en este dominio muy crítico pero especializado, ya tenemos inteligencia espacial", afirmó.

El problema de los datos

Li fue directa respecto a la restricción principal del progreso. El cómputo es caro pero está disponible. La arquitectura de modelos está avanzando. Los datos son la parte más difícil.

Los modelos de lenguaje se beneficiaron de un material de entrenamiento casi ilimitado: el texto acumulado de Internet, libros digitalizados, conversaciones transcritas. Los datos espaciales no tienen un corpus equivalente. Las representaciones tridimensionales de entornos físicos son escasas, caras de producir y difíciles de estandarizar.

Si crees que los datos de mundos 3D son escasos", dijo Li, "los datos de robótica aún son más escasos.

Esto no es un problema de investigación abstracto. Para cualquier organización que planee integrar IA física, ya sea en manufactura, salud, logística o administración de instalaciones, la infraestructura de datos será el factor limitante.

Las empresas que ya están capturando datos espaciales de sus operaciones físicas, mediante sensores, sistemas de imágenes o gemelos digitales, están construyendo un activo que tal vez aún no valoren en su totalidad.

No hay un momento ChatGPT en el horizonte

Una cosa que Li evitó prometer es un momento decisivo comparable al lanzamiento de ChatGPT, cuando un solo producto de consumo llevó una nueva clase de capacidad de IA a la conciencia masiva de la noche a la mañana.

"El chat es un comportamiento de consumo tan ubicuo", dijo ella, "y cuando existe un comportamiento de consumo tan ubicuo, tienes un momento crucial."

Ella es escéptica de que la inteligencia espacial llegue de la misma forma, porque puede que no tenga un solo comportamiento de consumo simple que la ancle. No existe un equivalente obvio a escribir una pregunta en una caja de chat.

Eso significa que el despliegue de la IA espacial probablemente será específico de cada dominio y gradual, en lugar de repentino y universal. Los laboratorios de robótica, las empresas de imágenes médicas, los desarrolladores de videojuegos y los estudios de efectos visuales la encontrarán mucho antes de que se convierta en un elemento fijo del software empresarial convencional.

Para los CHROs y COOs, esa línea de tiempo importa. La presión para actuar sobre la IA espacial no es la misma que la presión para actuar sobre la IA de lenguaje en los primeros meses de 2023. Pero la ventana de preparación también es más corta de lo que parece.

El trabajo fundamental, comprender dónde la inteligencia física podría cambiar tus operaciones, hacer un inventario de tus activos de datos espaciales, y construir alfabetización en tu equipo de liderazgo, lleva más tiempo que adoptar un nuevo producto SaaS.

Li describió el momento actual como una convergencia: las arquitecturas de modelos transformadores desarrolladas para el lenguaje ahora se encuentran con avances en visión por computadora y computación 3D que han estado gestándose durante años.

"Por primera vez, esto nos brinda la oportunidad de realmente conquistar algunos de los problemas más fundamentales en la IA", dijo.

Tratar esa convergencia como un problema ajeno llevará a muchas organizaciones a cometer el mismo error que muchas cometieron cuando se lanzó ChatGPT. Asumieron que tenían más margen del que realmente disponían.

David Rice

David Rice es un experimentado periodista y editor especializado en temas de recursos humanos y liderazgo. Ha trabajado en diversos sectores para publicaciones impresas y digitales en Estados Unidos y el Reino Unido.