Skip to main content
Key Takeaways

Intelligence spatiale: La Dre Fei-Fei Li souligne l’importance de l’intelligence spatiale comme prochaine frontière de l’IA.

Modèles du monde: Les modèles du monde prédisent les prochains états des environnements physiques, contrairement aux modèles linguistiques axés sur le texte.

Défis liés aux données: L’acquisition de données spatiales est difficile et rare, ce qui constitue un obstacle significatif au développement de l’IA spatiale.

Déploiement progressif: L’émergence de l’IA spatiale risque d’être progressive et spécifique à chaque domaine, à la différence de l’IA linguistique.

Urgence à se préparer: Les organisations doivent commencer à se préparer aux impacts de l’IA spatiale rapidement pour éviter les écueils.

Les outils d'IA qui ont transformé le travail intellectuel au cours des trois dernières années partagent une même limite : ils existent entièrement dans le domaine du langage.

Ils lisent, écrivent, résument et génèrent. Ce qu’ils ne peuvent pas faire, c’est comprendre le monde physique, la géométrie d’un entrepôt, la logique spatiale d’une intervention chirurgicale ou la dynamique tridimensionnelle d’une ligne de production.

C’est dans cet espace que la Dre Fei-Fei Li a fondé sa carrière.

Keep Reading—and Keep Leading Smarter

Create a free account to finish this piece and join a community of forward-thinking leaders unlocking tools, playbooks, and insights for thriving in the age of AI.

Step 1 of 3

Name*
This field is hidden when viewing the form

S’exprimant hier lors de HumanX, l’informaticienne de Stanford et cofondatrice de World Labs a expliqué que l’intelligence spatiale, c’est-à-dire la capacité des machines à percevoir, raisonner et agir dans l’espace tridimensionnel, représente la prochaine frontière significative du développement de l’IA. Ce n’est pas un remplacement des modèles linguistiques, a-t-elle pris soin de préciser. Il s’agit d’une catégorie de problème entièrement différente.

L’intelligence humaine n’est pas seulement linguistique. Pensez à tout ce que nous faisons dans notre vie quotidienne ainsi que dans notre travail. Tout implique le monde en 3D, implique l’espace, implique des mouvements, implique des interactions.

Fei fei-36967
Fei Fei LiOpens new window

Cofondatrice et PDG de World Labs

Pour les dirigeants qui ont passé les deux dernières années à réorganiser leurs méthodes de travail autour des grands modèles linguistiques, l’argument de Li offre une remise en perspective utile. Les gains de productivité permis par la génération de texte via l’IA sont réels, mais ils ne représentent qu’une mince part de ce qu’est l’intelligence, humaine ou artificielle.

La tâche la plus difficile et la plus importante, naviguer physiquement dans des environnements, interpréter des données spatiales, opérer dans le monde plutôt que de simplement le décrire, reste en grande partie non résolue.

Ce que font les modèles du monde

Li distingue clairement les modèles linguistiques des modèles qu’elle appelle « modèles du monde ».

Là où un modèle linguistique prédit le prochain token dans une séquence, un modèle du monde prédit le prochain état d’un environnement physique. Un joueur de tennis qui renvoie un service à 120 mph réalise une opération beaucoup plus proche de la seconde approche : il analyse l’état actuel de la balle et du corps, et calcule en quelques millisecondes ce qui doit arriver ensuite.

La prédiction ou la génération d’état est fondamentale pour l’intelligence spatiale,

Le modèle de son entreprise, appelé Marble, génère de véritables mondes 3D, non pas des vidéos ou images plates, mais des environnements tridimensionnels persistants, qui peuvent être explorés, modifiés et utilisés comme terrains d’entraînement pour d’autres applications en aval.

Les applications immédiates qu’elle cite sont instructives pour les dirigeants qui cherchent à anticiper la suite.

L'entraînement des robots en est une : des laboratoires utilisent déjà des environnements 3D simulés comme données synthétiques pour former des robots physiques, réduisant la dépendance à la collecte de données réelles coûteuses et lentes. La radiologie en est une autre. Diagnostiquer à partir de données d’imagerie est fondamentalement un problème spatial. Un nodule pulmonaire existe en trois dimensions ; une IA travaillant uniquement sur des images en deux dimensions obtient une information incomplète.

Les voitures autonomes sont l’exemple le plus visible déjà présent sur le marché. Li cite Tesla et Waymo comme sociétés ayant déjà construit des modèles du monde opérationnels dans un domaine spécialisé.

« De ce point de vue-là, dans ce domaine très critique mais spécialisé, nous avons déjà l’intelligence spatiale », a-t-elle déclaré.

Le problème des données

Li a été directe quant à la principale contrainte au progrès. La puissance de calcul coûte cher mais reste accessible. Les architectures de modèles avancent. Ce sont les données qui font défaut.

Les modèles linguistiques ont bénéficié d’une quantité quasi illimitée de données d'entraînement : le texte accumulé de l’internet, des livres numérisés, des conversations retranscrites. Les données spatiales n’ont pas d’équivalent. Les représentations tridimensionnelles d’environnements physiques sont rares, coûteuses à produire et difficiles à standardiser.

Si vous trouvez que les données de mondes 3D sont rares, a déclaré Li, les données robotiques le sont encore plus.

Il ne s’agit pas là d’un problème de recherche abstrait. Pour toute organisation souhaitant intégrer de l’IA physique – dans l’industrie, la santé, la logistique ou la gestion d’infrastructures – l’infrastructure de données sera le facteur limitant.

Les entreprises qui capturent déjà des données spatiales de leurs opérations physiques via des capteurs, des systèmes d’imagerie ou des jumeaux numériques, bâtissent un atout qu’elles ne mesurent peut-être pas encore réellement.

Aucun moment « ChatGPT » en vue

Une chose que Li s’est abstenue de promettre, c’est un moment décisif comparable à la sortie de ChatGPT, lorsqu’un produit grand public a fait connaître du jour au lendemain une nouvelle classe de capacités de l’IA à grande échelle.

« Le chat est un comportement de consommateur devenu tellement omniprésent, a-t-elle déclaré, que lorsqu’un comportement de consommateur devient aussi répandu, cela marque un tournant décisif. »

Elle doute que l’intelligence spatiale émerge de la même manière, car il pourrait ne pas y avoir de comportement consommateur unique et simple auquel s’ancrer. Il n’existe pas d’équivalent évident au fait de taper une question dans une boîte de conversation.

Cela signifie que le déploiement de l’IA spatiale devrait être spécifique à certains domaines et progressif, plutôt que soudain et universel. Les laboratoires de robotique, les entreprises d’imagerie médicale, les développeurs de jeux vidéo et les studios VFX y seront confrontés bien avant que cela ne devienne une composante du logiciel d’entreprise grand public.

Pour les DRH et les directeurs des opérations, ce calendrier a son importance. La pression pour agir sur l’IA spatiale n’est pas la même que celle qui existait pour l’IA linguistique début 2023. Mais la fenêtre de préparation est aussi plus courte qu’il n’y paraît.

Le travail de fond, qui consiste à comprendre où l’intelligence physique pourrait transformer vos opérations, à inventorier vos actifs de données spatiales, à développer la culture au sein de votre équipe dirigeante, prend plus de temps que l’adoption d’un nouveau produit SaaS.

Li a décrit ce moment actuel comme une convergence : les architectures de modèles de type transformeur, développées pour le langage, rencontrent désormais les avancées en vision par ordinateur et en calcul 3D qui mûrissent depuis des années.

« Pour la première fois, cela nous donne l’opportunité de vraiment vaincre certains des problèmes les plus fondamentaux de l’IA, » a-t-elle déclaré.

Considérer cette convergence comme un problème à surveiller, réservé à d’autres, poussera de nombreuses organisations à commettre la même erreur que beaucoup ont commise lors de la sortie de ChatGPT. Ils pensaient disposer de plus de temps qu’ils n’en avaient réellement.