Skip to main content
Key Takeaways

Intelligenza spaziale: La Dott.ssa Fei-Fei Li sottolinea l’importanza dell’intelligenza spaziale come prossima frontiera dell’IA.

Modelli del mondo: I modelli del mondo prevedono i prossimi stati degli ambienti fisici, a differenza dei modelli linguistici concentrati sul testo.

Sfide dei dati: Ottenere dati spaziali è difficile e raro, rappresentando una barriera significativa per lo sviluppo dell’IA spaziale.

Implementazione Graduale: L’emergere dell’IA spaziale sarà probabilmente graduale e specifico per ambito, a differenza dell’IA linguistica.

Urgenza di Prepararsi: Le organizzazioni devono iniziare a prepararsi all’impatto dell’IA spaziale il prima possibile per evitare rischi e ostacoli.

Gli strumenti di intelligenza artificiale che hanno trasformato il lavoro cognitivo negli ultimi tre anni condividono una limitazione comune: esistono interamente nel regno del linguaggio.

Leggono, scrivono, riassumono e generano. Quello che non possono fare è comprendere il mondo fisico, la geometria di un magazzino, la logica spaziale di un intervento chirurgico o le dinamiche tridimensionali di una linea di produzione.

È proprio in questo divario che la Dr.ssa Fei-Fei Li ha fondato la sua carriera.

Keep Reading—and Keep Leading Smarter

Create a free account to finish this piece and join a community of forward-thinking leaders unlocking tools, playbooks, and insights for thriving in the age of AI.

Step 1 of 3

Name*
This field is hidden when viewing the form

Parlando ieri a HumanX, la scienziata informatica di Stanford e cofondatrice di World Labs ha sostenuto che l’intelligenza spaziale, ossia la capacità delle macchine di percepire, ragionare e agire nello spazio tridimensionale, rappresenta la prossima frontiera significativa nello sviluppo dell’IA. Non si tratta di un sostituto dei modelli linguistici, ha sottolineato. È una categoria di problemi completamente diversa.

L’intelligenza umana non è solo linguistica. Pensate a tutto ciò che facciamo nella nostra vita quotidiana e nel lavoro. Tutto coinvolge il mondo 3D, coinvolge lo spazio, i movimenti, l’interazione.

Fei fei-36967
Fei Fei LiOpens new window

Cofondatrice e CEO di World Labs

Per i leader aziendali che negli ultimi due anni hanno ristrutturato i flussi di lavoro intorno ai grandi modelli linguistici, l’argomentazione di Li rappresenta un utile punto di ripartenza. I guadagni di produttività derivanti dalla generazione di testo tramite IA sono reali, ma coprono una fetta ristretta di ciò che, in realtà, fa l’intelligenza, sia essa umana o artificiale.

Il lavoro più difficile e di maggior impatto—navigare fisicamente negli ambienti, interpretare dati spaziali, operare nel mondo invece che solo descriverlo—resta in gran parte irrisolto.

Cosa fanno i World Models

Li traccia una distinzione chiara tra i modelli linguistici e quello che lei chiama i "modelli del mondo".

Mentre un modello linguistico predice il token successivo in una sequenza, un modello del mondo predice lo stato successivo di un ambiente fisico. Un tennista che risponde a una battuta da 120 miglia orarie compie un’operazione più vicina a quest’ultima: legge lo stato attuale della palla e del corpo e calcola ciò che accadrà nei millisecondi successivi.

La predizione o la generazione di stati è fondamentale" per l’intelligenza spaziale,

Il modello della sua azienda, chiamato Marble, genera veri mondi tridimensionali: non video o immagini piatte, ma ambienti 3D persistenti che possono essere esplorati, modificati e utilizzati come ambienti di addestramento per applicazioni successive.

Le applicazioni immediate che ha menzionato sono istruttive per i leader che cercano di capire dove si stia andando.

L’addestramento dei robot è una: i laboratori stanno già utilizzando ambienti 3D generati come dati sintetici per addestrare robot fisici, riducendo la dipendenza dalla raccolta dati nel mondo reale, costosa e lenta. Un altro esempio è la radiologia. Diagnosticare condizioni tramite dati di imaging è, di fatto, un problema spaziale. Un nodulo polmonare esiste in tre dimensioni; un’IA che elabora solo immagini bidimensionali lavora con informazioni incomplete.

Le auto a guida autonoma sono l’esempio più visibile già presente sul mercato. Li ha citato Tesla e Waymo come aziende che hanno già costruito modelli del mondo funzionanti all’interno di un dominio specializzato.

"Da questo punto di vista, in questo dominio molto critico ma specializzato, abbiamo già l’intelligenza spaziale," ha affermato.

Il problema dei dati

Li è stata molto chiara riguardo il principale vincolo al progresso. La potenza di calcolo è costosa ma disponibile. Le architetture di modello stanno avanzando. La parte difficile riguarda i dati.

I modelli linguistici hanno beneficiato di materiale di addestramento praticamente illimitato: il testo accumulato su internet, libri digitalizzati, conversazioni trascritte. I dati spaziali non hanno un corpus equivalente. Le rappresentazioni tridimensionali degli ambienti fisici sono rare, costose da produrre e difficili da standardizzare.

Se pensate che i dati del mondo 3D siano scarsi," ha detto Li, "i dati di robotica lo sono ancora di più.

Questo non è un problema di ricerca astratta. Per qualsiasi organizzazione che stia pianificando di integrare IA fisica, che sia in ambito manifatturiero, sanitario, logistico o nella gestione di strutture, l’infrastruttura dati sarà il fattore che ne limita la velocità di sviluppo.

Le aziende che già raccolgono dati spaziali dalle proprie operazioni fisiche, tramite sensori, sistemi di imaging o copie digitali (digital twins), stanno costruendo un asset di cui forse ancora non colgono appieno il valore.

Nessun momento ChatGPT all’orizzonte

Una cosa che Li si è rifiutata di promettere è un momento spartiacque paragonabile al lancio di ChatGPT, quando un singolo prodotto di consumo ha portato una nuova classe di capacità di IA alla consapevolezza di massa in una notte.

"La chat è un comportamento dei consumatori così onnipresente", ha detto, "e quando c'è un comportamento dei consumatori così diffusamente adottato, si raggiunge un momento decisivo."

È scettica che l'intelligenza spaziale arriverà allo stesso modo, perché potrebbe non avere un singolo e semplice comportamento dei consumatori a cui ancorarsi. Non esiste un equivalente evidente al digitare una domanda in una casella di chat.

Ciò significa che il lancio dell’IA spaziale sarà probabilmente specifico per domini e graduale, piuttosto che improvviso e universale. I laboratori di robotica, le aziende di imaging medico, gli sviluppatori di videogiochi e gli studi di effetti visivi si imbatteranno in essa molto prima che diventi una presenza costante nei software aziendali mainstream.

Per i CHRO e i COO, questa tempistica conta. La pressione di agire in merito all’IA spaziale non è la stessa di quella che spingeva ad agire sull’IA linguistica all’inizio del 2023. Ma la finestra di preparazione è anche più breve di quanto sembri.

Il lavoro di base, comprendere dove l’intelligenza fisica potrebbe cambiare le tue operazioni, fare l’inventario dei tuoi asset di dati spaziali, costruire competenze digitali nel tuo team dirigente, richiede più tempo rispetto all’adozione di un nuovo prodotto SaaS.

Li ha descritto l’attuale momento come una convergenza: le architetture dei modelli transformer sviluppate per il linguaggio stanno ora incontrando i progressi della visione artificiale e del calcolo 3D che si costruiscono da anni.

"Per la prima volta ci offre l’opportunità di conquistare davvero alcuni dei problemi più fondamentali dell’IA", ha detto.

Considerare quella convergenza come un problema da seguire in mano ad altri porterà molte organizzazioni a commettere lo stesso errore fatto da molti al lancio di ChatGPT. Pensavano di avere più tempo di quanto in realtà ne avessero.