Räumliche Intelligenz: Dr. Fei-Fei Li betont die Bedeutung räumlicher Intelligenz als nächste Grenze der KI.
Weltmodelle: Weltmodelle sagen voraus, wie sich physische Umgebungen verändern, im Gegensatz zu Sprachmodellen, die sich auf Texte konzentrieren.
Datenherausforderungen: Die Gewinnung räumlicher Daten ist schwierig und knapp, was eine bedeutende Hürde für die Entwicklung räumlicher KI darstellt.
Schrittweise Einführung: Die Entstehung räumlicher KI wird wahrscheinlich schrittweise und domänenspezifisch verlaufen und sich dadurch von Sprach-KI unterscheiden.
Dringender Handlungsbedarf: Organisationen müssen sich früher als später auf die Auswirkungen räumlicher KI vorbereiten, um Fallstricke zu vermeiden.
Die KI-Tools, die die Wissensarbeit in den letzten drei Jahren geprägt haben, teilen eine zentrale Beschränkung: Sie existieren vollständig im Bereich der Sprache.
Sie lesen, schreiben, fassen zusammen und generieren. Was sie jedoch nicht können, ist das physische Umfeld zu verstehen: die Geometrie einer Lagerhalle, die räumliche Logik eines chirurgischen Eingriffs oder die dreidimensionalen Abläufe einer Produktionsstraße.
In dieser Lücke hat Dr. Fei-Fei Li ihre berufliche Laufbahn verankert.
Gestern sprach die Stanford-Professorin und Mitbegründerin von World Labs bei HumanX und argumentierte, dass räumliche Intelligenz – die Fähigkeit von Maschinen, dreidimensionalen Raum wahrzunehmen, zu verstehen und in ihm zu agieren – die nächste entscheidende Grenze in der KI-Entwicklung darstellt. Sie sei, wie sie betonte, kein Ersatz für Sprachmodelle. Es handle sich um eine völlig andere Art von Problem.
Menschliche Intelligenz ist nicht nur sprachlich. Denken Sie an alles, was wir im Alltag wie auch im Berufsleben tun. Alles spielt sich in der 3D-Welt ab, erfordert Raum, Bewegung, Interaktion.
Für Führungskräfte, die in den letzten zwei Jahren Abläufe rund um große Sprachmodelle neu organisiert haben, ist Lis Argumentation ein hilfreicher Denkanstoß. Die Produktivitätsgewinne durch KI-Textgenerierung sind real, bilden jedoch nur einen schmalen Ausschnitt dessen ab, was Intelligenz – ob menschlich oder maschinell – tatsächlich leistet.
Die schwierigere und folgenreicherer Aufgabe, nämlich das physische Navigieren von Umgebungen, das Interpretieren räumlicher Daten und das Handeln in der Welt statt ihrer bloßen Beschreibung, ist weiterhin weitgehend ungelöst.
Was Weltmodelle tun
Li zieht eine klare Grenze zwischen Sprachmodellen und dem, was sie „Weltmodelle“ nennt.
Während ein Sprachmodell das nächste Zeichen in einer Sequenz vorhersagt, prognostiziert ein Weltmodell den nächsten Zustand einer physischen Umgebung. Ein Tennisspieler, der einen Aufschlag mit 120 Meilen pro Stunde zurückschlägt, tut eher Letzteres: Er liest in Millisekunden den aktuellen Zustand von Ball und Körper und berechnet, wie es weitergeht.
Zustandsvorhersage oder Zustandsgenerierung ist grundlegend für räumliche Intelligenz,
Das Modell ihres Unternehmens, Marble genannt, erzeugt echte dreidimensionale Welten – nicht Video oder flache Bilder, sondern beständige 3D-Umgebungen, die navigierbar, veränderbar und als Trainingsumgebung für nachgelagerte Anwendungen geeignet sind.
Die von ihr genannten unmittelbaren Anwendungsfälle bieten Führungskräften Orientierung, wohin die Reise geht.
Robotik-Training ist ein Beispiel: Labore verwenden bereits generierte 3D-Umgebungen als synthetische Daten, um physische Roboter zu trainieren – und reduzieren damit die Abhängigkeit von teurer und langsamer Datensammlung in der realen Welt. Ein weiteres Beispiel ist die Radiologie. Die Diagnostik anhand von Bilddaten ist im Kern ein räumliches Problem. Ein Lungenknoten existiert dreidimensional; eine KI, die nur zweidimensionale Bilder auswertet, arbeitet mit unvollständigen Informationen.
Das sichtbarste Beispiel im Markt sind autonome Fahrzeuge. Li verwies auf Tesla und Waymo als Unternehmen, die bereits funktionsfähige Weltmodelle für einen spezialisierten Anwendungsbereich geschaffen haben.
„Aus dieser Perspektive besitzen wir in diesem sehr wichtigen, aber spezialisierten Feld bereits räumliche Intelligenz“, sagte sie.
Das Datenproblem
Li sprach offen über den entscheidenden Engpass des Fortschritts. Rechenleistung ist teuer, aber verfügbar. Die Modellarchitektur entwickelt sich weiter. Das wirklich Schwierige ist die Datenlage.
Sprachmodelle profitierten von praktisch unbegrenztem Trainingsmaterial: dem gesammelten Text des Internets, digitalisierten Büchern, transkribierten Gesprächen. Für räumliche Daten gibt es kein entsprechendes Korpus. Dreidimensionale Darstellungen von physischen Umgebungen sind rar, teuer in der Herstellung und schwer zu standardisieren.
Wenn Sie denken, dass 3D-Weltdaten knapp sind", sagte Li, „sind Robotikdaten sogar noch knapper.
Dies ist kein abstraktes Forschungsproblem. Für jede Organisation, die plant, physische KI zu integrieren – sei es in Produktion, Gesundheitswesen, Logistik oder Gebäudemanagement – wird die Dateninfrastruktur zum limitierenden Faktor.
Die Unternehmen, die bereits räumliche Daten aus ihren physischen Abläufen sammeln – beispielsweise über Sensoren, Bildgebungssysteme oder digitale Zwillinge – bauen einen Wert auf, dessen Bedeutung ihnen oft noch gar nicht bewusst ist.
Kein ChatGPT-Moment in Sicht
Eines versprach Li ausdrücklich nicht: Dass ein entscheidender Moment wie die Veröffentlichung von ChatGPT bevorsteht, bei dem ein einzelnes Produkt eine neue KI-Fähigkeit über Nacht ins Massenbewusstsein bringt.
„Chat ist ein so allgegenwärtiges Verbraucherverhalten“, sagte sie, „und wenn es ein so allgegenwärtiges Verbraucherverhalten gibt, gibt es einen Wendepunkt.“
Sie ist skeptisch, dass räumliche Intelligenz auf dieselbe Weise verfügbar sein wird, da es dafür möglicherweise kein einziges, simples Verbraucherverhalten als Anker gibt. Es gibt kein offensichtliches Pendant dazu, eine Frage in ein Chatfenster einzutippen.
Das bedeutet, dass die Einführung von Spatial AI wahrscheinlich domänenspezifisch und schrittweise erfolgen wird, statt plötzlich und universell. Robotiklabore, Unternehmen für medizinische Bildgebung, Spieleentwickler und VFX-Studios werden ihr weit vor der breiten Integration in gängige Unternehmenssoftware begegnen.
Für CHROs und COOs ist dieser Zeitplan entscheidend. Der Druck, auf Spatial AI zu reagieren, ist nicht derselbe wie der Druck, 2023 auf Sprach-KI zu reagieren. Aber auch das Vorbereitungsfenster ist kürzer, als es scheint.
Die Grundlagenarbeit – zu verstehen, wo physische Intelligenz die eigenen Abläufe verändern könnte, die Erfassung der räumlichen Datenressourcen und der Aufbau von Kompetenz im Führungsteam – dauert länger als die Einführung eines neuen SaaS-Produkts.
Li beschrieb die aktuelle Situation als eine Konvergenz: Die ursprünglich für Sprache entwickelten Transformer-Modellarchitekturen treffen nun auf Fortschritte im Bereich Computer Vision und 3D-Computing, die seit Jahren vorangetrieben werden.
„Zum ersten Mal gibt es uns die Möglichkeit, wirklich einige der grundlegendsten Probleme der KI zu bewältigen“, sagte sie.
Wer die Konvergenz als Problem anderer betrachtet, wird denselben Fehler machen wie viele damals beim Start von ChatGPT. Sie gingen davon aus, dass sie mehr Zeit hätten, als sie tatsächlich hatten.
