Let’s get physical!
Das „Zeitalter einer generalistischen Robotik“ sei angebrochen, verkündete Nvidia-Chef Jensen Huang vergangene Woche auf der internationalen Entwicklerkonferenz GTC. Der CEO und Mitgründer des führenden Herstellers von KI-Chips schwärmte von selbstfahrenden Autos, humanoiden Robotern und KI-gesteuerten Fabriken.
Wenn es nach Huang geht, wird die Zukunft der KI „physisch“ sein. Intelligente Systeme werden schon bald mit der realen, physischen Welt interagieren, von der Energieversorgung über das Gesundheitswesen bis hin zur industriellen Produktion. Eine solche „Physical AI“ halten viele für die nächste Entwicklungsstufe der KI. Gerade für Europa, das über eine starke Industrie, einen Schatz an industriellen Daten und entsprechendes Know-how verfügt, liegt darin eine große Chance.
Der KI-Hype der letzten zwei Jahre basierte vor allem auf den Fortschritten der „generativen KI“, die aus vorhandenen Daten neue Inhalte wie Texte, Bilder oder Videos generiert. Jeder kennt inzwischen ChatGPT, den Chatbot, der in Sekundenschnelle auf alle erdenklichen Fragen antworten kann. Doch immer mehr KI-Experten halten solche Sprachmodelle für eine Sackgasse, wenn nicht sogar für den falschen Ansatz.
Sprachmodelle wie ChatGPT basieren im Kern darauf, das wahrscheinlichste nächste Token (eine Texteinheit) in einem Text vorherzusagen. Dank immer mehr Trainingsdaten und immer höherer Rechenleistung liefern ChatGPT & Co. immer bessere Ergebnisse. Sprachmodelle können heute nicht nur brauchbare Texte schreiben, sie verfügen auch über praktisch das gesamte Wissen der Menschheit, sofern es irgendwo im Internet zu finden ist. Und doch fehlt ihnen bisher etwas Entscheidendes – das Verständnis der physischen Welt.
Wir Menschen wissen, wie die Welt funktioniert: dass eine Tasse zerbricht, wenn sie zu Boden fällt. Wie man mit einem Hammer einen Nagel einschlägt. Dass ein Auto am Straßenrand kein Verkehrsschild sein kann. All das ist für uns selbstverständlich, ohne dass wir dafür Millionen Beispiele bräuchten. Genau dieses Verständnis fehlt aber den Sprachmodellen, die die „Welt“ nur aus den Texten kennen, mit denen sie trainiert wurden. Wer mit der realen Welt sinnvoll umgehen will, muss sich in ihr zurechtfinden, von der räumlichen Orientierung bis zu Bewegungsabläufen. Das kann jedes Kind – aber nicht ChatGPT.
Die KI-Entwicklung steht heute vor einem Paradigmenwechsel. Er interessiere sich nicht mehr für Sprachmodelle, sagte etwa Yann LeCun, der KI-Chefwissenschafter von Meta. Künftige KI-Modelle müssten die physische Welt verstehen, ein Gedächtnis haben, planen und logisch denken können.
Die KI-Entwicklung steht heute vor einem Paradigmenwechsel. Er interessiere sich nicht mehr für Sprachmodelle, sagte etwa Yann LeCun, der KI-Chefwissenschafter von Meta, auf der GTC-Konferenz. Künftige KI-Modelle müssten die physische Welt verstehen, ein Gedächtnis haben, planen und logisch denken können.
Nvidias „Physical AI“-Ansatz beruht auf einer Kombination von generativer KI, physikbasierter Simulation und leistungsfähiger Hardware-Architektur. Eine Schwierigkeit dabei war bislang die Beschaffung von Trainingsdaten, beispielsweise zu Industrieunfällen oder besonderen Wetterbedingungen. Die Nvidia-Entwickler lösen das Problem, indem sie aus Videomaterial physikalisch korrekte synthetische, also künstliche Daten erzeugen, die von Unternehmen wiederum für das Training anwendungsspezifischer Modelle genutzt werden können.
Um die Entwicklung voranzutreiben, hat sich Nvidia nun mit Google verbündet. Aber auch für europäische Entwicklerfirmen tun sich neue Chancen auf. So hat ein Forschungsteam des Linzer Start-ups NXAI und der Johannes Kepler Universität Linz kürzlich eine Deep-Learning-Alternative für industrielle Echtzeitsimulationen entwickelt. Das Ziel ist die Entwicklung von Foundation-Modellen, also Modellen, die als Grundlage für eine Vielzahl von Anwendungen dienen können.
Große Sprachmodelle wie ChatGPT haben bei vielen Menschen die Faszination für KI geweckt. Doch bis heute fehlen die wirklich überzeugenden „Use Cases“, um die aberwitzigen Investitionen in die Technologie zu rechtfertigen. Gerade in einer unsicheren Weltlage brauchen wir „handfeste“ Anwendungen, die einen konkreten Nutzen bieten. Das gilt erst recht für die Frage, wie Europa in dieser Welt wettbewerbs- und auch verteidigungsfähig bleiben kann. Wir werden menschliche wie künstliche Intelligenz brauchen, um unsere Zukunft zu sichern.