"Minecraft" galt – anders als Schach, Poker oder "Starcraft" – lange als Herausforderung für Künstliche Intelligenz (KI). Das offene Simulationsspiel generiert seine Welt per Zufall am Computer. Sie sieht also jedes Mal anders aus und ein KI-Algorithmus muss sich auf dem Weg zum Ziel mehr merken als ein paar feste Handlungsabfolgen. Ein Team um Google DeepMind hat mit DreamerV3 nun eine Programmroutine vorgestellt, der in einer auf KI-Tests ausgelegten "Minecraft"-Forschungswelt Diamanten abgebaut hat. Diese Leistung erfolgt, ohne spezielles Training für das Game und ohne Einsatz menschlicher Daten.
Experten zufolge benötigen selbst geübte menschliche Spieler allein für das Erstellen einer Diamantspitzhacke über 20 Minuten und etwa 24.000 "Inputs". Für das jetzt in der Fachzeitschrift Nature beschriebene Experiment nutzten die Autoren die "Minecraft"-Forschungsversion Malmo und Umgebungen aus dem MineRL-KI-Wettbewerb. Eine erste, noch nicht von unabhängigen Forschern gegengelesene Version der Studie war bereits 2023 auf dem Preprint-Server Arxiv erschienen. Die Open-Source-Lösung DreamerV3 basiert demnach auf Reinforcement Learning (RL). Diese "bestärkende" Methode ahmt den Lernprozess nach, mit dem Menschen durch Versuch und Irrtum Ziele erreichen.
"Dreamer lernt ein Modell der Umgebung und verbessert sein Verhalten, indem er sich zukünftige Szenarien vorstellt", erläutert das Team. "Robustheitstechniken basierend auf Normalisierung, Ausgleich und Transformationen ermöglichen stabiles Lernen über Domänen hinweg." Sofort angewendet sei die dritte Version des Algorithmus die erste, die "Diamanten in 'Minecraft' von Grund auf ohne menschliche Daten oder Lehrpläne sammelt". Was die KI dabei als Belohnung im Rahmen des Lernverfahrens versteht, legen Programmierer vorher mittels mathematischer Funktionen fest. Eine kleine Hilfe bekam DreamerV3: Für den Rohstoffabbau muss die Spielfigur wiederholt auf einen Block schlagen. Für diese Aktion gaben die Autoren eine Mindestmenge an Schlägen vor.
Geteiltes Echo bei unabhängigen Forschern
Viele auf RL basierende KIs sind besonders gut in einer bestimmten Domäne, auf die die Belohnungsfunktion zugeschnitten ist. DreamerV3 soll indes laut der Studie in verschiedenen Umgebungen überzeugen: So habe der Algorithmus in mehreren Spiel- und Aufgabentypen in weiten Teilen besser abgeschnitten als verschiedene domänenspezifische Modelle. Das gelte auch für den von OpenAI bekannten Algorithmus Proximal Policy Optimization (PPO), der ebenfalls auf verschiedene Bereiche ausgelegt ist. Der ChatGPT-Hersteller testete 2022 auch bereits im Rahmen des Mine-RL-Wettbewerbs das Modell Video PreTraining (VPT), das eine Diamanthacke in "Minecraft" herstellen können soll. DreamerV3 simuliert laut der Analyse mit seinem World-Modell indes vorab mehrere aufeinanderfolgende Aktionen und entwickele so eine Strategie, um gestellte Aufgaben maßgeschneidert zu lösen.
"Die Studie ist erstklassig und wegweisend", lobt Georg Martius, Experte für autonomes Lernen am Max-Planck-Institut für Intelligente Systeme in Tübingen, die Arbeit der Kollegen gegenüber dem Science Media Center (SMC). Modellbasiertes RL sei schon länger als vielversprechende Methode gehandelt worden. Aber erst dieses Papier zeige, "dass es sehr breit und effizient eingesetzt werden kann". Szenarien reichten von Vielzahl an Videospielen über KI-Agenten bis zur vereinfachten Roboterkontrolle. Das Besondere an DreamerV3 sei, dass er alle Probleme mit den gleichen Einstellungen ("Hyperparameter") löse. Das gelte als Indiz dafür, dass der Algorithmus bei neuen Problemen Out-of-the-Box funktioniere und nicht groß angepasst werden müsse. Weniger überzeugt ist Jan Peters, Professor für intelligente System an der TU Darmstadt: Die eingesetzten heuristischen Daumenregeln erzielten zwar beeindruckende empirische Ergebnisse, seien aber "intellektuell unbefriedigend". Sie nützten "vermutlich wenig in der realen Welt" und seien nur in Simulationen sinnvoll.
(dahe)