Raumschiffe mit Aliens haben Kurs auf die Erde genommen. Wir wissen nicht genau, wann sie eintreffen werden – es könnte noch zwei Jahre dauern oder zwanzig. Wir wissen nicht genau, welche Absichten sie haben – aber wir können abschätzen, dass uns ihr Intellekt weit überlegen ist.
Wissenschaftler schätzen die Wahrscheinlichkeit, dass sie alles menschliche Leben auf der Erde auslöschen werden, auf zehn, zwanzig, teils auf weit über fünfzig Prozent. In einer vergleichbaren Situation sehen Eliezer Yudkowsky und Nate Soares die Menschheit – nur, dass die Aliens nicht aus den Tiefen des Alls zu uns dringen, sondern wir sie in unseren Datenzentren heranzüchten.
Yudkowsky und Soares sind Vordenker zum Problem des AI-Alignment, also der Frage, wie wir sicherstellen können, dass Künstliche Intelligenz (KI) kontrollierbar bleibt. Ihr Buch ist eine emphatische Warnung, die sich an eine breite Leserschaft richtet: vor einer Zukunft, in der wir die Kontrolle verlieren – und letztlich alle sterben. Man würde dies gerne als Spinnerei abtun. Aber dafür sind ihre Thesen zu gut begründet – und dafür wird ihre Sorge, wenngleich in meist abgeschwächter Form, von zu vielen Experten geteilt.
Die Möglichkeit ist da, das Wann ist aber offen
Das fundamentale Problem ergibt sich für die beiden Autoren aus Zielsetzung und Methode der aktuellen KI-Entwicklung. Die Zielsetzung: eine künstliche Intelligenz erschaffen, die uns Menschen in allen kognitiven Bereichen überlegen ist. Die Methode: moderne KI-Modelle wie ChatGPT oder AlphaFold werden nicht programmiert, sondern wachsen in einem quasi-evolutionären Optimierungsprozess heran. Das bewirkt, dass sich ihr Verhalten nicht zuverlässig vorhersagen lässt: „Ingenieure verstehen den Prozess, der eine KI hervorbringt, nicht aber, was in den KI-Gehirnen vor sich geht.“
Eliezer Yudkowsky und Nate Soares: „If Anyone Builds It, Everyone Dies“. The Case Against Superintelligent AI.Bodley HeadDie Autoren wagen keine Prognose, wann mit einer künstlichen Superintelligenz zu rechnen ist. Heutige KIModelle seien noch stark beschränkt. Trotz des rasanten Fortschritts sei schwer abzuschätzen, wie viele Innovationen und wie viel zusätzliche Rechenleistung erforderlich seien. Die Möglichkeit einer künstlichen Superintelligenz aber ist für sie offensichtlich. Und für den Fall, dass irgendjemand eine solche KI erschafft (mit Techniken, die grob dem aktuellen Forschungsstand entsprechen), lautet ihre Prognose ebenso apodiktisch wie apokalyptisch: „dann wird jeder, überall auf der Erde, sterben.“
Ihre Begründung stützt sich auf die These, dass sich eine hinreichend clevere KI so verhalten werde, als ob sie einen eigenen Willen habe. Und absehbar sei, dass dieser unseren Interessen zuwiderlaufen werde. Heutige KI-Modelle durchlaufen einen Trainingsprozess, der jene Eigenschaften stärkt, die beim Erreichen eines zunächst von Menschen formulierten Ziels hilfreich sind.
Ein ständiges Wachsen der Fähigkeiten
Die Autoren nennen das Beispiel einer KI, die die Straßen einer digitalen Stadt navigieren soll. Vielleicht lernt die KI zunächst alle Routen auswendig. In der nächsten Stadt ist dieses Wissen jedoch weitgehend wertlos. Nur bestimmte Muster sind hilfreich: Erkennt die KI etwa, dass sie sich im Kreis bewegt, sollte sie den Kurs ändern. Der Trainingsprozess stärkt also die allgemeine Fähigkeit, Muster zu erkennen. So wächst eine KI heran, die sich verhält, als habe sie einen eigenen Willen. Sie folgt keiner vorprogrammierten Route, sondern sucht aktiv einen Weg. Sie ist agil, wendet bei Hindernissen. Sie verhält sich, als wollte sie zu einem bestimmten Ort gelangen.
Eine Navigations-KI bedeutet nicht das Ende der Welt. Aber der Punkt ist ein allgemeiner: Der Trainingsprozess erzeugt eine zielstrebige KI, deren inneren Prozesse undurchsichtig bleiben, denn heutige Techniken erlauben nur eine oberflächliche Kontrolle: Im Rahmen der RLHF-Methode etwa bewerten Menschen das Verhalten der KI, um ihr negative Handlungsweisen abzutrainieren. So lässt sich verhindern, dass die KI beim Bombenbau Ratschläge gibt. Die Fähigkeit aber behält sie, und Forscher konnten sie im Fall von GPT-4 später einfach aktivieren, indem sie auf Zulu um Hilfe baten.
Für Yudkowsky und Soares ist klar: Wenn eine KI erst clever und mächtig genug ist, dann wird sie ihre Ziele mit kreativen Methoden effizient zu verfolgen wissen – und die Kontrolle übernehmen. Denn für das Erreichen fast aller Ziele sei ein Zugewinn an Ressourcen und Einfluss ein natürlicher Zwischenschritt. Und das, sind sie überzeugt, würde unser Ende bedeuten: nicht unbedingt, weil die Superintelligenz in uns eine Bedrohung sähe (obwohl dies zu Beginn denkbar wäre), sondern im Zweifel einfach, weil sie die Atome, aus denen wir bestehen, für ihre Zwecke besser verwenden könnte (oder zumindest im Rahmen einer industriellen Expansion unsere Lebensgrundlage zerstören würde).
Welche Konsequenzen sind aus der Prognose zu ziehen?
Die Autoren skizzieren, wie dieser Kontrollverlust ablaufen könnte. Es sei aber wie mit einer Partie gegen einen modernen Schachcomputer: Wir wissen nicht, wie wir genau verlieren werden; aber wir wissen, dass wir verlieren werden. Yudkowsky und Soares halten das Problem, ein e superintelligente KI zu kontrollieren, nicht für grundsätzlich unlösbar. Ihre These ist lediglich, dass wir aktuell keinen auch nur im Ansatz vielversprechenden Plan haben und das Problem alles andere als trivial ist.
Wie eine Raumsonde lässt sich eine KI nur in einer simulierten Umgebung testen, ohne Gewissheit über die Übertragbarkeit der Ergebnisse. Wie bei einem Nuklearreaktor droht die Gefahr einer Kettenreaktion (sobald die KI in der Lage ist, sich selbst zu verbessern). Und wie bei der IT-Sicherheit gibt es unzählige Angriffspunkte. Vor allem aber: Wir haben nur einen Versuch.
Ihre Forderung ist entsprechend radikal. Der Zugang zu leistungsstarken Computerchips, die für KI-Trainings verwendet werden können, sollte massiv eingeschränkt, die Publikation von Forschung zu KI-Algorithmen verboten werden. Staaten sollten sich zusammenschließen, um die Arbeit an leistungsstärkeren (allgemeinen) KI-Modellen zu unterbinden – und in letzter Konsequenz bereit sein, Datenzentren auch dann anzugreifen, wenn ein anderer Staat mit nuklearer Vergeltung droht.
Das Problem ist noch immer ungelöst
Es ist ein Vorschlag, der in seiner Radikalität von jener Überzeugung getragen wird, die dem Buch seinen Titel gibt: Wenn irgendjemand eine superintelligente KI erschafft, werden alle Menschen sterben. Das Szenario, das Yudkowsky und Soares beschreiben, ist so ungeheuerlich, so fernab unserer Vorstellungskraft, dass die Versuchung groß ist, es nicht ernst zu nehmen. Sind Gemini und Claude nicht eher drollig? Sollten wir uns nicht lieber auf konkrete Risiken konzentrieren, etwa KI-gestützte Desinformationskampagnen? Und sind wir nicht ohnehin machtlos gegen die immensen kapitalistischen und geopolitischen Kräfte, die der KI-Wettlauf gerade entfesselt?
Und doch: das Grundproblem, das Yudkowsky und Soares aufwerfen, ist offensichtlich – und offensichtlich ungelöst. Wie wollen wir eine KI kontrollieren, deren Funktionsweise wir nicht verstehen und die uns in allen Bereichen kognitiv (weit) überlegen ist? Das Fehlen einer Antwort auf ebendiese Frage bewog Geoffrey Hinton, den Mitbegründer der modernen KI-Forschung und späteren Nobelpreisträger, im Frühjahr 2023 dazu, Google zu verlassen, um eindringlich vor der Gefahr Künstlicher Intelligenz zu warnen. Und es motivierte Hunderte Forscher, darunter namhafte Vertreter aller führenden KI-Firmen, im Mai desselben Jahres zu einem Aufruf, die existenzielle Gefahr durch KI zur globalen Priorität zu erklären.
Seitdem sind internationale Initiativen zur Regulierung von KI jedoch weitgehend versandet. In der öffentlichen Debatte dominieren andere Themen. Und dass Chatbots in Simulationen, in denen sie mit ihrer Abschaltung konfrontiert sind, zu manipulativen und erpresserischen Mitteln greifen und mitunter auch den Tod von Menschen in Kauf nehmen, dringt kaum in die breitere Öffentlichkeit. Derweil investieren Technologiefirmen wie Google, OpenAI und Anthropic Hunderte Milliarden Dollar in den Wettlauf, als Erste eine wirklich mächtige künstliche Intelligenz zu erschaffen – und arbeiten dabei weitgehend im Verborgenen. Ihre Einstellung, so scheint es: wird schon schiefgehen (und sonst machen es ja die anderen).
Die Prognose von Yudkowsky und Soares lässt Raum für Kritik. Ist ihr plötzlicher Sprung von normaler KI (die wir kontrollieren) zu superintelligenter KI (die uns kontrolliert) realistisch? Missachten sie mit ihrer definitiven Vorhersage nicht jene Unwägbarkeiten dieser Technologie, die sie selbst ständig betonen? Vor zehn Jahren etwa lautete eine zentrale Sorge, dass KI unsere Absichten missverstehen wird; heutige Sprachmodelle verstehen diese selbst dann, wenn wir etliche Tippfehler einbauen. Doch selbst wer die Wahrscheinlichkeit eines Kontrollverlusts für viel geringer hält, muss zugeben: Ein ungesteuerter Wettlauf bei dieser Technologie ist hochgradig verantwortungslos. Dieses Buch ist keine heitere Lektüre. Aber es verdient Aufmerksamkeit.
Eliezer Yudkowsky und Nate Soares: „If Anyone Builds It, Everyone Dies“. The Case Against Superintelligent AI. Bodley Head, London 2025. 272 S., geb., 25,– €.

vor 1 Tag
2











English (US) ·