KI: Wie funktioniert eigentlich ChatGPT wirklich? - Kolumne

vor 4 Stunden 1
 Was kann die neue Version?

ChatGPT-App auf dem Tablet: Was kann die neue Version?

Foto: Infinity News Collective / imageBROKER / picture alliance

Angeblich soll es nicht mehr lange dauern, dann kommt GPT-5. Hört sich unspektakulär an, könnte aber explosiv wirken, denn GPT ist die Software hinter ChatGPT und die fünfte Version könnte den lang ersehnten Qualitätssprung mit sich bringen, der gegenwärtige KI-Schwächen zumindest lindert.

In der Zwischenzeit möchte ich eine Erklärung anbringen, weil im großen KI-Taumel der letzten zweieinhalb Jahre oft eine zentrale Frage zu kurz kam: Wie funktioniert die heutige, generative KI eigentlich wirklich und wo kommt sie her?

Künstliche Intelligenz ist ein überraschend altes Konzept. Der britische Mathematiker Alan Turing hatte schon 1950 die Idee denkender Maschinen aufgebracht und sah als Königsdisziplin das maschinelle Verständnis von menschlicher Sprache. Deshalb entwickelte er den Turing-Test: Ein Computer besteht einen Turing-Test, wenn er von durchschnittlich intelligenten Personen in einem Chat für einen Menschen gehalten wird.

Der Begriff allerdings stammt in seiner englischen Form (Artificial Intelligence) von einer Konferenz am 13. Juli 1956 mit dem Namen »Dartmouth Summer Research Project on Artificial Intelligence«. In der Beschreibung des Projekts erklärten die Wissenschaftler: »Die Studie soll von der Vermutung ausgehen, dass prinzipiell jeder Aspekt des Lernens – oder jede andere Eigenschaft der Intelligenz – so genau beschrieben werden kann, dass eine Maschine ihn simulieren kann.«

Die Wahrnehmung von Computern sind Daten

Darauf aufbauend analysierte die Handvoll Fachleute, die sich damit beschäftigten, zunächst das menschliche Denken und Lernen – aus Sicht von Computern, also mit dem Fokus auf Daten. Das war damals viel weniger nahe liegend, als es heute scheinen mag. Die etwas, vereinfachte, zentrale Erkenntnis: Denken besteht beim Menschen aus Wahrnehmung, Verarbeitung und Interpretation der Wahrnehmungsdaten und Mustererkennung. Daraus kann (manchmal) eine Erkenntnis gewonnen werden – und dann geht es von vorn los.

Übertragen auf Computer: Die Wahrnehmung sind die Daten, mit denen man den Computer füttert. Die Verarbeitung ist die Speicherung, Sortierung und Kategorisierung der Daten. Die Mustererkennung sucht nach Mustern in den Daten, deren Bedeutung bekannt ist. Manchmal folgt darauf eine maschinelle Schlussfolgerung oder eine festgelegte Aktion, zum Beispiel nach dem schlichten Algorithmus »wenn, dann«.

Künstliche Intelligenz ist eine Art lernende Mustererkennung auf Speed. Dabei geht es vor allem um Wahrscheinlichkeiten: Mit welcher Wahrscheinlichkeit liegt welches Muster vor? Wie kann man die Wahrscheinlichkeit überprüfen oder erhöhen? Und wie kann man mit dieser Erkenntnis das Ergebnis verbessern?

In allen technischen Bereichen sind Computer in den vergangenen Jahrzehnten immer besser geworden: Sie können viel mehr Daten viel schneller auf viel mehr Arten verarbeiten, und sie finden deshalb immer schneller immer komplexere Muster.

Deshalb ist Nvidia übrigens eine so wichtige Firma für künstliche Intelligenz: Sie ist groß geworden mit Grafikchips, für die vergleichsweise viele Daten gleichzeitig verarbeitet werden müssen, damit man eine möglichst flüssige, farbenfrohe, lebensechte Bewegung auf dem Screen sieht. Genau das ist aber auch die Voraussetzung für künstliche Intelligenz.

Unter bestimmten Umständen ist künstliche Intelligenz immer besser

Seit Anfang der Sechzigerjahre setzt sich in der KI-Forschung langsam das Prinzip Machine Learning durch: Maschinen können aus Daten lernen, ohne dass man ihnen jeden einzelnen Schritt vorgibt – mit einem eigenen Lernkonzept. Zum Beispiel, indem man eine berechnete, mögliche Lösung für ein Problem versucht zu überprüfen. Wie gut ist diese mathematische Lösung, etwa ein Verfahren, wie man den schnellsten Weg von A nach B findet? Dann wird eine andere mögliche Lösung berechnet und der Computer prüft, ob sie besser oder schlechter ist. Im Machine Learning wird das so oft vollzogen, bis die Software ein Muster der Verbesserung erkennt. Deshalb wird unter bestimmten Umständen künstliche Intelligenz immer besser.

Für einen großen Durchbruch wie bei ChatGPT reichte das allerdings lange trotzdem nicht, der große Sieg der KI wurde zwar immer mahnend beschworen, der SPIEGEL schrieb 1989 warnend »Die Macht geht auf blöde Apparate über«. Aber kaum eine Technologiehoffnung wurde so oft und so nachhaltig enttäuscht wie der Glaube an eine tatsächlich halbwegs intelligente KI. Im Guten wie im Schlechten.

Anfang der Nullerjahre verändert sich genau das auf interessante Weise. Schon länger gab es eine Schule der KI, die überzeugt war, dass denkende Maschinen etwa so aufgebaut sein müssten wie Gehirne, also als neuronale Netze. Die dazugehörige Variante der Mustererkennung heißt Deep Learning. Dabei werden viele Prozessoren untereinander vernetzt und bilden eine sogenannte Schicht. Darauf wird eine weitere Schicht mit noch mehr vernetzten Prozessoren gelegt, etwa nach dem Muster, wie die Neuronen im Gehirn miteinander verschaltet sind. Darüber wieder eine Schicht und noch eine und noch eine.

Das Sprachmodell, mit dem ChatGPT gestartet ist, GPT-3.5, hat bis zu 96 Schichten. Leider waren die Ergebnisse von neuronalen Netzen trotz des Gehirnkonzepts »normalen« Computern lange unterlegen. Aber mit den immer stärkeren Prozessoren geschah 2012 etwas Überraschendes: Bei einer der wichtigsten Disziplinen, der Bilderkennung, waren neuronale Netze den klassischen Computern plötzlich deutlich überlegen.

Bilderkennung ist eine der klassischen Disziplinen der künstlichen Intelligenz. Sie wird zum Beispiel gebraucht, damit Computer ihre Umwelt besser erkennen können. Und gleichzeitig ist die Bilderkennung der erste Schritt zur Bildherstellung.

Wenn ich eine Katze auf einem Foto erkenne, dann beruht das auf meinem Wissen, welche visuellen Merkmale oder eben Muster auf eine Katze hindeuten und welche nicht: Spitze Ohren, Reißzähne, Fell – ja. Sonnenbrille, Daumen, Hosenanzug – tendenziell nein. Mit diesem Wissen kann man dann auch einfacher ein Katzenbild erschaffen. Deshalb ist die Entdeckung der Fähigkeiten von neuronalen Netzen ein Sprung für die generative künstliche Intelligenz. Dafür hat der KI-Forscher Geoffrey Hinton 2024 den Nobelpreis bekommen.

Das hat bis 2017 immerhin dazu geführt, dass KI Bilddaten so gut erkennen konnte, dass man damit zum Beispiel autonomes Fahren auf den Weg bringen konnte. Mit menschlicher Sprache aber waren neuronale Netze lange zu schnell überfordert. Bis 2017 ein wissenschaftliches Papier den Grundstein für den heutigen Erfolg von künstlicher Intelligenz wie ChatGPT legte: Die »Google Eight«, acht damals bei Google angestellte Wissenschaftler verfassten ein Papier namens »Attention is all you need« . Frühere KI-Modelle analysierten Texte streng sequenziell, Wort für Wort, und stießen damit rasch an die Grenzen des Textverständnisses.

Im Papier stellten die acht das Prinzip »Transformer« vor (das »T« von ChatGPT kommt daher). Dabei schaut die KI nach den Mustern und Zusammenhängen zwischen den mutmaßlich wichtigsten Worten und kleineren Wortteilen (die nennt man Token) eines Textes. Dann richtet der Computer die Aufmerksamkeit auf diese wichtigen Passagen und deren Zusammenhänge – daher der Titel des Papiers.

Man kann sich das ungefähr vorstellen wie eine Person, die die wichtigsten Begriffe in einem Text unterstreicht. Dann lässt sich auf den ersten Blick viel besser sehen, wovon der Text überhaupt handelt. Und auf diese Weise kann man das wichtigste Verständnismuster für Texte, die Beziehung der Worte untereinander, leichter erkennen.

Mit »Attention is all you need« war der Grundstein von ChatGPT gelegt

Ob direkt nach einem Wort wie »kalt« ein Wort wie »ein«, »die« oder »und« kommt, ist nicht besonders entscheidend. Ob zwei Sätze später aber »Wetter« steht oder »Persönlichkeit« zu lesen ist, prägt die Bedeutung des Textes maßgeblich. Mit »Attention is all you need« und dem Prinzip Transformer war der Grundstein von ChatGPT gelegt. Bis heute steckt der technologische Ansatz der Transformer hinter den bekannten großen Sprachmodellen, also der Software, die zum Beispiel hinter ChatGPT, Claude oder DeepSeek steckt, gewissermaßen der Motor dieser künstlichen Intelligenzen.

Trotzdem war die Entdeckung des Transformers noch immer nicht ausreichend, um eine künstliche Intelligenz zu erschaffen, die zum Beispiel so mühelos den Turing-Test besteht, wie man es heute gewohnt ist. Bis OpenAI, das Unternehmen hinter ChatGPT, durch langwierige und teure Versuche zu einer Entdeckung kommt und 2020 dazu ein wissenschaftliches Papier veröffentlicht: »Scaling Laws for Neural Language Models«  heißt es.

Die einfache, aber revolutionäre Erkenntnis dahinter: Viel hilft viel. Sehr viel hilft sehr viel. Mehr Rechenleistung – und auch mehr deshalb verarbeitbare Daten – verbessert die Qualität von künstlicher Intelligenz deutlich. Allerdings sind die Effekte erst dann wirklich spürbar, wenn nicht nur ein paar Hunderte, sondern Tausende oder sogar Zehntausende Prozessoren gleichzeitig arbeiten. Erst dann werden die vielen Schichten neuronaler Netze so gut in der Mustererkennung, dass es für menschliche Sprache ausreicht.

Aus diesem Grund ist die Entwicklung von großen Sprachmodellen, dem gegenwärtig besten Ansatz für menschenähnliche künstliche Intelligenz, so unfassbar teuer. Die erste, im November 2022 veröffentlichte Version von ChatGPT, wurde mit 10.000 Prozessoren des Modells A100 trainiert, der Stückpreis lag damals bei mehr als 30.000 US-Dollar.

Wie KI die Basics lernt

Die Art des Trainings für große Sprachmodelle, maßgeblich von OpenAI entwickelt, ist ein weiterer Grund für die Qualität heutiger, generativer künstlicher Intelligenz. ChatGPT hat vor allem zwei Arten des Machine Learnings kombiniert: einerseits das »Self-Supervised Learning«, also das selbstüberwachte Lernen. Dabei werden riesige Datenmengen, zum Beispiel Texte aus dem Internet, nach wiederkehrenden Mustern und Wahrscheinlichkeiten durchforstet. Dann werden die erkannten Muster überprüft, etwa, in dem die Maschine sich selbst fragt, wie ein Satz mit welcher Wahrscheinlichkeit zu beenden ist: »Die Katze sitzt auf der« … die größte Wahrscheinlichkeit hätte dann vielleicht »Fensterbank«, danach vielleicht »Mauer« und dann »Bettdecke«. So lernt die KI die Basics.

Danach kommt die zweite, wichtige Art des Lernens, das »Reinforcement Learning«, also das bestärkende Lernen. Dabei wird oft menschliches Feedback eingebaut, also Leute, die die verschiedenen Lösungsvorschläge der Maschine bewerten – und dann die guten Lösungen belohnen und die schlechten bestrafen (reinforcement). Mit der richtigen Kombination dieser beiden Lernansätze schließlich kommt man so weit, dass es für die Veröffentlichung von ChatGPT am 30. November 2022 gereicht hat, also dem Produkt, das den heutigen Hype wie Siegeszug von KI angestoßen hat.

Bis heute hört man oft, dass generative KI einfach nur die Wahrscheinlichkeit berechnet, mit der auf ein Wort ein anderes folgt, wenn der Kontext dazu geliefert wird. Als »Stochastische Wahrheit« wird generative KI auch von Fachleuten oft verspottet, ein bekanntes Zitat der Linguistin und KI-Kritikerin Emily Bender lautet: »Large language models are stochastic parrots.« (Große Sprachmodelle sind stochastische Papageien).

In vielen Abwertungen der KI steckt eine Spur Hybris

Das soll an den Grundfesten des Prinzips künstliche Intelligenz rütteln, weil es unterstellt: Da ist nichts intelligent, der Sinn wird gar nicht ernsthaft maschinell verstanden, das Verständnis nur nachgeahmt. Das ist technisch betrachtet zwar wahrscheinlich weitgehend korrekt, obwohl man argumentieren könnte, dass der Mensch künstliche Intelligenz gar nicht so tiefgreifend versteht, um das wirklich beurteilen zu können.

Aber eine andere Entgegnung erscheint mir zielführender, erst recht kurz vor einem mutmaßlichen Durchbruch mit GPT-5. Denn dass die Maschine auch im Jahr 2025 Verständnis und Intelligenz nur sehr geschickt nachahmt, mag sein. Aber das Denken des Menschen funktioniert verdammt ähnlich. Und so steckt in vielen allzu heftigen Abwertungen der künstlichen Intelligenz zumindest eine Spur der Hybris, dass der Mensch noch stets überlegen sei. Was mir angesichts der gegenwärtigen Entwicklung doch arg mutig erscheint. Übermutig beinahe.

Gesamten Artikel lesen