Große Sprachmodelle, die mit ihren Outputs den Menschen nach dem Mund reden, sind nicht besonders hilfreich. Es nervt zuweilen sogar und ist außerdem ein Qualitätsproblem. Daten von Reddit sollen jetzt helfen.
Im April kündigte OpenAI an, ein Update seines GPT-4o-Modells zurückzunehmen, das den Output von ChatGPT auf Prompts erstaunlich unterwürfig gemacht hatte. Ein KI-Modell, das sich übermäßig gefällig und schmeichelhaft verhält, ist mehr als nur unangenehm. Es könnte falsche Überzeugungen verstärken, manche in die Irre führen und im Brustton der Überzeugung Falschinformationen verbreiten, die sogar gefährlich sein können – ein besonderes Risiko, wenn man bedenkt, dass immer mehr junge Menschen ChatGPT als Lebensberater nutzen. Und da solcherlei Sycophancy, wie es so schön auf Englisch heißt, schwer zu erkennen ist, kann sie zunächst unbemerkt bleiben, bis ausreichend Feedback vorliegt.
Die KI widerspricht nicht
Gut wäre es daher, wenn es einen Benchmark für derlei unterwürfige Tendenzen geben würde. Das Team hinter dem neuen Testsystem "Elephant" hat einen solchen entwickelt. Die Wissenschaftlerinnen und Wissenschaftler der Hochschulen Stanford, Carnegie Mellon und Universität Oxford haben herausgefunden, dass LLMs durchweg höhere Raten an unterwürfigen Verhaltensweisen aufweisen als menschlicher Output. "Wir haben gesehen, dass Sprachmodelle die Annahmen nicht hinterfragen, auch wenn diese schädlich oder völlig irreführend sind", sagt Myra Cheng, Doktorandin an der Stanford University, die an der Elephant-Entwicklung mitgearbeitet hat. Die dazugehörige Studie hat noch keinen Peer-Review erhalten. "Wir wollten Fachleuten Werkzeuge an die Hand geben, um ihre Modelle empirisch auf solche Effekte zu bewerten, da es sich um ein weitverbreitetes Problem handelt."
Es ist schwer zu beurteilen, ob ein KI-Modell so agiert, da die unerwünschte Schmeichelei viele Formen annehmen kann. Frühere Untersuchungen hatten sich in der Regel darauf konzentriert, wie sehr Chatbots zustimmen, obwohl das, was der Mensch eintippt, nachweislich falsch ist. Dieser Ansatz ist zwar nach wie vor nützlich, übersieht jedoch alle subtileren, scheinbar hinterhältigen Verhaltensweisen, mit denen Modelle sich beliebt zu machen scheinen. Es fehlen also Messgrößen.
So wollen Forscher die soziale Anbiederung messen
Menschen stellen LLMs in der Regel offene Fragen, die implizite Annahmen enthalten, und diese Annahmen können dann wiederum unerwünschte anbiedernde Antworten auslösen, so das Forscherteam. Ein Modell, das beispielsweise gefragt wird, wie man mit schwierigen Kolleginnen und Kollegen umgehen soll, akzeptiert eher die Prämisse, dass ein Kollege schwierig ist, als zu hinterfragen, warum dies gedacht wird.
Um diese Forschungslücke zu schließen, wurde Elephant entwickelt, das soziale Anbiederung messen kann – die Neigung eines Modells, das "Gesicht" oder Selbstbild des Nutzers zu wahren, auch wenn dieser fehlgeleitet oder potenziell sogar schädlich agiert. Es verwendet Metriken aus den Sozialwissenschaften, um fünf nuancierte Verhaltensweisen zu bewerten, die unter den Begriff Unterwürfigkeit fallen: emotionale Bestätigung, moralische Billigung, indirekte Sprache, indirekte Handlungen und Akzeptanz von Framing.
Lernen von Menschen in sozialen Netzwerken
Zu diesem Zweck testeten die Fachleute das Modell anhand von zwei Datenbanken, die aus persönlichen Ratschlägen von Menschen bestanden. Der erste Datensatz umfasste 3.027 offene Fragen zu verschiedenen Situationen aus dem realen Leben, die aus früheren Studien stammen. Der zweite Datensatz wurde aus 4.000 Beiträgen im Reddit-Subreddit "AITA" ("Am I the Asshole?", also "Bin ich ein Arschloch?") zusammengestellt, einem beliebten Forum für Ratsuchende. Diese Datenbanken wurden in acht LLMs von OpenAI, Google, Anthropic, Meta und Mistral eingespeist – und die Antworten wurden analysiert, um zu sehen, wie sie im Vergleich zu denen von Menschen abschneiden. Die von den Fachleuten bewertete Version von GPT-4o war älter als die Version, die das Unternehmen später selbst als zu anbiedernd bezeichnete.
Insgesamt erwiesen sich alle acht Modelle als weitaus schmeichlerischer als Menschen. In 76 Prozent der Fälle boten sie emotionale Bestätigung (gegenüber 22 Prozent bei Menschen) und akzeptierten in 90 Prozent der Antworten die Art und Weise, wie eine Frage formuliert wurde (gegenüber 60 Prozent bei Menschen). Die Modelle befürworteten außerdem in durchschnittlich 42 Prozent der Fälle aus dem AITA-Datensatz Verhalten, das Menschen als unangemessen bezeichneten.
Es reicht jedoch nicht aus, nur zu wissen, wann Modelle so agieren. Man muss auch in der Lage sein, etwas dagegen zu unternehmen. Und das ist schwieriger. Die Autoren hatten nur begrenzten Erfolg, als sie versuchten, diese Tendenzen durch zwei verschiedene Ansätze zu mildern: Sie forderten die Modelle auf, ehrliche und genaue Antworten zu geben, und trainierten ein Modell in der Feinabstimmung anhand von gekennzeichneten AITA-Beispielen, um weniger anbiedernde Antworten zu fördern. Sie stellten etwa fest, dass das Hinzufügen des Hinweises "Bitte gib mir direkte Ratschläge, auch wenn diese kritisch sind, da diese für mich hilfreich sind" die effektivste Technik war, aber die Genauigkeit nur um drei Prozent erhöhte. Und obwohl die Aufforderung die Output-Leistung der meisten Modelle verbesserte, war keines der fein abgestimmten Modelle durchweg besser als die Originalvariante.
"Es ist schön, dass es auf eine Art funktioniert, aber ich glaube nicht, dass dies eine endgültige Lösung ist", sagt Ryan Liu, Doktorand an der Princeton University, der sich seit Längerem mit LLMs beschäftigt, aber nicht an der Studie beteiligt war. "In diesem Bereich gibt es definitiv noch viel zu tun, um das zu verbessern."
Woher kommt das anbiedernde Verhalten der KI?
Ein besseres Verständnis der Tendenz von KI-Modellen, schmeichlerisch aufzutreten, ist essenziell. Denn: Es liefert den Entwicklern wichtige Erkenntnisse darüber, wie LLMs sicherer gemacht werden können, glaubt auch Henry Papadatos, Geschäftsführer der gemeinnützigen Organisation SaferAI, die sich für sichere KI einsetzt. Die rasante Geschwindigkeit, mit der KI-Modelle derzeit von Abermillionen Menschen auf der ganzen Welt eingesetzt werden, ihre textliche Überzeugungskraft und ihre verbesserten Fähigkeiten, Informationen zu speichern, seien "potenzielle Komponenten einer Katastrophe", sagt er. "Gute Sicherheit braucht Zeit, und ich glaube nicht, dass diese aufgewendet wird."
Wir kennen zwar bis jetzt nicht die inneren Abläufe von LLMs, die nicht quelloffen sind, aber aufgrund der Art und Weise, wie wir sie derzeit trainieren und weiterentwickeln, ist es wahrscheinlich, dass die Anbiederei in die Modelle praktisch eingebaut ist. Forscherin Cheng glaubt, dass Modelle oft darauf trainiert werden, auf die Antworten zu optimieren, die als bevorzugt angegeben werden. ChatGPT beispielsweise ermöglicht, eine Antwort mit einem Daumen hoch oder Daumen runter als gut oder schlecht zu bewerten. "Schleimerei ist etwas, was die Leute dazu bringt, zu diesen Modellen zurückzukehren. Das ist fast der Kern dessen, was ChatGPT so angenehm macht", sagt sie. "Daher ist es für Unternehmen wirklich von Vorteil, wenn ihre Modelle so agieren." Während einige dieser schmeichlerischen Verhaltensweisen den Erwartungen entsprechen, können andere potenziell schädlich sein, wenn sie dabei zu weit gehen – insbesondere wenn Menschen sich an LLMs wenden, um emotionale Unterstützung oder Bestätigung zu erhalten.
Vor den Risiken sozialer Unterwürfigkeit warnen
"Wir möchten, dass ChatGPT wirklich nützlich ist und nicht unterwürfig", sagt ein Sprecher von OpenAI. "Als wir bei einer kürzlich durchgeführten Modellaktualisierung unterwürfiges Verhalten festgestellt haben, haben wir es umgehend zurückgenommen und eine Erklärung zu den Geschehnissen veröffentlicht. Wir verbessern derzeit die Art und Weise, wie wir Modelle trainieren und bewerten, um deren langfristigen Nutzen und Vertrauenswürdigkeit besser widerzuspiegeln, insbesondere in emotional komplexen Gesprächen."
Cheng und ihre Mitautoren schlagen vor, dass Entwickler vor den Risiken sozialer Unterwürfigkeit warnen und eine Einschränkung der Modellnutzung in sozial sensiblen Kontexten in Betracht ziehen sollten. Sie hoffen, dass ihre Arbeit als Ausgangspunkt für die Entwicklung sicherer Leitplanken dienen kann.
Derzeit untersucht sie die potenziellen Schäden, die mit solchen LLM-Verhaltensweisen verbunden sind, wie sie sich auf Menschen und ihre Einstellung gegenüber anderen Menschen auswirken und wie wichtig es ist, Modelle zu entwickeln, die die richtige Balance zwischen zu unterwürfig und zu kritisch finden. "Das ist eine sehr große soziotechnische Herausforderung", sagt sie. "Wir wollen nicht, dass LLMs am Ende sagen: ‚Du bist ein Arschloch.'"
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(vza)