xAI: Systemprompt von Grok wurde manipuliert

vor 12 Stunden 1

Das KI-Modell Grok von xAI hat am Mittwoch mehrere Stunden lang Falschinformationen über einen angeblichen "weißen Genozid" in Südafrika verbreitet. Wie das Unternehmen von Elon Musk jetzt mitteilte, sei eine "unbefugte Änderung" am Systemprompt Auslöser gewesen. xAI gelobte Besserung, unter anderem durch bessere Schutzmaßnahmen und mehr Transparenz durch Veröffentlichung des Systemprompts auf GitHub.

Die Störung haben Nutzer bei unterschiedlichen Anfragen an den Chatbot festgestellt. Die Falschaussagen erschienen dabei ohne jeglichen Zusammenhang zur Frage. Nach einigen Stunden war das Problem behoben und Grok antwortete wieder auf die Fragen.

xAI spricht in einer Stellungnahme von einem Verstoß gegen "interne Richtlinien und Grundwerte". Wie es möglich war, dass eine unbefugte Person weitreichenden Zugriff auf den Systemprompt hatte und dies zunächst unbemerkt bleiben konnte, teilte das Unternehmen nicht mit.

Mit einem 24/7-Überwachungsteam wolle man aber sicherstellen, dass sich so etwas nicht wiederholt. Dies ergänze vorhandene automatische Mechanismen, um Änderungen zu erkennen. Zudem soll es zusätzliche Prüfungen geben, damit Mitarbeiter Prompts nicht ohne Review ändern können.

Der von xAI auf GitHub veröffentlichte Systemprompt in verschiedenen Varianten enthält im Wesentlichen technische Anweisungen an die KI, wie sie mit Anfragen der Nutzer umgehen soll. Eine inhaltliche Einflussnahme ist dort nicht festzustellen. Mit der Veröffentlichung wolle man das Vertrauen in Grok erhöhen, schreibt xAI.

Bereits im Februar 2024 gab es einen ähnlichen Vorfall, als ein ehemaliger Mitarbeiter von OpenAI Änderungen am Systemprompt vornahm. Diese brachten Grok dazu, Quellen zu ignorieren, die Elon Musk und Donald Trump der Verbreitung von Falschinformationen beschuldigten.

(mki)

Gesamten Artikel lesen