Training von KI-Modellen: Reddit verklagt Anthropic

vor 1 Tag 2

Reddit hat am Mittwoch eine Klage gegen das KI-Start-up Anthropic wegen angeblichen Vertragsbruchs und "ungesetzlicher und unlauterer Geschäftspraktiken" eingereicht. Das Social-Media-Unternehmen wirft Anthropic vor, unrechtmäßig seine Plattform und Daten zu nutzen. In der am Mittwoch beim Obersten Gericht des Bundesstaates Kalifornien im Bezirk San Francisco eingereichten Klage (AZ. CGC-25-625892) behauptet Reddit, dass Anthropic seine KI-Modelle mit den persönlichen Daten von Reddit-Nutzern trainiert hat, ohne deren Zustimmung einzuholen. Durch die unbefugte kommerzielle Nutzung seiner Inhalte sei Reddit ein Schaden entstanden.

Anthropic sei alles andere als der "weiße Ritter der KI-Industrie", als der es sich selbst anpreise, so Reddit in der Klage. Vielmehr wird Anthropic "in der Tat absichtlich auf den persönlichen Daten von Reddit-Nutzern trainiert, ohne sie jemals um ihre Zustimmung zu bitten". Bereits im Sommer vergangenen Jahres wurde Anthropic vorgeworfen, in aggressiver und unerlaubter Weise Daten von Websites abzugreifen, um seine KI-Systeme zu trainieren, und dabei möglicherweise gegen die Nutzungsbedingungen der Herausgeber zu verstoßen. In der Klage heißt es dazu nun: "Im Juli 2024 behauptete Anthropic als Reaktion auf die öffentlichen Proteste von Reddit bezüglich des Missbrauchs von Reddit-Inhalten durch Anthropic, dass es seinen Bots den Zugriff auf Reddit verwehrt habe. Dem war nicht so. Die Bots von Anthropic griffen weiterhin über hunderttausendmal auf die Server von Reddit zu."

Große Datenmengen für KI-Training erforderlich

Die führenden Unternehmen im Bereich Künstliche Intelligenz (KI) konkurrieren um die Entwicklung immer leistungsfähigerer und ausgefeilterer Sprachmodelle und benötigen dafür Unmengen an Daten. KI-Firmen wie Anthropic, aber auch OpenAI trainieren ihre großen generativen KI-Sprachmodelle mit gewaltigen Datenmengen aus einer Vielzahl von Quellen. Anthropics KI-Chatbot Claude, der OpenAIs ChatGPT Konkurrenz macht, kann auf eine Reihe von Aufforderungen in natürlicher Sprache reagieren. Das erklärte Ziel von Anthropic, das von einer Gruppe ehemaliger OpenAI-Mitarbeiter gegründet wurde, ist demnach "die verantwortungsvolle Entwicklung und Pflege fortschrittlicher KI zum langfristigen Nutzen der Menschheit".

Diese Behauptungen bezeichnet Reddit in seiner Klage als "leere Werbegags". Im Gegensatz zu seinen Konkurrenten habe sich Anthropic geweigert, die grundlegenden Datenschutzrechte der Reddit-Nutzer zu respektieren, einschließlich der Entfernung gelöschter Beiträge aus seinen Systemen. Vielmehr werde Anthropic "auf der weltweit größten Online-Diskussionsplattform" Reddit.com geschult.

Reddit begann im vergangenen Jahr damit, verschiedene Suchmaschinen und deren Webcrawler auszusperren, sollten sich diese nicht mit der Online-Plattform auf eine Lizenzvereinbarung einigen. Nur Google blieb ausgenommen, weil Google Inhalte von Reddit für KI-Training lizenziert hat. Mitte Mai kündigte Reddit eine ähnliche Partnerschaft mit OpenAI an, die es dem Unternehmen ermöglichen wird, seine KI-Modelle auf Reddit-Inhalten zu trainieren. Das berichtete der US-Nachrichtensender CNBC. Der CEO von OpenAI, Sam Altman, ist demnach ein Großinvestor von Reddit. Sein Anteil an Reddit wird inzwischen auf weit über eine Milliarde US-Dollar geschätzt.

Anthropic verletzt die Reddit-Regeln

"Die unbefugte kommerzielle Nutzung von Reddit-Inhalten schadet Reddit, das einen Markt für die Lizenzierung von Inhalten geschaffen hat, durch den Reddit sinnvolle Leitplanken für die Nutzung solcher Inhalte aufstellt, um sowohl Reddit als auch seine Nutzer zu schützen", schreibt Reddit in der Klage. Andere Giganten der KI-Branche verstünden und respektierten die Regeln von Reddit. So hätten beispielsweise OpenAI, Google, Sprinklr und Cision formelle Lizenzvereinbarungen mit Reddit geschlossen, um im Gegenzug rechtmäßigen Zugang zu öffentlichen Inhalten der Plattform zu erhalten. "Anthropic schert sich nicht um die Regeln oder die Nutzer von Reddit, auch wenn das Marketingmaterial dies behauptet: Anthropic ist der Meinung, dass es das Recht hat, ungestraft jeden beliebigen Inhalt zu nehmen und zu verwenden, wie es das möchte. Dem ist nicht so."

Reddit verweist in der Klage darauf, dass es Regeln aufgestellt hat, die vorschreiben, wie seine Daten verwendet werden können. "Diese Regeln, die in der Reddit-Nutzungsvereinbarung klar festgehalten sind, verbieten es jedem, ohne die Zustimmung von Reddit die 'kommerzielle Nutzung' von Reddit-Diensten oder -Inhalten." Man sei der Ansicht, dass die Reddit-Community allen Menschen offen stehen sollte, die auf der Suche nach Kontakten und Gemeinschaft sind. Reddit "hat jedoch nie zugelassen, dass seine Plattform und die zahllosen Communities, die dort ein Zuhause finden, von kommerziellen Akteuren vereinnahmt werden, die milliardenschwere Unternehmen gründen wollen und Reddit und seinen Nutzern keine Gegenleistung bieten".

Reddit erklärte, das Ziel der Klage sei es, Anthropic zur Einhaltung seiner vertraglichen und sonstigen rechtlichen Verpflichtungen zu zwingen und Schadenersatz für Verstöße von Anthropic gegen diese Verpflichtungen zu verlangen.