OpenAI unter Verdacht: GPT-4o angeblich mit O'Reilly-Büchern trainiert

vor 1 Tag 1

Das US-Softwareunternehmen OpenAI soll zum Training seines KI-Modells GPT-4o ohne Erlaubnis auf mindestens 34 Bücher aus dem O’Reilly-Verlag zurückgegriffen haben. Darauf deutet eine Studie des AI Disclosures Project hin, an der Verlagsgründer und Geschäftsführer Timothy O’Reilly selbst beteiligt gewesen ist. In der Studie überprüften die Forscher mit GPT-3.5 Turbo und GPT-4o mini zwei weitere Modelle des Unternehmens, fanden dabei allerdings weniger eindeutige Hinweise auf potenzielle Verstöße gegen das Urheberrecht des O’Reilly-Verlags.

In ihrer Untersuchung stellten die Studienautoren den KI-Modellen von OpenAI eine Reihe von Multiple-Choice-Fragen. Bei einer der vier Antwortoptionen handelte es sich um ein wörtliches Zitat aus einem der 34 untersuchten Bücher des O’Reilly-Verlages, die übrigen drei Auswahlmöglichkeiten waren paraphrasierte Varianten davon. Insgesamt nutzten sie knapp 14.000 Auszüge der Bücher. Erkannte der Chatbot das wörtliche Zitat, deuteten die Forscher dies als Hinweis, dass das jeweilige KI-Modell mit urheberrechtlich geschütztem Material des Verlages trainiert worden war.

Dieser Workshop zeigt, wie GitHub Copilot und ChatGPT das Erstellen von Code vereinfachen und beschleunigen kann. Unter Anleitung arbeiten die Teilnehmenden direkt mit den Tools und setzen GitHub Copilot und ChatGPT in ihren Entwicklungsworkflows ein. Sie lernen, die OpenAI REST API in verschiedenen Programmiersprachen wie .NET, Python und JavaScript/TypeScript zu implementieren, um die Möglichkeiten von ChatGPT in eigenen Projekten zu nutzen. Darüber hinaus führt die Schulung in die Welt des Embedding und des Retrieval-Augmented Generation (RAG) Designs ein. Der Workshop findet online statt, weitere Infos unter heise.de/s/Ndl6l

Konkret errechneten die Studienautoren einen sogenannten AUROC-Wert, der sich aus statistischen Untersuchungen herleiten lässt. Höhere Werte deuten auf eine höhere Wahrscheinlichkeit, dass OpenAI ein KI-Modell mit den Büchern des O’Reilly-Verlages trainierte. Für GPT-4o ermittelten die Forscher einen Wert von 82 Prozent, aus dem sie einen deutlichen Hinweis ableiteten, dass Inhalte der Bücher beim Training des Modells zum Einsatz kamen. Zudem vermuteten sie, dass OpenAI eine Datenbank der Schattenbibliothek Library Genesis verwendete, die alle 34 Bücher enthält.

Weiterhin folgerten die Forscher des AI Disclosures Project, dass die Bedeutung nicht-öffentlicher Daten beim Training von OpenAI-Modellen im Laufe der Zeit zugenommen habe. So erzielte das Modell GPT-3.5 Turbo mit einer Datenbasis von 2021 einen AUROC-Wert von 54 Prozent für nicht-öffentliche Auszüge. Jedoch erreichte das 2024 veröffentlichte Modell GPT-4o mini mit 56 Prozent einen ähnlichen Wert. Den Studienautoren zufolge lässt sich daraus ableiten, dass OpenAI diese beiden Modelle nicht mit den O’Reilly-Büchern trainierte.

Obwohl es sich bei der Untersuchung um eine Einzelbetrachtung der OpenAI-Modelle und Werke des O’Reilly-Verlages handelt, sehen die Autoren ein systematisches Problem in der Nutzung urheberrechtlich geschützter Werke zum Training von Sprachmodellen. Zudem brauche es mehr Transparenz und einen formalen Lizenzierungsrahmen für die beim Training genutzten Inhalte. Ohne eine entsprechende Vergütung werde es künftig keine Inhalte mehr geben, mit denen sich die Modelle trainieren lassen. Zuletzt klagte auch die New York Times wegen Urheberrechtsverstößen beim Training von KI-Modellen gegen OpenAI.

(sfe)

Gesamten Artikel lesen