Anthropic hat einen Teilsieg im Streit über mögliche Copyrightverletzungen beim Training großer Sprachmodelle (LLM) mit nicht lizenzierten Buchkopien erzielt. Ein US-Bundesbezirksgericht hat einem Antrag Anthropics auf ein Urteil nach abgekürztem Verfahren (summary judgement) teilweise stattgegeben. Die Nutzung der Kopien zum KI-Training ist demnach zulässig, nur der Download elektronischer Bücher von "Piratenseiten" ist illegal. Sowohl Anthropic als auch die betroffenen Buchautoren können Rechtsmittel einlegen.
In den USA sind dutzende Klagen mit dem Vorwurf der Copyrightverletzung durch KI-Betreiber anhängig. In diesem Fall haben drei Buchautoren, Andrea Bartz, Charles Graeber und Kirk Wallace Johnson, geklagt. Denn Anthropic hat, ohne Lizenzen, eine digitale Bibliothek erstellt, die möglichst alle Bücher der Welt enthalten soll. In dem Verfahren vor dem US-Bundesbezirksgericht für das Nördliche Kalifornien geht es um mehrere Gruppen von Handlungen:
- Anthropic hat mehr als sieben Millionen E-Bücher aus illegalen Quellen im Internet heruntergeladen und gespeichert.
- Anthropic hat (in der Regel gebrauchte) Druckausgaben gekauft, diese komplett mit Texterkennung eingescannt und die Druckausgaben vernichtet.
- Von vielen digitalen Büchern (aus beiden Quellen) hat Anthropic unzählige weitere Kopien erstellt, um damit verschiedene LLM zu trainieren.
- Außerdem hat Anthropic weitere Kopien für andere Zwecke erstellt. Diese Kopien wurden aber nicht an Dritte außerhalb des Unternehmens weitergegeben.
Die konkrete Klage erhebt nicht den Vorwurf, dass Anthropics LLM immaterialgüterrechtlich geschützte Texte an die Nutzer der LLM ausgegeben hat. Denn das hat eigens eingerichtete Filtersoftware (zumindest bislang) unterbunden. Nicht thematisiert wird im Prozess zudem die Anfertigung und Nutzung weiterer Werkskopien für diese Filtersoftware.
Fair Use
Anthropic hat beantragt, dass das Gericht alle Vorwürfe als sogenannte Fair Use anerkennen und das Verfahren einstellen soll. Ziel des US-Copyrights ist es, "den Fortschritt von Wissenschaft und nützlicher Kunst zu fördern". Wenn es hilft, dieses Ziel zu erreichen, können fremde Werke auch genutzt werden, wenn die Rechteinhaber nicht zustimmen. Diese Doktrin ist als Fair Use bekannt. Wann genau Fair Use vorliegt, ist im Gesetz nicht abschließend geregelt. Das wäre schwierig.
Im Streitfall müssen vier Faktoren geprüft werden: Es kommt auf den Zweck der Nutzung an – kommerziell, nicht kommerziell oder für Bildung – sowie auf die Art des Werks, die genutzten Ausschnitte im Vergleich zum Gesamtwerk und schließlich die Auswirkungen auf den potenziellen Markt oder Wert des Werks. Die vier Prüfungsergebnisse werden dann gegeneinander abgewogen.
Das hat das Bundesbezirksgericht getan. Dabei hat es den Sachverhalt in drei Teile gegliedert und wie folgt entschieden:
Nutzung der nicht genehmigten Kopien für das Training von LLM
Die Art der Nutzung (1. Faktor) spreche für Fair Use, weil die Nutzung "spektakulär" verändernd gewesen sei ("transformative"). Anthropics Ziel sei nicht gewesen, die genutzten Werke zu ersetzen, sondern mittels Künstlicher Intelligenz neue Texte zu erzeugen.
Die Art der Werke (2. Faktor) spreche hingegen leicht gegen Fair Use, ob es sich nun um Sachbücher oder um Belletristik handle.
Was den kopierten Umfang (3. Faktor) anbelangt, hat Anthropic unstrittig ganze Bücher genutzt, und sehr viele davon. Das sei zum Training von LLM zwar nicht unbedingt notwendig gewesen – Anthropic hätte beispielsweise auch Autoren für das Schreiben neuer Texte bezahlen können, oder einfache weniger Werke oder Werke anderer Autoren als der Kläger nehmen können – es sei aber vernünftigerweise notwendig (reasonably necessary) gewesen. Und Letzteres sei der rechtliche Maßstab.
Anthropic habe besonders gute Bücher genutzt, was "überzeugende Vorteile" habe. Und so überrascht der Richter mit der Feststellung, dass der 3. Faktor (Umfang der Nutzung) für Fair Use spreche, obwohl die Beklagte komplette Bücher kopiert hat.
Hinsichtlich der Auswirkungen auf den potenziellen Markt oder Wert des Werks (4. Faktor) stellt das Gericht fest, dass Anthropics Nutzung zum Training seiner LLM keine Nachfrage nach Werkskopien verdränge. Zwar könne das unlizenzierte Vorgehen verhindern, dass ein Markt für die Lizenzierung von Werken für das Training von LLM entsteht, doch sei dieses wirtschaftliche Ziel der Buchautoren nicht vom Copyright-Gesetz gedeckt. Doch der Richter belässt es nicht dabei, den 4. Faktor neutral auszulegen, sondern überrascht mit der Feststellung, dass die Nutzung der gesamten Bücher für Fair Use sprechen.