Die Online-Enzyklopädie Wikipedia und damit verbundene Bibliotheken haben im vergangenen Jahr einen drastischen Anstieg der Bandbreite für Downloads von Multimedia-Inhalten registriert und schieben das auf Scraper fürs Training von KI. Das geht aus einer Mitteilung der Wikimedia Foundation hervor, in der die damit verbundenen Schwierigkeiten erläutert werden. So sei man auf plötzlich ansteigendes Interesse an bestimmten Inhalten vorbereitet, die kontinuierlichen Zugriffe auf alle und auch bislang selten geöffnete Inhalte würden aber ganz eigene Probleme mit sich bringen und die Infrastruktur in besonderem Maß belasten. Man müsse jetzt daran arbeiten, dass Zugriffe von Menschen priorisiert werden.
Weniger Reserven für ereignisreiche Tage
Die Nachfrage nach Multimedia-Bandbreite im zeitlichen Verlauf
(Bild: Chris Danis, CC BY 4.0 )
Mit einem Diagramm und ein paar Hintergründen macht das Team deutlich, wie die Herausforderung aussieht. Zu sehen ist darauf die Bandbreite für Multimedia-Downloads im zeitlichen Verlauf. Während das allgemeine Niveau seit dem Frühjahr 2024 merklich gewachsen ist, zeigt das Diagramm im Jahresverlauf mehrere Spitzen. Die höchste Spitze fällt auf die Zeit nach dem Tod des ehemaligen US-Präsidenten Jimmy Carter. Die Organisation erklärt, dass "einige Menschen" aus diesem Anlass das anderthalbstündige Video einer Debatte zwischen Carter und Ronald Reagan angesehen hätten. Genau auf solche Ereignisse sei man eigentlich gut vorbereitet, aber in dem Fall habe es für einige etwa eine Stunde lang merkliche Ladezeiten gegeben.
Laut der Wikimedia Foundation waren die KI-Scraper für diese Probleme verantwortlich. Eigentlich sei die eigene Infrastruktur so aufgebaut, dass besonders beliebte Inhalte in einem von mehreren Rechenzentren vorgehalten werden. Nur für weniger oft nachgefragte Inhalte würden die Anfragen direkt an das zentrale Rechenzentrum durchgereicht. Das senke insgesamt die Last, auch wenn etwas Unvorhergesehenes passiert. Außerdem besuchen Menschen zumeist immer die gleichen Inhalte. KI-Scraper würden kontinuierlich möglichst viele Inhalte abrufen und damit immer wieder beim zentralen Rechenzentrum landen. Damit steige die Gesamtlast und es schrumpfen die Reserven für den Fall, dass das Interesse an der Enzyklopädie plötzlich steigt.
Zusätzlicher Traffic ohne Mehrwert
Zwei Drittel des Traffics, der die meisten Ressourcen benötigt, kommen demnach bereits von Anfragen, die nicht auf menschliches Verhalten im Browser zurückzuführen seien. Bei dem Team, das für die zuverlässige Funktionsweise der eigenen Angebote zuständig ist, sorge das inzwischen konstant für Unterbrechungen. Immer wieder werden demnach derart automatisierte Anfragen blockiert, damit Menschen die Wikipedia und die restlichen Inhalte ungestört nutzen können. Der Traffic durch die KI-Scraper sei "beispiellos" und bedeute "wachsende Risiken und Kosten", schreibt die Foundation noch. Im Gegenzug gebe es gleichzeitig keinen Mehrwert, etwa durch mehr Sichtbarkeit für die Wikipedia und mehr Besuche von Menschen.
Probleme durch den Ressourcenaufwand für die Auslieferung von Inhalten an KI-Scraper sind nicht neu, im Januar hat etwa die Nachrichtenseite Linux Weekly News (LWN-net) öffentlich gemacht, dass die Zugriffe einen regelrechten DDoS-Angriff bewirken und die Seite deshalb für alle langsamer reagiere. Wer genau die KI-Bots betreibt, die die Systeme von Wikimedia belasten, schreibt die Foundation nicht. Es liegt aber nahe, dass man die Verantwortlichen dort gar nicht identifizieren kann. Die unterschiedlichsten KI-Unternehmen trainieren ihre Modelle mit frei im Internet verfügbaren Daten und die Wikipedia ist dafür eine der besten Quellen überhaupt.
(mho)