Jeffrey Epstein: Millionen Dokumente stellen Tempo und Technik auf die Probe

vor 2 Stunden 2

Der neue Datensatz zu Jeffrey Epstein ist gewaltig: Mehr als drei Millionen Seiten, knapp 300 Gigabyte, ausgedruckt entspräche das rund 2300 Ausgaben der Gutenberg-Bibel. Vor allem aber sind die Daten öffentlich zugänglich, jeder kann die Fotos, Dokumente und Videos einsehen.

Journalistinnen und Journalisten haben schon in der Vergangenheit große Datensätze ausgewertet. Bei den WikiLeaks- und den »Panama Papers«-Veröffentlichungen arbeiteten Redaktionen rund um den Globus über Monate hinweg koordiniert zusammen. Die Epstein-Akten dagegen liegen frei zugänglich vor, ohne dass ein internationales Recherchekonsortium sie vorab erhalten hätte.

Auf Plattformen wie Reddit und X diskutieren Nutzer die Daten unabhängig davon intensiv, laden einzelne E-Mails hoch und interpretieren sie. Das verändert Tempo und Dynamik der Auswertung erheblich – und damit auch die Nachrichtenlage.

Die Suchfunktion ist jedoch unzuverlässig, Dokumente lassen sich nur einzeln herunterladen, gebündelte ZIP-Archive stehen nicht zur Verfügung. Dateien wurden vom Justizministerium zwischenzeitlich gelöscht, erneut hochgeladen oder in überarbeiteter Form eingestellt. Teilweise sind Passagen geschwärzt, die zuvor lesbar waren. Opferanwälte haben zudem gefordert, die Seite ganz offline zu nehmen, weil in den Dokumenten zu viele Rückschlüsse auf sensible Informationen sichtbar seien.

Eine systematische Recherche, die sich nicht auf das Eingeben von Suchbegriffen auf der Website des Justizministeriums beschränkt, kann deshalb für Redaktionen erst mit ein paar Tagen Verzögerung beginnen. Erst muss der vollständige Datensatz heruntergeladen und technisch aufbereitet werden. Dazu gehört auch die sogenannte Vektorisierung, also eine Indizierung der Dokumente, die es erlaubt, größere Textmengen mittels künstlicher Intelligenz nach Mustern und möglichen Zusammenhängen zu durchsuchen.

Aus einem Kontakt wird noch kein Vorwurf

Solche journalistischen Recherchen bestehen darin, systematisch vorzugehen und mit Hypothesen zu arbeiten. In den vergangenen Wochen hat etwa der SPIEGEL Listen erstellt: mit Namen von Politikern, Unternehmern, Wissenschaftlern, Lobbyisten, mit Ortsbezeichnungen, Firmennamen, Institutionen. Es sind Suchbegriffe, von denen zu erwarten ist, dass sie in den Dokumenten auftauchen.

Wer nach einem möglichen Deutschlandbezug sucht, wird etwa Dateien filtern, in denen Wörter wie »Berlin«, »Hamburg« oder »Mannheim« vorkommen. Ebenso können Ländervorwahlen, Firmensitze oder Stiftungsnamen Hinweise liefern. Jede Erwähnung ist zunächst jedoch nur ein Treffer, kein Beleg. Namen können zufällig auftauchen, Kontexte können missverstanden werden. Eine bloße Nennung begründet noch keinen Vorwurf, ein Kontakt ist nicht gleich Schuld – es kommt auf die Details an. Eine anonyme Behauptung, die in den Dokumenten als Hinweis an die Behörden auftaucht, beweist noch nichts.

Gerade bei der Aufarbeitung eines solchen Datenbergs zeigt sich, was fairer Journalismus bedeutet: sorgfältig prüfen, sauber einordnen, Betroffene anhören und erst dann veröffentlichen. Nicht die Größe des Datensatzes macht eine Geschichte belastbar, sondern die Genauigkeit, mit der sie recherchiert wird.

Gesamten Artikel lesen