Die cloudbasierte Protokollverwaltung von Cloudflare hat für etwa dreieinhalb Stunden keine Daten an Kunden übermittelt. Etwa 55 Prozent der Logs gingen dabei verloren. Zuvor hatten Entwickler des Dienstleisters Änderungen am Logpush-System vorgenommen. Diese erwiesen sich als fehlerhaft, sodass die Entwickler eine frühere Version einspielten, die das Problem behob. Zwar dauerte es nur fünf Minuten, das Backup einzuspielen, aber die zwischenzeitlich entstandene Datenflut legte die Systeme stundenlang lahm.
Leere Konfiguration löst Datenflut aus
Der Logpush-Dienst liest Protokolldaten aus einem Puffer und leitet sie gebündelt an vom Kunden festgelegte Ziele weiter. Mit dem Update sollte die Unterstützung eines neuen Datensatzes eingeführt werden. Dazu ist die Konfiguration des Logfwdr-Dienstes nötig, die ein anderes System regelmäßig automatisch erledigt. Aufgrund eines Fehlers erhielt Logfwdr eine leere Konfiguration.
Laut dieser Konfiguration hatten Kunden keine Weiterleitungen eingerichtet und Logfwdr erhielt keine Protokolldaten mehr. Um Datenverluste zu vermeiden, löste eine Sicherungsfunktion aus, die anstelle der eingestellten Logs alle Protokolle weiterleitet. Nach Angaben von Cloudflare überstieg die Datenmenge den Speicherplatz der Puffer um das Vierzigfache. Eigentlich sollten die Puffer vor einer solchen Überlastung geschützt sein, jedoch seien die Konfigurationen dafür nicht abgeschlossen gewesen. Erst nach einem Neustart waren die Systeme wieder voll einsatzbereit. Zuletzt verlor auch Microsoft Logging-Daten.
Cloudflare gesteht ein, dass Fehler unausweichlich sind und die Systeme vorhersehbar und ohne Ausfälle darauf reagieren müssen. Dazu will das Unternehmen zukünftig die Systeme Überlastungstests unterziehen. Zudem soll es Warnungen vor Fehlkonfigurationen geben, die Entwickler nicht übersehen können.
Details zum Ausfall des Log-Service gibt es im Cloudflare Blog.
(sfe)