T. Schneider/shutterstock.comAm 14. November 2024 führte eine Fehlkonfiguration bei Cloudflare dazu, dass 55 Prozent der Kundenprotokolle verloren gingen. Dies geschah innerhalb von dreieinhalb Stunden und wurde durch eine kaskadenartige Überlastung verursacht. Der Fehler trat auf, als eine leere Konfigurationsdatei in den internen Logfwdr-Dienst eingespielt wurde. Darauf hin leitete der Service keine Kunden-Logs mehr weiter. Zwar aktivierte sich automatisch eine Failsafe-Funktion, allerdings war diese nicht auf die aktuelle Kundenzahl angepasst. So versuchte Failsafe die Logs für alle Kunden zu versenden, was zu einer Überlastung der Systeme führte. Konkret sieht die technische Reihenfolge so aus:
Tristan Fincken IDG
- Logfwdr
- Logfwdr ist ein interner Cloudflare-Dienst, der Ereignisprotokolle aus dem globalen Netzwerk empfängt, verarbeitet und basierend auf seiner Konfiguration entscheidet, welche Protokolle an den Logreceiver weitergeleitet werden.Logreceiver
- Logreceiver ist ein in Golang geschriebener Cloudflare-Dienst, der Protokolle-Batches empfängt. Er sortiert diese Informationen nach Ereignistyp und Zweck, bevor er sie als kundenindividuelle Batches für die Pufferung an Buftee weiterleitet. Der Logreceiver verarbeitet täglich etwa 45 Petabyte (PB) an Ereignisprotokollen.Buftee
- Buftee ist ein ebenfalls in Golang entwickeltes System. Es verwaltet verteilte, benannte Puffer, um für Logpush-Aufträge separate Puffer für jede Zone oder jedes Konto zu erstellen. Dies ermöglicht eine effiziente Verarbeitung . Ferner wird eine individuelle Verschlüsselung und Löschung von Kundendaten unterstützt, wobei weltweit über eine Million Puffer verwaltet werden.Logpush
- Logpush ist ein weiterer Golang-Dienst. Dieser liest die Protokolle aus aus Buftee-Puffern und leitet sie in konfigurierten Stapeln an verschiedene Ziele weit. Dabei werden täglich über 600 Millionen Batches übertragen.
Zukünftige Kaskaden verhindern
Auch wenn der Fehler schnell behoben wurde, kann das nicht darüber hinwegtäuschen, dass es Cloudflare versäumte, regelmäßig zu testen, ob das System solche Ereignisse bewältigen kann. Erschwerend kam hinzu, dass eine Failsafe-Funktion nicht richtig konfiguriert war. Cloudflare arbeitet nun nach eigenen Angaben an Maßnahmen, um ähnliche Probleme in der Zukunft zu vermeiden.So will das Unternehmen neue Warnmeldungen und Tests einführen: Neben bestehenden ‘Cut-Tests” plant Cloudflare regelmäßige ‘Überlastungstests”, um die Belastbarkeit der Systeme und ihre Reaktion auf Kaskadeneffekte zu verbessern.
First seen on csoonline.com
Jump to article: www.csoonline.com/article/3614632/cloudflare-vorfall-fuhrt-zu-massivem-verlust-an-logs.html