|
Research
|
Blog
|
Newsletter
|
Websession
|
EN

CrowdStrike-Vorfall offenbart Schwächen eines vernetzten IT- Ökosystems

24. Juli 2024

Am Freitagmorgen ging vielerorts gar nichts mehr. Flughäfen und Ambulanzen schlossen, Operationen wurden abgesagt, Bankkunden konnten sich nicht mehr in ihre Konten einloggen und TV-Sender mussten ihre Übertragungen unterbrechen. Weltweit sahen sich die Nutzer von rund 8,5 Millionen Windows-Rechnern mit dem sogenannten Blue Screen of Death (BSOD) konfrontiert. Was war passiert?

Während zunächst nicht klar war, ob es sich um einen Hackerangriff handelte, steht der Schuldige mittlerweile fest. Sein Name: Channel File 291. Dabei handelt es sich um eine Datei, die im Rahmen eines Updates des Cybersicherheitsunternehmens CrowdStrike in dessen Falcon-Sicherheitslösung eingespielt wurde.

Aber der Reihe nach. Die ersten Anzeichen von Problemen traten am Morgen des 19. Juli 2024 auf, als Unternehmen und Organisationen weltweit erhebliche IT-Störungen meldeten. Zunächst wurden die Ausfälle fälschlicherweise den Diensten von Microsoft zugeschrieben, da die Probleme nur bei Systemen mit dem Windows-Betriebssystem auftraten und Microsoft fast zeitgleich ein eigenes Update seiner Azure-Dienste veröffentlicht hatte.

Im Laufe des Tages wurde jedoch klar, dass die Ursache ein fehlerhaftes Update der Falcon Sicherheitssoftware war, das von CrowdStrike veröffentlicht und automatisch ausgeliefert wurde. Dieses Update enthielt eine kritische Schwachstelle, die auf zahlreichen Windows-Systemen den BSOD auslöste und sie vorübergehend unbrauchbar machte. Die Auswirkungen betrafen wichtige Dienste in verschiedenen Branchen, darunter Fluggesellschaften, Banken, Krankenhäuser und Medienunternehmen. Bereits am Vormittag hatten die Ingenieure von CrowdStrike den Fehler identifiziert und mit der Entwicklung und Bereitstellung eines Fixes begonnen.

Auch Microsoft war maßgeblich an der Lösung des Problems beteiligt, denn Azure und Office365 waren besonders häufig betroffen, was anfänglich dazu führte, dass Microsoft als Verursacher vermutet wurde. Gleichzeitig nahm man den Vorfall zum Anlass, die eigenen Protokolle für derartige Vorkommnisse zu überprüfen.

Am Mittag gab der CEO von CrowdStrike, George Kurtz, eine öffentliche Erklärung ab, in der er den Fehler bestätigte und den Kunden versicherte, dass das Unternehmen mit Hochdruck an der Behebung des Problems arbeite. Das gelang in vielen Fällen auch und bis zum Abend hatten sich die meisten betroffenen Systeme wieder erholt. Die Auswirkungen der Störung werden allerdings noch einige Zeit spürbar sein und es dürfte noch dauern, bis klar ist, wie hoch die Schäden sind, die durch die Ausfälle verursacht wurden.

Die Folge waren unter anderem mehr als 3.300 gestrichene Flüge, ein ausgerechnet am ersten Ferientag geschlossener Hauptstadt-Flughafen BER, abgesagte Operationen und geschlossene Ambulanzen in mehreren Städten. Banken und Broker konnten zeitweise keine Transaktionen mehr ausführen, was besonders für Trader ein großes Problem darstellte. Der britische Sender Sky News musste sein Programm für einige Stunden unterbrechen und die deutsche Supermarktkette Tegut schickte alle Mitarbeitenden nach Hause, da die Kassensysteme nicht funktionierten. Insgesamt sprechen Experten vom bislang größten IT-Ausfall aller Zeiten – und dieser zeigt eines der größten Probleme unserer modernen, vernetzten Welt.

Wie bereits 2019, als ein Hackerangriff auf den amerikanischen Hersteller von Netzwerkmanagement-Software SolarWinds die Lieferketten in weiten Teilen der Welt lahmlegte, zeigt sich auch im aktuellen Fall, wie anfällig Software-Lieferketten für Störungen sind, sei es durch Cyberattacken oder durch fehlerhafte Software. Der Vorfall zeigt auch, wie wichtig eine schnelle Reaktionsfähigkeit und entsprechende Protokolle sind. Während man sowohl bei CrowdStrike als auch bei Microsoft schnell und effektiv Maßnahmen ergriffen hat, um die Probleme zu beheben, muss sich der Falcon-Entwickler trotzdem den Vorwurf gefallen lassen, wie es überhaupt dazu kommen konnte, dass ein derart misslungenes Update an alle Kunden ausgespielt wurde. Denn es ist durchaus bekannt, dass selbst ein kleiner Fehler in einem Software-Update katastrophale Folgen haben und Millionen von Nutzer und kritische Infrastrukturen weltweit beeinträchtigen kann.

Cybersicherheitsunternehmen müssen daher strenge Testprotokolle einführen und ihre Software in verschiedenen Umgebungen simulieren, um potenzielle Probleme zu erkennen, bevor Updates veröffentlicht werden. Auch das Ausspielen der Updates in kleineren Margen kann sinnvoll sein, da etwaige Probleme auf diese Art nicht direkt alle Kunden betreffen.

Darüber hinaus hat der Vorfall weitreichende Auswirkungen auf die vernetzten IT-Ökosysteme von heute. Unternehmen sind bei verschiedenen Diensten in hohem Maße von Drittanbietern abhängig, was sie anfällig für Störungen aus externen Quellen macht. Diese Verflechtung erfordert eine stärkere Zusammenarbeit und gemeinsame Verantwortung zwischen Dienstleistern und ihren Kunden. Verbesserte Sicherheitsprotokolle, regelmäßige Audits und robuste Reaktionspläne für Zwischenfälle sind für die Verwaltung dieser komplexen Abhängigkeiten unerlässlich.

Schließlich unterstreicht das Ereignis die Bedeutung der Notfallvorsorge. Unternehmen müssen über umfassende Pläne für den Umgang mit unerwarteten Ausfällen verfügen, einschließlich Backup-Systemen, alternativen Arbeitsabläufen und klaren Kommunikationsstrategien zur Aufrechterhaltung des Betriebs während der Unterbrechungen.

Wie es nun mit CrowdStrike weitergeht, steht noch in den Sternen. Der Aktienkurs des Unternehmens gab nach dem Bekanntwerden des Vorfalls deutlich nach. Zwar konnte er sich zwischenzeitlich etwas erholen, doch seit Börsenöffnung am Montag geht es wieder bergab. Dazu könnte auch die Nachricht beigetragen haben, dass die in vielen Branchen mittlerweile üblichen Cyberversicherungen für die Schäden des Systemausfalls unter Umständen nicht aufkommen werden, da es sich nicht um einen Hackerangriff handelte. Sollte CrowdStrike hier zur Verantwortung gezogen werden, dürfte das die Finanzen des Unternehmens auf Jahre belasten.

Bild (c) Brian Penny / Pixabay

Zurück zur Blog-übersicht
Zurück zuM Research-Blog
Alle Mitarbeiter-Interviews