Afgelopen maand werd Delta Airlines getroffen door een enorme computerstoring met als gevolg dat zo’n tweeduizend vliegtuigen aan de grond gekluisterd waren. Gepruts van de luchtvaartmaatschappij? Of moeten we ons erbij neerleggen dat dergelijke storingen in de huidige sterk gedigitaliseerde wereld gewoon kunnen voorkomen?
De storing bij Delta Airlines was een gevolg van fouten in het datacenter. Tijdens een reguliere test werd er tijdelijk overgeschakeld naar de noodstroomvoorziening. De overschakeling zorgde echter voor problemen in het Automatic Transfer Switch-systeem, die, waarschijnlijk door overbelasting, in brand vloog. Een groot aantal servers kwam hierdoor zonder stroom te zitten. En hierdoor werkten een aantal belangrijke systemen niet meer. De gevolgen waren desastreus. Boarding passen konden niet worden uitgegeven, piloten wisten niet meer welk vliegtuig ze moesten hebben en mensen konden niet meer zien welke gate ze moesten hebben. De ene na de andere vlucht viel hierdoor uit. Het probleem kon bovendien ook niet zomaar opgelost worden en de storing duurde uiteindelijk zo’n vijf uur. Delta kon een verlies van 150 miljoen dollar noteren.
Domino
De eerste vraag die je bij zo’n storing te binnen schiet is steevast: had dit niet voorkomen kunnen worden? Voor een deel zou je denken van wel. Delta werkt voor een belangrijk deel met oude technologie, soms zelfs met spullen die ooit in de jaren zestig gefabriceerd zijn. Met name het reserveringssysteem, de TPF (Transaction Processing Facility), is al heel oud en over de jaren heen telkens weer opgelapt. Nieuwere systemen putten uit dit core-systeem. En als de TPF plotseling uitvalt, vallen ook die systemen als dominostenen om.
Niet echt een robuuste architectuur dus. Bovendien waren er duidelijk problemen met de disaster recovery faciliteiten en bleken er problemen te zijn op het gebied van redundantie. Zo’n driehonderd van de zevenduizend servers bleken bijvoorbeeld niet over noodstroom te beschikken!
De enige
Er gaat bij Delta komende tijd zeker de nodige diligence plaatsvinden op het gebied van de it-infrastructuur. En dat gaat vast wel leiden tot verbeteringen. Toch denk ik niet dat het tot structurele oplossingen gaat leiden. Delta is namelijk zeker niet de enige luchtvaartmaatschappij die zijn zaken niet op orde heeft. United had een aantal jaren geleden te maken met een vergelijkbare storing. Daarnaast moest de maand daarvoor Southwest Airlines nog tweeduizend vluchten annuleren nadat technische problemen het passagiers belette om bij vluchten in te checken of te boarden.
Ze werken allemaal met (een vorm van) TPF en beheren een enorm complex datacenter. En dan gaat er wel eens wat mis. Lastig punt is bovendien dat de luchtvaartmaatschappijen onder druk staan van prijsvechters. Dan lijkt het zich niet te lonen om te investeren in infrastructuur.
Kwetsbaar
Wat de storing bij Delta Airlines voor mij vooral laat zien is de kwetsbaarheid van onze maatschappij voor dit soort storingen. We zijn in toenemende mate afhankelijk geworden van ict-systemen en het in de lucht houden van al die systemen is een absolute noodzaak. Er moet geïnvesteerd worden in disaster recovery en redundantie van infrastructuur. Maar tegelijk lijkt ook iedereen zich ervan bewust dat 100 procent uptime eenvoudig niet haalbaar is. Komende jaren gaan we dus nog wel vaker van dit soort megadebacles meemaken.