Facebook was laatst down, wéér down. Paniek onder social mediaverslaafden, maar ook zorg bij websiteseigenaren die voor hun log-ins op Facebook vertrouwen. Lessen voor business en it uit storingen bij Facebook en andere clouddiensten.
Facebook is net als Google voor velen een onmisbare online-dienst. De sites van beide internetreuzen genieten dan ook de repuatie dat ze bijna nooit offline of onbereikbaar zijn. De realiteit is anders. Facebook ging afgelopen maand wereldwijd down, waarbij deze storing maar liefst de derde was in slechts elf dagen tijd. Een zeldzame enkeling die hier om kan juichen.
Domino-effect
Terwijl de meeste mensen wel even zonder Facebook kunnen, is de impact van zo’n storing fors. Zo zijn er diverse bedrijven en start-ups die ‘s werelds grootste social network nuttig gebruiken voor hun bedrijfsvoering – of ‘slechts’ de marketing daarvan. Daarnaast zijn er veel bedrijven die voor hun websites, diensten of apps geen complexe eigen log-in systeem hanteren, bijvoorbeeld voor het plaatsen van reacties of het vinden van liefde via Tinder.
Deze organisaties haken simpelweg aan op api’s (application program interfaces) die Facebook hun hiervoor biedt. Als Facebook down gaat, trekt het flinke delen van het internet met zich mee. Hetzelfde geldt voor de veelgebruikte Amazon Web Services (AWS), waar veel start-ups, maar ook reguliere bedrijven op draaien. Zoals bij zoveel clouddiensten is er weinig wat de afnemers, inclusief ‘meelifters’, kunnen doen om de storing zelf op te lossen. Er omheen werken, kan wel. Tenminste, als het geen fundamentele storing is.
In het geval van Facebook was dat helaas wel zo. Een software-ingenieur van het bedrijf meldde in een korte blogpost dat de storing is veroorzaakt door de Graph api. Dit is een door Facebook ontwikkelde opvolger voor de eigen Rest api (Representational state transfer) die het tot eind 2011 gebruikte. De sindsdien flink doorontwikkelde Graph api is cruciaal voor Facebook, die het zelf omschrijft als: ‘De voornaamste manier voor aps om te lezen en schrijven naar de Facebook social graph’.
Ruggengraat offline
Kortom, het gaat om de ruggengraat van Facebook. De kerntechnologie die zowel de interne systemen en diensten met elkaar verbindt als ook de buitenwereld (in de vorm van apps, sites en andere diensten). Opvallend genoeg werd de grote storing (van zeker een uur) van 28 september óók veroorzaakt door een probleem met de Graph api. De voorgaande storingen van 24 en 17 september stonden ook al op conto van die kern-api.
Pas bij de storingsmelding van 28 september wist Facebook te melden dat er een fix was. Bij de twee eerdere incidenten was de boodschap nog dat er met de kerninfrastructuurteams werd gewerkt om de oorzaak te identificeren. Dat lijkt pas goed te zijn gelukt bij de derde storing op rij. ‘We hebben de issue geïdentificeerd en zitten nu in het proces om de fix te pushen’, aldus de summiere melding. Dat pushen heeft vervolgens zo’n twee uur in beslag genomen, weet ITProPortal te melden, dus het was geen sinecure.
Lering uit trekken
De complexiteit en enormiteit van Facebook zullen ongetwijfeld bijdragen aan de gevoeligheid voor storingen én de Hercules-taken om storingen te voorkomen en op te lossen. Dit geldt natuurlijk niet alleen voor het social network dat actief gebruikt wordt door een derde van de wereldbevolking. Zo werd vorige maand bijvoorbeeld ook Skype geplaagd door een storing die bijna een dag lang duurde, merkt TheNextWeb op. Skype lag er echter niet geheel uit, en bepaalde kanten ervan werkten nog wel zoals Skype for Web en Skype for Business.
Scheiding van functies, doublure (dan wel overname) van functionaliteit en vermindering van afhankelijkheid kan dus veel helpen bij storingen. De meeste clouddiensten zijn dan ook voorzien van forse redundancy-mogelijkheden. Dergelijke voorzieningen zijn door Google ook benadrukt na de grote storing afgelopen zomer bij zijn Belgische datacenter. Die cloudbasis in België was geraakt door vier opeenvolgende blikseminslagen in het lokale stroomnet.
Back-ups voor de cloud
Dankzij noodstroom en dubbel uitgevoerde storage was er sprake van slechts 0,000001 procent dataverlies. Alleen komt dat in het geval van het grote Google wel neer op enkele Gigabytes aan data, rekent TheNextWeb even voor. De rekensom voor verloren data, misgelopen omzet en andere verliezen kan voor cloudafnemende organisaties flink oplopen.
De lessen voor scheiding, redundancy en verminderde afhankelijkheid gelden dan ook niet alleen voor cloudaanbieders zoals Facebook, Skype en Google. Ook afnemers, aanhakende organisaties en andere gebruikers moeten zorgen voor uitwijk en back-ups van hun back-ups. Voor ‘ouderwetse’ it-beheerders kan dit het intrappen van een open deur zijn. Voor veel hedendaagse cloudgebruikers – al dan niet vanuit de business begonnen – kan het bittere noodzaak zijn.
Uitwijk regelen
In het geval van cloudreus Amazon zíjn er ook voorzieningen voor uitwijk. Alleen blijken klanten die niet altijd in gebruik te hebben, doordat ze zelf die mogelijkheden niet instellen. En ook Amazons cloud gaat wel eens deels down, bijvoorbeeld eind september nog. Bovendien zijn er naast het grote Amazon nog alternatieve cloudaanbieders die in theorie workloads kunnen overnemen in geval van storing. Die uitwijk moet dan wel vooraf geregeld zijn. Alleen, hoe een alternatief te vinden voor het massale bereik dat Facebook heeft?