Woensdag waren Facebook, Instagram én Whatsapp down. Die tweede heeft voor veel volwassenen boven een bepaalde leeftijd misschien weinig om het lijf, de eerste en de laatste zijn in Nederland immens populair. Voor de concentratie op het werk was de downtime misschien niet zo slecht, maar één foutje zorgde voor grote consequenties.
Een wijziging in de serverconfiguratie zorgde afgelopen woensdag voor een kettingreactie van problemen in het netwerk van het bedrijf. Dit zorgde voor zichzelf herhalende problemen die maar bleven groeien en die niet zomaar even opgelost konden worden.
De downtime van de drie diensten toont het gevaar van vergaande integratie van diensten. Dus nee, Facebook’s downtime was misschien niet te voorkomen, maar de downtime van Instagram en Whatsapp misschien wel. En, laten we nou even niet arrogant doen, er zijn best veel mensen die Facebook gebruiken.
Hoe is volgens u de downtime van dit soort grote netwerken te voorkomen of de impact ervan in ieder geval te verminderen? Alvast een voorzetje: dat iedereen moet stoppen met Facebook is weinig zinvol in het licht van andere netwerken.
Persoonlijk beschouw ik facebook als een criminele organisatie en wil er dus ook niets mee te maken hebben.
Er hangt niks af van Facetime, dus die hebben geen 100% uptime nodig; hoe minder hoe beter. WhatsApp (helaas ook van Facebook) is vele malen belangrijker, daar zie ik wel de wens om deze hoog beschikbaar te hebben.
Achteraf, als je weet wat er fout is gegaan, kun je altijd wel een oplossing bedenken waarbij de fatale fout niet fataal zou zijn geweest. Maar dat is achteraf. Alle mogelijke foutscenario’s vooraf bedenken is misschien wel mogelijk, maar de architectuur zo robuust maken dat geen enkele fout fataal wordt is erg duur, zo niet onbetaalbaar.
Zo is de computer, het kan wel eens misgaan. Waar gehakt wordt vallen spaanders. Neem aan dat er bij dit soort grote organisaties hele slimme mensen werken om de systemen te maken en in de lucht te houden. Dat zal vast helpen maar dan nog. Als je om je heen kijkt gaat het op veel plaatsen wel eens keertje mis. Het is nog knap dat het bijna nooit mis gaat. Vind het een beetje een oenige vraag.
Daar is op basis van de informatie in dit artikel niet veel zinnigs over te zeggen. Zoals Frank al opmerkt, achteraf kun je wel bedenken hoe je het had kunnen voorkomen, maar daarvoor moet je wel eerst de root-cause van het probleem weten