De storing van donderdag 11 augustus 2011 in het computernetwerk van het Universitair Medisch Centrum Groningen (UMCG) werd veroorzaakt door zichzelf uitschakelende core switches. Gevolg was dat het hele netwerk plat werd gelegd en applicaties en databases allemaal herstart moesten worden. Na een reboot van het gehele systeem werkte alles weer dezelfde dag om 18.00 uur.
Het dubbel uitgevoerde UMCG-systeem vertoonde kleine verschillen waardoor een core switch aan de spiegelzijde zichzelf uitschakelde. Toen de core switch aan UMCG-zijde dit op moest vangen. schakelde deze vanwege het verschil ook uit. Gevolg was dat alle onderliggende switches en routers ook uitgeschakeld werden waardoor de website, het intranet en het netwerk inclusief VoIP-telefonie uitvielen.
Geen vertrouwen
‘Het was een soort waterval, alles ging heel snel', zegt ict-directeur René de Vink. ‘De afgelopen drie weken is er een klein beetje afwijking ontstaan tussen ons eigen datacenter en onze dubbele infrastructuur dat in het RUG-datacenter staat. Het was binnen de marge, maar de core switches vertrouwden het toch niet en schakelden uit.'
Het UMCG heeft enkele honderden applicaties en databases draaien op in totaal negenhonderd servers. Nadat de switches en routers weer werkten, moesten die applicaties en databases allemaal één-voor-één herstart worden. Daarna is er nog een reboot uitgevoerd om beide omgevingen weer gelijk te krijgen. Voor het beheer van de dubbele infrastructuur gebruikt het UMCG onder andere software van Microsoft, HP en EMC.
Eenvoudiger op te lossen
De Vink heeft de storing niet als een heel stressvolle periode ervaren. ‘Het is goed dat alles om 18.00 uur weer in de lucht was. Wel zaten er in de nasleep nog wat componenten die hersteld moesten worden. Zo moest er een DHCP-server vervangen worden doordat hij verkeerde ip-adressen uitdeelde. Al met al was deze storing eenvoudiger op te lossen dan de storing van vorig jaar. Toen konden we pas na vijf dagen weer draaien. De aanleiding van die storing was totaal anders, het gevolg was hetzelfde: de boel ging plat.'
“De storing van donderdag 11 augustus 2011 in het computernetwerk van het Universitair Medisch Centrum Groningen (UMCG) werd veroorzaakt door zichzelf uitschakelende core switches.”
Volgens mij zijn die switches programmeerbaar, of is het niet bekend bij De Vink.