De computerstoring bij de gemeente Groningen is opgelost. De oorzaak van de kapotte firmware heeft HP echter nog niet kunnen vinden. De storing ontstond begin van de week in de firmware van het storage are network (san), draaiend in een Enterprise Virtual Array (EVA)-opslagomgeving van HP. Amerikaanse hulp was nodig, maar of ook andere klanten er last van kunnen krijgen kan de automatiseerder nog niet aangeven.
Maandagmiddag 6 februari 2012 begon in een van de datacentra van de gemeente Groningen de firmware die de EVA-controller aanstuurt te haperen en aan/uit, aan/uit te flikkeren. De andere controller, die het bij een storing zou moeten overnemen, voerde de handelingen echter niet naar tevredenheid uit. Leverancier HP kon in eerste instantie de storing oplossen, maar dinsdagochtend viel de firmware opnieuw uit en gaven beide controllers de geest. 'Zo'n 80 procent van onze systemen lagen plat, zowel in de backoffice als in de frontoffice', zegt Peter Wouters, concernmanager I&A van de gemeente Groningen. 'Dat betekende dat onze geautomatiseerde publieke dienstverlening was lamgelegd, zowel via internet als voor de medewerkers aan het loket.'
Opgeschaald
HP is dinsdag de hele dag in touw gezet om de storing te verhelpen. De oorzaak was niet duidelijk: de EVA-omgeving is niet verouderd (al start er dit jaar na drie jaar een nieuwe san-aanbesteding), er was recent geen upgrade uitgevoerd en met de vrieskou had het ook niets te maken. 'De san staat in een geconditioneerde computerzaal', aldus Wouters. 'Het was voor HP de eerste keer dat het bedrijf met zo'n storing te maken kreeg. Uiteindelijk is het probleem opgeschaald naar de Verenigde Staten waar een aantal system engineers op level 3 de EVA-omgeving weer in de lucht konden brengen door een nieuwe versie van de firmware te implementeren. HP had inmiddels gezorgd voor diverse reserveonderdelen voor de san-installatie, maar vervanging van onderdelen bleek niet nodig.'
Corrupte metadata
Wouters maakte met zijn ict-team benauwde moment door nadat het leek alsof alle metadata corrupt waren geworden. 'Die metadata zijn nodig om aan te geven welke gegevens op welke plek in een san zijn opgeslagen en in welke context. Zonder die metadata wordt het een grote losse verzameling bits en bytes. Gelukkig bleek HP na de invoering van de nieuwe firmware de metadata te kunnen terugzetten. We hebben natuurlijk een back-up maar als je die moet terugzetten ben je een paar dagen van de straat.'
Nadat alle gemeentelijke processen weer in de lucht waren, is er in de nacht van dinsdag op woensdag volop getest. Alleen het e-mailsysteem voor een gemeentelijk onderdeel en een aantal webformulieren functioneerden nog niet naar behoren. Die klachten waren woensdagavond verholpen.
Gespiegeld
De gemeente gaat de storing nog evalueren met HP. Zij wil bijvoorbeeld weten hoe het komt dat in de dubbel uitgevoerde san-omgeving de storing niet kon worden opgevangen. Ook zal de gemeente zichzelf moeten afvragen of er meer maatregelen nodig zijn. 'Zo'n storing toont maar weer eens aan hoe afhankelijk we van ict zijn geworden', zegt Wouters. 'Alleen, aan alles hangt een kostenplaatje. We kunnen er bijvoorbeeld voor kiezen om een totaal gespiegelde omgeving in te richten, waarbij twee systemen in realtime naast elkaar draaien. Dat is een stuk duurder. Bovendien, een zekerheid van 100 procent bestaat niet.'
De gemeente is wel in overleg met een tiental (semi-)overheidsinstanties in de regio om te bepalen of er gezamenlijke rekencentrumdiensten kunnen worden afgenomen. 'Dan kun je grote investeringen delen', stelt Wouters.
Analyse
HP laat in een reactie weten niet in te kunnen gaan op de vraag of de firmwarestoring in de EVA-omgeving alleen een typisch Gronings geval is of dat die ook zou kunnen optreden bij andere klanten. 'Onze eerste prioriteit was om de gemeente Groningen zo snel mogelijk weer in staat te stellen hun diensten aan burgers te vervolgen en herhaling van het probleem te voorkomen. Uiteraard zullen we de kennis die we in het analysetraject op doen over onze producten en de dienstverlening daar omheen, gebruiken waar nodig', aldus een zegsman van HP Nederland.
Dat is juist. Het is EMC laatst overkomen in Zweden als ik mij niet vergis. De primaire EMC array verminkte de data, en gaf dus ook verminkte data door naar de uitwijk array. En toen hadden ze twee storage array met verminkte data.
Calamiteiten en redundantie zal een eeuwig streven blijven. Men vergeet dat de omgeving door (onvolmaakte) mensen gemaakt is. Trouwens het lijkt hier meer over een software probleem te gaan. Opzoek en search indexen die betrouwbaar en constant zijn, zijn al lang een gegeerd goed. Om een vergelijking te maken worden Windows toestellen traag met zelfs disk crashes tot gevolg doordat de zoek index op Vista en Windows zeven op een bepaald moment corrupt wordt. Hierdoor begint de firmware continu op de schijven te zoeken tot ze doordraaien…Zal hier ook wel zoiets zijn. Voor zo’n omgeving is dus een replica zelfs niet van waarden omdat op die omgeving dezelfde index voor problemen beginnen te zorgen…conclusie (Sh)itHappens in IT…
Dit klopt niet: “‘Het was voor HP de eerste keer dat het bedrijf met zo’n storing te maken kreeg” Deze ervaring had ik jaren terug al, ook toen scheen het een uniek geval te zijn. Frapant, dit artikel had ook de berichtgeving van toen kunnen zijn.