Uitval van serverapparatuur veroorzaakte de dagenlange ict-storing bij het Universitair Medisch Centrum Groningen (UMCG). De ict-infrastructuur van het ziekenhuis is dubbel uitgevoerd, maar door de serveruitval kon niet worden gesynchroniseerd met de spiegellocatie bij de Rijksuniversiteit Groningen. Daardoor raakten veel administratieve en configuratiesystemen in de war. Dat vertelt ict-directeur René de Vink van het UMCG.
De ict-storing deed zich voor vanaf dinsdagavond 2 maart 2010 en pas maandagmiddag 8 maart werd alles na uitvoerig testen vrijgegeven. 'Alle systemen werken nu weer naar behoren', zegt De Vink met een zucht van verlichting.
'De server- en opslagapparatuur werkten al snel weer 100 procent, de vertraging deed zich voor bij de software. Die softwarematige systemen moesten we weer vanaf de grond opbouwen.' Hij trekt een vergelijking met een ordner, waarvan alle tabbladen en papieren vellen op de grond zijn gevallen.
X/Care
Vooral het ordermanagementsysteem X/Care en de elektronische uitwisselingsapplicatie Cloverleaf die dit systeem verbindt met onder meer het laboratorium, werden bij de storing getroffen. X/Care werd volgens De Vink in 2007 bij het UMCG ingevoerd.'Er trad een soort informatiefile op tussen de inschrijvingsbalie en het administratiesysteem van het lab', vertelt De Vink. Jaarlijks verwerkt Cloverleaf zo'n miljoen laboratoriumaanvragen en gebruikt daarvoor de internationale uitwisselingsstandaard HL7.
'Om te voorkomen dat patiënten bij het laboratorium verschenen terwijl hun gegevens daar niet beschikbaar waren, schakelden we over op papieren verwijzingen. Normaal is dat natuurlijk geautomatiseerd.' Bovendien werden alle niet-spoedeisende patiënten tijdelijk doorverwezen naar andere ziekenhuizen.
Kernteam
Het ziekenhuis is dagenlang met een team van ict'ers en de leverancier in de weer geweest om de storing te achterhalen. Daarbij was 24 uur per dag een roulerend kernteam van vijf personen actief: een systeembeheerder, een applicatiebeheerder, een databasebeheerder, een manager van dienst en een medewerker van de leverancier. Soms werd het team aangevuld met een functioneel beheerder.
De leverancier, die De Vink niet met naam wil noemen, doet op dit moment een root-cause analyse. Tijdens de ict-storing zijn geen gegevens verloren geraakt. De Vink: 'We hebben zowel op databaseniveau als op applicatieniveaus controles uitgevoerd en daaruit blijkt dat alles nu 100 procent goed is. Het doen van deze controles vergde het meeste tijd. 'Het duurt nu eenmaal lang om de vele terabytes te checken, zeker als een deel één voor één gebeurt.'
Windows
De meeste onderdelen van de ict-infrastructuur en applicaties bij het UMCG draait op Microsoft Windows. Het serverpark is gedeeltelijk gevirtualiseerd met VMware. Het ziekenhuis heeft volgens De Vink juist gekozen voor een dubbele (redundant) uitvoering van de infrastructuur, om problemen zoals die zich afgelopen week voordeden, te voorkomen.
Ik kan niet anders dan waardering uitspreken voor de openheid waarmee het UMCG communiceert over de verstoring.
Lezende tussen de regels door wordt wel duidelijk dat ondanks het redundant uitvoeren van de infrastructuur, het kunnen uitvoeren van integriteitscontroles op applicatief niveau cruciaal is bij het kunnen verhelpen van een dergelijke verstoring.
Ik vraag me af of dit wel generiek wordt beseft door softwarefabrikanten. Nog te vaak komt het voor dat statusinformatie en platte data enkel ‘in sync’ worden gehouden door het lopende proces.
Tip aan alle partijen die ook zo’n redudant systeem hebben staan. Trek bij het werkende systeem er eens de stekker uit en kijk wat er dan gebeurt.
Als je dat niet durft dan weet je in feite al genoeg.
Infrastructuur en applicaties vormen een geheel, dat blijkt maar weer. Applicaties moeten kennis hebben van de dubbele infrastructuur en andersom.
Als een infrastructuur dubbel is uitgevoerd, mag een deel uivallen, dat is dus gebeurd, maar klaarblijkelijk rekende de software op een synchronisatie met de uitgevallen apparatuur.
Dit roept bij mij wel vraagtekens op over de inrichting en de benoeming van een primair en secundair systeem. Het lijkt erop dat dit aspect aan de orde is. Of werd gewerkt met principes van 10 jaar geleden, uitwijken van systemen en vervolgens opnieuw opbouwen. Het lijkt mij dat er nog eens goed moet worden gekeken naar de architectuur en vooral het testen, zoals Peter voorstelt.
volgens mij staat er een foutje in de tekst…
HL7 is geen systeem maar een standaard (http://nl.wikipedia.org/wiki/HL7). Hier wordt niet HL7 maar Cloverleaf bedoeld (http://www.enovation.nl/nl/zorg/oplossingen-voor-de-zorg/eai/cloverleaf).
Dit is een boeiende case. Niet alleen voor ziekenhuizen, maar zeker ook voor gemeenten. De SOA’s, midofficeconcepten en dergelijke vliegen daar in het rond. Er ontstaan in rap tempo ketens, waarbij de onderdelen soms wereldwijd verspreid zijn. De praktijk wijst uit dat het beheer daarvan een lastige zaak is. Waar vroeger ‘een backupje’ de fout kon herstellen, is dat inmiddels vrijwel onmogelijk. De functionele wens heeft het gewonnen van het beheer. En inderdaad: alles kan; totdat het fout gaat. Redundantie is maar een klein deel van een oplossing en brengt allang niet meer die zekerheid die een opdrachtgever graag van zijn opdrachtnemer krijgt.
Genoeg te doen de komende tijd. De gevolgen bij verstoringen worden steeds ingrijpender. De nadruk zal moeten liggen op ‘het voorkomen van’; de mogelijkheden om achteraf de boel (snel) recht te zetten kalven af.
Jammer dat maar een deel gevirtualiseerd is. Dit geeft maar weer eens aan, dat de complexe “logische” server laag altijd de problemen geeft. Hoe meer systemen met elkaar in sync moeten zijn hoe meer er naar een totale “snapshot” van de infrastructuur moet worden gekeken. Van de grond af opbouwen is toch niet meer van deze tijd? Het lijkt op een disasterrecovery, waarbij even is vergeten, dat het restoren dagen kan duren. Alles moet wel weer in sync starten.