Dat bedrijfscontinuïteit na een calamiteit of een fikse storing niet vanzelfsprekend is, bewees de stroomstoring die de omgeving Amsterdam trof op 27 maart 2015. Dit artikel beschrijft ontwikkelingen op het gebied van business continuïteit en gaat in op ervaringen van KPN in zijn datacenters in dat gebied en opvang die het bood aan klanten in het uitwijkcentrum in Lelystad.
Veel bedreigingen kunnen een bedrijf treffen waardoor de business gevaar loopt. In Amerika is bedrijfscontinuïteit meer ingeburgerd dan bij ons. Veel bedrijven hebben plannen klaar – om indien nodig – bedrijfsprocessen te verplaatsen. In het tornadoseizoen bewijzen deze vaak hun nut.
In Nederland wordt vaker alleen naar de uitwijk van ict -voorziening gekeken. Elk bedrijf zou een disaster recovery plan moeten hebben. Het plan zou ook getest moeten worden. Onze ervaring leert dat daar vaak geen middelen en resources voor beschikbaar worden gesteld, simpelweg worden vergeten of vertrouwd wordt op improvisatietalent.
De vraag is: hoe wordt na een calamiteit de business voortgezet? Uitwijkvoorzieningen worden belangrijker, juist omdat bedrijven afhankelijk zijn van ict.
Stel dat er geen goede uitwijkvoorzieningen voor ict zijn en er geen doordacht en getest uitwijkplan bestaat, dan kunnen de gevolgen groot zijn. Denk maar aan deze voorbeelden:
1. Serverpark is niet meer. Dit kan betekenen dat het bedrijf op internet onvindbaar is, er geen orders meer kunnen worden geplaatst en de omzet wegvalt. Facturen kunnen niet meer worden verstuurd, de cashflow droogt op.
2. Geen werkplekken en/of telefooncentrale/contact center. Het bedrijf is onbereikbaar voor klanten. Klanten kunnen geen orders plaatsen en geen klachten kwijt. Omzet valt weg. Klanten kiezen voor de concurrentie. Werknemers kunnen niet aan het werk, productiviteit daalt en eventueel moet het werk later door inhuurkrachten worden ingehaald. Extra kosten dus.
Stroom viel uit
Op 27 maart 2015 was er een stroomstoring met grote impact in een verdeelstation in de buurt van Diemen. Schiphol, NS, Politie en veel kleinere bedrijven hadden er last van. Pas twee dagen later kon Schiphol melden dat de achterstallige bagage was weggewerkt. Treinverkeer was ernstig ontregeld. Verkeerslichten in verschillende gemeenten waren uitgevallen. Extra politieagenten, brandweerlieden en particuliere beveiligers werden ingezet. Rechtszaken werden uitgesteld. Niet-noodzakelijke operaties binnen ziekenhuizen werden uitgesteld. Enzovoort.
In het gebied van de stroomstoring staan verschillende KPN datacenters. Deze zijn onderdeel van de vitale infrastructuur van Nederland. Die datacenters hebben normaal gefunctioneerd. Klanten van de KPN datacenters hebben niets gemerkt van de stroomstoring. De noodstroomvoorzieningen hebben hun waarde bewezen! Een grote investering die altijd stand-by staat, getest wordt en gelardeerd wordt met maatregelen als contracten die voorzien in snelle levering van aanvullende diesel.
De datacenters zijn voorzien van no-break noodstroomvoorzieningen. Dat wil zeggen dat de noodstroomvoorzieningen bij een verstoring in het energienet de energievoorziening direct en zonder spanningsdip overnemen. In tegenstelling tot zogenoemde short-break noodstroomvoorzieningen. Daarbij valt de energievoorziening tijdelijk uit (doorgaans meerdere seconden) om vervolgens weer terug te komen. Dit laatste is voor de werking van ict-apparatuur funest.
Uitwijkcentrum
Sommige bedrijven hebben hun servers veilig in een datacenter ondergebracht. Alle continuïteitsmaatregelen zijn genomen. Maar hoe is het gesteld met de voorzieningen voor werkplekken, telefonie en wan-koppelingen? De stroomstoring betekende voor veel bedrijven een ernstige verstoring in hun dienstverlening. Om te zorgen dat de dienstverlening zo snel mogelijk kon worden hersteld, hebben bedrijven een beroep gedaan op de uitwijkdienst(en) bij gespecialiseerde bedrijven.
Zij meldden zich bij hun uitwijkdienstverlener. Omdat dit een meervoudige calamiteit betrof (er waren meerdere bedrijven getroffen), betekende dit voor uitwijkdienstverlener KPN Lelystad dat een goede organisatie noodzakelijk was. Elke getroffene moest immers geholpen worden.
Een bedrijf dat parkeerdiensten levert kon dankzij deze uitwijk na 45 minuten de dienstverlening op de alternatieve locatie voortzetten. Het betrof hier werkplekken, telefonie/callcenter en een overflow naar een nevenlocatie. Het serverpark stond veilig in een datacenter. Toeval was dat twee dagen eerder het uitwijkscenario nog was getest. Het resultaat was dat iedereen wist wat gedaan moest worden.
Het uitwijkcentrum ondernam de volgende acties:
- Het crisisteam en een war room werd ingericht;
- De inzet van hardware werd gepland;
- Datzelfde gold voor de kantoorruimtes;
- Bepaald werd wie wat ging doen;
- De volgorde voor de uitwijkopbouw per bedrijf moest worden bepaald (sla’s zijn hierin leidend);
- Communicatie met de getroffen bedrijven werd opgezet;
- Per getroffen bedrijf werd een coördinator benoemd;
- Belangrijk was de inrichting van controle en het managen van de uitwijkprocessen;
- Het vlekkeloos uitvoeren van de uitwijkplannen was uiteraard cruciaal. De uitwijkplannen bepalen immers welke werkzaamheden in welke volgorde moesten worden uitgevoerd (en afgemeld).
Ontwikkelingen
De huidige 24×7 maatschappij stelt hoge eisen aan RPO (Hoever moet de dataherstel teruggaan in tijd) en RTO (Tijdsperiode na het optreden van een incident waarbinnen de bedrijfsprocessen hersteld dienen te zijn). De technologie en processen van een uitwijkoplossing veranderen voortdurend met de veranderende eisen.
KPN ziet als uitwijkdienstverlener (35 jaar ervaring en 150 uitwijktesten per jaar) dat zijn relaties, naast een nieuwe online strategie, terughoudend zijn bij het afbouwen van traditionele backup oplossingen. Het uitsluitend online hebben van data is niet 100 procent veilig. Uiteindelijk is alle data te hacken, te gijzelen, et cetera. Het is het dus een prettige gedachte dat er nog een back-up offline beschikbaar is.
Verlies van data heeft grote impact op de continuïteit van businessprocessn. Vaak hebben bedrijven de wettelijke verplichting om de data nog vele jaren reproduceerbaar te hebben. Op 11 maart 2015 stelde de kortgedingrechter in Den Haag wel de Wet bewaarplicht telecommunicatiegegevens buiten werking, maar gegevens financiële instellingen vallen hier buiten. Het in stand houden van de ‘oude’ backup omgeving kan dus noodzakelijk zijn.
Vroeger
Tot voor kort zag een ict-omgeving er zo uit:
- fysieke Intel servers ‘gemotoriseerd’ door Microsoft;
- één of meerdere servers gebaseerd op i-Series, mainframe, Unix-varianten;
- een backup oplossing met een server en fysieke tapes in combinatie met een library;
- lokale werkplekken, eventueel met telefonie.
De opbouw van zo’n omgeving nam na een calamiteit veel tijd in beslag. De data werd vanaf tape teruggezet op servers met een basis operating system. Na de restore van de backup’s waren er ook aanpassingen (aan operating systeem en/of andere software). Er bestond altijd kans dat er data verloren ging, doordat backup tapes op de plek van de calamiteit lagen.
Nu
Momenteel ziet een ict-omgeving er zo uit:
- een gevirtualiseerde Microsoft/Linux omgeving;
- één of meerdere legacy systemen;
- een steeds maar grotere hoeveelheid data;
- een backup oplossing gebaseerd waarbij de backup data op twee locaties zijn opgeslagen;
- lokale werkplekken en/of thuiswerkplekken, eventueel in combinatie met telefonie/call centers.
Bij uitwijktesten van grote en complexe omgevingen (142 servers en 60TB data) is aangetoond dat een backup oplossing met bijvoorbeeld een virtuele tape library, de data beduidend sneller terug was ten opzichte van een restore met fysieke tapes en een library. Een virtuele tape library presenteert namelijk een opslagcomponent als tape library of tape drives voor gebruik met bestaande back-up software.
Bij gebruik van een externe locatie wordt door het backup-pakket de kopie onmiddellijk gestart na het voltooien van backup. Met deze methodiek wordt de RPO erg klein.
Inmiddels zijn er ook nieuwe technieken met een oplossingen waarbij de data onmiddellijk wordt weg gezet in de cloud. Deze gegevens kunnen backup-, archief-, maar ook live productiedata bevatten. Hierbij kan de RPO en RTO nog meer worden gereduceerd.
Toekomst
De ict-omgeving zal er in de nabije toekomst mogelijk zo uitzien. De tendens is dat steeds meer servers en data in de cloud worden geplaatst. Dit impliceert ook het nadenken over zaken als:
- hoe is het gesteld met de continuïteit van de data?
- is het wisselen van cloudprovider eenvoudig?
- weten we nog waar onze data staat en hoe veilig zijn deze?
- welke wetgeving is van toepassing?
- wat als mijn provider een calamiteit heeft?
- welke garanties zijn er voor de integriteit en compleetheid van de data bij een calamiteit?
- wie of wat is verantwoordelijk voor systemen en data?
En als alles in de cloud of datacenter is opgeslagen en veiliggesteld en de continuiteit goed is geregeld, vindt er een calamiteit plaats op de kantoorlocatie Het parkeerbedrijf dat we eerder noemden overkwam dat. Voor de werkplekken (niet alles kan vanaf thuis worden opgepakt) en telefonie/contact-centers moet dus ook een oplossing zijn geregeld.
Conclusie
Nieuwe ontwikkelingen in technologie en processen ondersteunen de veranderende behoeften van bedrijven aan bedrijfscontinuïteit oplossingen. Dit kan alleen onder voorwaarde dat er goede plannen zijn en er duidelijkheid is dat de plannen werken als ze nodig zijn. En dat kan alleen als ze worden getest.
Daarmee wordt de kans op omzetverlies of onnodige kostenoverschrijding aanzienlijk beperkt. Bedrijven als KPN Trusted Services – Business Continuity kunnen helpen Business continuity plannen te maken en te testen. Bovendien bieden zij uitwijkdiensten aan van traditioneel aard tot en met de nieuwste cloud oplossingen.
De verantwoordelijken voor ict-omgevingen doen er goed aan zich af en toe de volgende vragen te stellen:
- is er een uitwijkoplossing – of technisch plan?
- is er een review geweest van het plan of draaiboek?
- worden de plannen onderhouden?
- is het plan ook daadwerkelijk en regelmatig getest?
- is er rekening gehouden met, dat na een uitwijk (een omgeving wordt opgebouwd en de data teruggezet op ‘vreemde’ hardware), er een inwijk ( de data komt weer op de originele/nieuwe hardware) plaatsvindt?
Hans Gast, project leader bij KPN Trusted Services