Sinds enkele jaren is continuïteit een populair begrip geworden en wordt het breed besproken in de ict-wereld. Waar het vroeger eerder op verhaallijnen in films en boeken sloeg, is continuïteit door de toenemende afhankelijkheid van ict nu een belangrijk thema waar iedereen aandacht voor heeft. Door die toenemende afhankelijkheid van ict wil men namelijk een partij kiezen die garanties op het gebied van continuïteit kan leveren.
Datacenters zijn gebouwd om continu te kunnen leveren. Continue stroom, continue koeling en continue beveiliging zorgen ervoor dat de continuïteit van cruciale ict-systemen van hun klanten niet in gevaar komt. Maar hoe goed is nu de partij met wie je in zee wil gaan? Ervaringen, referenties, ‘spec-sheets’ en de eventuele site-tours zeggen uiteraard iets, maar zijn ook vaak gekleurd. Certificeringen zijn al beter, maar zijn nog vaak vrij generiek en gaan niet in op de specifieke datacenter en ict-techniek.
Verzekeringsmaatschappijen kijken inmiddels met een schuin oog naar het continuïteitsvraagstuk. Zij zien de ict-wereld als een nieuwe markt om continuïteitsrisico’s te verzekeren. Maar ze eisen net als accountants duidelijk omschreven standaarden waarnaar je prestaties kunt toetsen. Daarom is het ook goed dat er nu projecten zoals PEDCA zijn, waarbij een inventarisatie wordt gemaakt van het datacenter-speelveld. Het is een eerste stap naar een meer gedetailleerd toetsen van normeringen.
Alles heeft zijn prijs
Continuïteit heeft zijn prijs. Het kost nu eenmaal meer om extra redundantie qua stroom, verbindingen, architectuur, hardware en locaties in te bouwen. In veel aanbestedingen worden de mooiste en meest uitgebreide eisen gesteld aan de gewenste omgeving. Maar in de eindfase van de uitvraag, als het om geld gaat, wordt vaak de potloodstreep gebruikt. Men schetst een Rolls-Royce maar kan maar een Suzuki betalen.
De gebruiker van it zou hier bewuster mee om moeten gaan. Wat zijn de gevolgen van een outage? Hoeveel geld verlies je per uur dat je onbereikbaar bent? Het is vooral van belang geen beloftes te maken die niet reëel zijn of die niet waargemaakt kunnen worden.
Toegift
Dat niet alles een doorlopend verhaal is, is hieronder te lezen. De top 10 van de raarste datacenter outages, dus dis-continuïteit, werd onlangs gepubliceerd op de site Datacenterknowledge:
1 – De schrikkelseconde bug
Een schrikkelseconde is een aanpassing die af en toe wordt toegepast op de UTC (Coordinated Universal Time) om rekening te houden met variaties in de rotatiesnelheid van de aarde. De toevoeging van deze seconde veroorzaakte in 2012 problemen voor een groot aantal ict-systemen
2 – Knagende eekhoorns
In 2010 zorgden eekhoorns dat de helft van het Santa Clara-datacenter van Yahoo down ging door los te gaan op belangrijke kabels.
3 – Datacenterverhuizing
NaviSite verwierf in 2007 een hosting provider genaamd Alabanza en besloot de servers daar te verplaatsen naar hun centrale datacenter. Sites gehost door Alabanza gingen offline gedurende de move van 680 kilometer.
4 – Anker breekt kabel
Zeekabels zorgen voor de dataverbindingen van eiland naar eiland, continent naar continent. Hoewel deze kabels stevig zijn uitgevoerd gaan ze weleens kapot. In 2008 was er een reeks aan incidenten waardoor hele gebieden down gingen (in 2013 ook het eiland Formentera door een anker).
5 – Diefstal
Nianet, een Deense isp, ging plat toen dieven via een gat in de muur het datacenter binnenkwamen om netwerkkaarten te stelen. Hoe de dieven door de muur kwamen en waarom ze uit waren op netwerkkaarten blijft een mysterie.
6 – Roken schaadt de gezondheid en …
Het Perth iX-datacenter in het westen van Australië werd stilgelegd voor een uur nadat het VESDA (Very Early Smoke Detection Apparatus)-systeem rook had gedetecteerd. De oorzaak; een smeulende sigarettenpeuk.
7 – Keep on Truckin’
Rackspace kreeg in 2007 te maken met een storing van enkele uren nadat een vrachtwagen zich in een transformatorhuisje had geboord, dat daardoor ontplofte. De back-up werkte niet en zorgde voor een groot aantal sites die down gingen.
8 – Aankondiging BGP
De Tsjechische provider Supronet veroorzaakte eigenhandig een wereldwijde uitval bij verschillende grote hostingbedrijven door een verkeerd Border Gateway Protocol (BGP).
9 – Hier stond toch mijn server?
In 2007 werd in Chicago een datacenter midden in de nacht overvallen door twee gemaskerde mannen. De werknemer die op dat moment aanwezig was werd ge-tazered en ongeveer twintig servers werden uit het datacenter gestolen met als gevolg downtime voor die klanten.
10 – 9/11
Door de aanslag op de Twin Towers verdween er niet alleen een geheel datacenter op een van de vloeren van het WTC, maar door het instorten van de torens werden veel telecomkabels doorgesneden en ging de stroom plat in dat deel van New York. Vele datacenters hadden de eerste week enorme problemen.
Goed om af en toe bij stil te staan, eekhoorns en peuken.
De lijst laat je toch weer even nadenken of je alles wel gekontrolleerd hebt.
@Stijn
Rampen gebeuren, opmerkelijk dat je lessen van Katrina niet eens meeneemt in je verhaal. Want net als de twee-vliegen-in-één-klap bij Twin Towers bleek het niet slim om je primaire en secundaire datacenter dicht bij elkaar te zetten. Net als dat het niet handig is om je backup in het datacenter te houden zoals Vodafone leerde of geen backup te hebben zoals Exacthost liet zien. Uit je lijstje mis ik dus nog wel een aantal Nederlandse voorbeelden die zeker ook het noemen waard zijn als het om de BEDRIJFScontinuïteit gaat want datacenter wordt alleen maar belangrijk als je daarvan afhankelijk bent voor je bedrijfsprocessen.
Als ik me niet vergis plaatst Allianz business risk monitor fraude hoger op de schaal, ICT falen staat ergens op 5 meen ik gelezen te hebben. En als ik kijk naar oorzaken van falen dan valt het op dat gebruiker hier op eenzame hoogte staat, er wordt nog weleens wat data gewoon weggegooid. Eigenlijk zouden we dus eerst de gebruiker uit het proces moeten verwijderen om de continuïteit te verhogen. Maar ja, ik ben een beheerder en wil me zelf niet weg automatiseren hoewel de business daar meestal dus andere ideën over heeft. Tot dat…..
Het lijstje met alle rampen die voorkomen zijn door beheer is dan ook nog veel langer, eindeloos lang zelfs als ik naar de cijfers kijk. Want het gaat telkens om de data dus laat center eerst maar even weg aangezien ik ook voorbeelden ken waar business hersteld is door alle kopieen die iedereen nog in zijn mailbox had staan. Als je data niet meer bereikbaar is omdat een schip erover heen gevaren is dan vraag ik me af hoe slim Nederland geworden is. En gemaskerde mannen die maar 20 servers meenamen en de rest lieten staan doet me denken aan de knokploegen die adminstratie van de Duitsers vernietigden.
Het lijken zo toch wel allemaal scenario’s voor spannende films. Het zou in ieder geval nog meer helpen bij de bewustwording om zo bedrijven aan (bedrijfs) continuïteitsmanagement te krijgen. Het is zeker tijd voor continuïteit!
Backups zeggen me niet zo veel. Ik heb te vaak crises mogen afhandelen waarbij de restore niet goed getest was, de documentatie achterhaald of de doorlooptijd onrealistisch door jarenlange aangroei van de data.
Ik geef dus ook geen geld meer voor backup. Toon me een werkende restore en ik trek de beurs. Eerder niet.
@TC Louwrier
Dan wil ik die beurs wel open zien gaan 😉
Er is backup / met nadruk op restore software die automatisch je backups tests en laat verifiëren.
Zo weet je altijd of je backups ook te restoren zijn (ik merk maar vaak genoeg dat organisaties hun backups niet testen laat staan weten of ze echt te restoren zijn zodra het nodig is).
Wij noemen dit SureBackup.
En documenteren automatisch je virtuele omgeving met een druk op de knop.
Het blijft een kwestie van het goed uitvoeren van BIA’s, Risk analysis en het invoeren van Business Continuity plannen. Waarbij het Business process leidend is em IT een ondersteunig is. m.a.w. wat kost het wanneer een Business process uitvalt, en wat kosten de maatregelen kortom kosten baten analyse.
@Sylvia
Niet elk organisatorisch probleem met techniek oplossen, in reacties staan genoeg betere adviezen. Hoewel we als IT-ers graag willen geloven dat de wereld om ons draait is dat niet zo. Als je een back-up hebt, deze 100% correct kunt restoren maar niemand om de rest van de processen in te vullen dan heb je nog steeds een probleem met je business continuity. Er is meer dan de virtuele wereld zullen we maar zeggen:
https://www.computable.nl/artikel/nieuws/overheid/5020424/1277202/duo-claimt-diverse-schades-na-kpnstoring.html
Even voor de duidelijkheid, business continuity is geen IT probleem maar een management uitdaging. Dat technologie leveranciers met allerlei puntoplossingen zogenaamd ‘ontzorgen’ maar als puntje bij paaltje komt niets waarmaken heb ik al te vaak gezien. Ik roep ketenproblematiek….
@TC Louwier
Zoals er meer is dan de virtuele wereld is er ook meer dan DR, continuiteit van de business is vaker in gevaar door gebruikersfouten dan rampen. Want ondanks de ‘SureDelete’ vraag van Microsoft verdwijnen er nog steeds belangrijke bestanden die je vaak alleen maar terug kunt zetten vanuit een backup. Soms zit de oorzaak hiervan in software zoals we leerden met Dorifel uitbraak waardoor we in hele verhaal ook niet het incident management proces moeten vergeten.
Hoewel het nog weleens misgaat gaat het ook vaak goed, vergeet niet dat alleen de incidenten de krant halen. Steeds vaker zijn dat de processen met een hoge attentie- maar lage businesswaarde want uiteindelijk gaat het gewoon om het classificeren van de risico’s. Dat een website eruit ligt is misschien vervelend maar niet onoverkomelijk, tenzij het natuurlijk de opgelegde wijze van betaling is bij internetbankieren. Want dan wordt de ketenproblematiek dus gewoon een domino effect.
Vanuit mijn beleving, datacenters voor Amx mede vorm te hebben gegeven halverwege de jaren negentig van het vorige millennium, verbazen artikels als deze me toch telkens weer.
Alsof er mensen plots tot de ontdekking komen dat iets wat Standaard(!?!) dient te zijn op dit niveau, door sommige klaarblijkelijk niet als standaard word gezien. Hier moet men even een helder onderscheid maken overigens.
Redundancy is geen 100% on line garantie
Technisch gezien kun je gewoon er zorg voor dragen dat de spullenboel op datacenterniveau gewoon up en running is. Dat is altijd al de bedoeling geweest, zoals ik net dus zei, gewoon standaard.
Oog voor redundancy
Het is maar welk SLA je af sluit per klant dat je garanderen kunt wat je afspreekt.
Eenvoudige voorbeelden….
Sluit je bij KPN e.d. iets af dan heb je een aardig idee en inzicht van die uptime en een beeld van redundancy. Sluit je een telco abonnement af dan is dat weer een heel ander verhaal. Dat hebben we kunnen zien , en bij KPN en bij Vodaphone bijvoorbeeld.
Werelden van verschil tussen bedrijven die gebruik maken van…
Een kleine MKB-er heeft een totaal ander idee dan een N of een grote bank wat beschikbaarheid van de systemen betreft natuurlijk.
Hoe het ook zij, continuïteit mag natuurlijk geen aanname zijn maar moet wel een gewoon onderdeel van het standaard zijn. Als dat een discussiepunt is, ben je bij de verkeerde leverancier als je het mij vraagt.
@ Stijn,
Op zich wel apart dat hier specifiek alleen het verhaal van Rackspace door je aangehaald wordt. Er zijn natuurlijk tig partijen die hier mee in de mist gaan.
Het veilig stellen van data is leuk. Maar als je het restoren en de data die dan terug gezet is niet test, dan is het nutteloos. Hier heb ik in het verleden al meer dan genoeg over geschreven.
Als cloud of hosting bedrijf kan je hier natuurlijk slim op inspelen door hier diensten ( guaranteed restore ) voor te ontwikkelen. Het risico is natuurlijk wel dat als je garanties afgeeft, dat je die ook waar moet gaan maken. En kan je als klant zijnde alleen op papieren garanties afgaan? Misschien kan men het periodiek testen en aantonen. Dan pas heeft het toegevoegde waarde. Er zijn al verscheidene software producten op de markt die een restore kunnen stimuleren. Dus er is hier genoeg mogelijk.
Een crash van een datacenter zegt niets over de continuïteit van een systeem. Dat systeem kan gewoon doordraaien, ondanks het verlies van een datacenter. Het is dus leuk om alle rampen op te noemen, maar dit zegt meer over sensatie zucht dan over relevantie.
Er zijn verschillende methoden om je continuïteit te bepakken. Een ervan zou kunnen zijn om aan te geven hoeveel fouten je wil overleven. Wil je een stroomfout (energieleverancier valt weg) kunnen overleven, of wil je ook maatregelen nemen om een aggregaat fout te overleven. Als je op die wijze redeneert kan je met bijkomende kosten een serieuze afweging maken en vastleggen.