Hostingbedijf Exacthost gaat binnen twee weken een disaster recovery-omgeving opzetten. Dit zegt algemeen directeur Kadir Dogan naar aanleiding van de storing die zijn bedrijf ruim vijf dagen trof. ‘Hieruit hebben wij de conclusie getrokken dat het opzetten van een dergelijke disaster recovery nu onze directe prioriteit moet hebben.’
Dogan heeft al contact gehad met verschillende leveranciers, waaronder EMC, en binnen een week ontvangen ze de benodigde hard- en software. De directeur plant vervolgens ook nog een week implementatietijd in. ‘Het klopt dat wij niet over een disaster recovery-omgeving beschikken. Wij communiceren ook op onze website dat onze dienstverlening draait op één single storage array. Op basis van wat er afgelopen week is gebeurd, kunnen we concluderen dat de huidige back-upopzet niet afdoende is gebleken en een dergelijke disaster recovery-omgeving een noodzaak is.’
EMC heeft niet gefaald
Eerder meldde EMC dat er in totaal twee hard disks waren uitgevallen in een raid 5-configuratie waardoor deze hele groep uitviel en het hele Centrale Cloud Cluster down ging. Volgens Dogan klopt dit niet en gingen er drie disks binnen deze groep onderuit en één disk in een andere groep. Feit is wel dat er beduidend minder disks uitvielen dan de tien die Exacthost eerder communiceerde. ‘We hebben deze uitleg richting klanten dan ook aangepast’, verontschuldigt Dogan zich. ‘EMC heeft niet gefaald.’
Over verdere technische achtergronden van de storing wil Dogan zich nu nog niet uitweiden, omdat Exacthost dit nog aan het onderzoeken is. ‘We moeten nog inventariseren wat er precies gebeurd is. De back-ups konden in ieder geval wel teruggehaald worden, maar dit proces zou veel meer tijd kosten. Gelukkig hebben we 100 procent van de data bij een gespecialiseerd Duits bedrijf kunnen herstellen.’
Tweede uitwijklocatie
Exacthost beschikt op dit moment wel over een uitwijklocatie, maar deze wordt niet ingezet voor disaster recovery. Dogan: ‘Hieraan gaan we dus werken en eventueel gaan we ook een tweede uitwijklocatie opzetten. Deze zal niet alleen voor back-up gebruikt gaan worden.’
Reactie EMC
Eerder reageerde EMC ook al op de storing bij Exacthost. Lees daarom ook het achtergrondartikel ‘Disaster recovery ontbrak bij Exacthost’.
Tsja, de noodzaak van DR wordt altijd pas begrepen als het kwaad al is geschiedt. Hopelijk dat ExactHost niet alleen de fysieke voorzieningen treft voor uitwijk maar deze ook regelmatig test. Lessons learned zorgen dan misschien wel voor best practices maar regelmatig testen dus voor better practices want bij onverwachte verstoringen zit het verschil tussen succes en falen nu eenmaal in de details. En wat ik al bij voorgaande artikel als reactie had gegezegd wordt hier nog eens bevestigd: Ontwerp je back-up voor herstel.
http://www.slideshare.net/edekkinga/data-veiligstellen-is-nog-een-hele-klus
Helemaal mee eens Ewout.
Ik heb hier al enkele stukjes over geschreven:
https://www.computable.nl/artikel/opinie/storage/4349042/1277017/de-zorgverzekering-van-de-ictomgeving.html
https://www.computable.nl/artikel/opinie/storage/4564285/1277017/veiligstellen-van-data-is-nog-een-hele-kunst.html
https://www.computable.nl/artikel/opinie/storage/4531116/1277017/zonder-data-geen-bedrijfsvoering.html
En Mr. Dogan kan mij natuurlijk altijd bellen om Exact Host te assisteren.
Ik ben als ex senior-systeenbeheerder bekend met het fenomeen dat er massaal op hetzelfde moment op verschillende platformen hardeschijven uitvallen: dit gebeurt wanneer de luchtvochtigheid 15% of lager is (= statische electriciteit in de lucht). Ik adviseer ze dan ook om klimaatmeetapparatuur hiervoor te gebruiken en met de gebouwbeheerder te overleggen m.b.t. de methode van koeling. Een andere oorzaak kan natuurlijk een inline-UPS zijn die niet zuiver is. Of aardfouten, maar het eerste acht ik het meest waarschijnlijk. Overigens gaat het hele dupliceren van alle omgevingen en een uitwijk/terugprocedure bedenken en de infrastructuur hierop aanpassen veel langer dan een week duren… Sterker nog, elke change onder tijdsdruk leidt onherroepelijk tot incidenten, waardoor men uiteindelijk maanden zoet is…
Evident dat men een ‘standaard IT Discipline’ pas weer in het proces op neemt als het leed weer eens is geleden.
Ik begrijp het gewoon niet. Disaster recovery behoort procesmatig gewoon in de E2E IT keten te zijn opgenomen en heeft qua implementatie helemaal niet zo heel erg veel om het lijf. Tenminste niet op het geheel.
Is het dan werkelijk zo dat met de versnelde uitfasering van goed doordenkend en vaan senior IT professionals dit soort incidenten sneller toenemen dan ik verwachtte?
Klaarblijkelijk. In elk geval een goede publicatie als reminder voor menig ander organisatie hier toch echt aandacht aan te schenken en voor de ‘young IT Promissing Talent?’ Misschien toch tijd eens naar de ‘oudjes’ te kijken en luisteren?
Sterk van Exacthost deze publicatie.
Ik ben blij dat mijn aanvankelijke analyse over de catastrofe bij Exacthost juist was; de schade lag in veel mindere mate aan EMC dan het artikel deed vermoeden.
Toch blijft het me verbazen dat de rookgordijnen nog niet opgetrokken worden. Zo ken ik bijvoorbeeld geen (zichzelf respecterende) consultant die een volwaardige Disaster Recovery oplossing kan implementeren binnen 3 weken. Daar is toch echt meer tijd voor nodig, al was het maar omdat voor dat soort ingrijpende wijzigingen aan de infrastructuur een onderhoudsmelding tenminste 14 dagen vooraf uitgestuurd moet worden. De implementatie ervan is complex en bijzonder risicovol.
Verder ben ik benieuwd of een dergelijke oplossing door Exacthost geïmplementeerd kan worden bij gelijkblijvende tarieven. Zoals ik in het eerdere artikel al concludeerde: voor €0,25 euro per GB is het niet realistisch om te verwachten dat er drie of zelfs vier kopieën van de data wordt opgeslagen op replica’s en backups.
Hiermee zal het dossier Exacthost wel zo’n beetje afgesloten worden. Als ik de twitterfeeds zo volg is er inmiddels een heuse ‘bankrun’ gaande.
Het medicijn: volledige transparante communicatie en de juiste assistentie door professionele partners.
Ruud Mulder en ikzelf houden ons beschikbaar voor assistentie.
Bart M. Veldhuis
Cloud Architect
Wat betreft de tijd die nodig is om DR goed op te zetten ben ik het helemaal met je eens. Denk alleen maar al aan het testen 🙂
Daarnaast moet je ook gewoon scenario’s uitwerken. Een ramp kan zich op vele manieren voltrekken, van bliksem en stroom uitval tot een gehackte infrastructuur. Uitvallende schijven tot en met een update die totaal verkeerd uitpakt.
Tegen niet alle rampen wil je jezelf verzekeren, want het kan niet alles dat daarmee alles een stuk duurder wordt. Alleen al de technische kennis en juiste beslissingen kunnen maken zijn al domweg duur.
Henri,
Ook hier kan je je data en je diensten classificeren.
Niet alles is even belangrijk. En niet iedereen wil er voor betalen.
Natuurlijk staat en valt DR bij het testen en nakomen van de afspraken (SLA) die je met je eindklanten maakt. Kom je die een paar keer niet na dan is het vaak binnen afzienbare tijd einde oefening voor je.
Ruud, je antwoord is teveel gestoeld op data recovery, en classificeren is leuk, maar te oppervlakkig.
Daarnaast mist een SLA totaal het punt bij *disaster* recovery. Je hebt vaak namelijk maar één kans en falen is daarbij geen optie. Trackrecord is in zo’n geval veel belangrijker dan het papier werk.
Ik heb liever een partner die zegt uitlegt hoe de veerkracht tot stand komt, dan een partner die zegt dat ze binnen 30 minuten zullen reageren.
De theorie is ondergeschikt aan de praktijk.
@Henri & Ruud
Je haalt een terecht punt aan, een SLA op diskcabinet is nogal zinloos als het netwerk vergeten wordt. Nu moet je natuurlijk wel onderscheidt maken tussen een MTBF en MTTR waarbij de door Ruud aangehaalde argumenten wel weer valide worden. Herstel van een service is nu eenmaal een optelsom der delen waarbij de opslag uiteindelijk het begin en einde van de keten is, deze telt dus dubbel in de keus van je oplossing.
Veerkracht lijkt me een wat andere discussie in deze, Exacthost dacht dat blijkbaar op te lossen met RAID waarbij ze mogelijk niet de best practice van EMC hebben gehanteerd. Meest storage leveranciers hanteren namelijk – afhankelijk van SAS/SATA – een formule van aantal spindles in verhouding tot parity en spares op basis van MTBF cijfers en eerdere reacties waren hier al duidelijk over, tenminste als je tussen de regels door leest.
Betreffende DR ben ik het ook niet helemaal met je eens, de minder kritische services hoeven echt niet split-second beschikbaar te zijn. Meeste organisaties hebben dan ook een tiered model waarbij bijvoorbeeld het herstel van een archief best een week of langer mag duren. De door Ruud genoemde classificatie van data is dus wel degelijk belangrijk, of je moet zoveel geld hebben dat je alles maar domweg repliceert. Dat kun je trouwens doen op verschillende lagen en daarover heb ik ooit eens een interessante discussie met ‘hardcore’ Microsoft medewerkers gehad.
Wie zijn webwinkel kritisch vindt moet eens kijken wat Bol hier doet want daar zit echt een andere prijs aan dan een paar tientjes. Ook dit is al aangegeven in eerdere reacties maar wil ik nog maar even aanhalen omdat grote jongens hier ook nog fouten maken. Want een SLA in de cloud is toch een beetje als dat programma van Carry Tefsen: *schril stemmetje* Op Goed Geluk! Want sommigen zijn nu eenmaal blind voor het feit dat betrouwbaarheid gewoon geld kost.
Het is sneu wat er nu gebeurt met Exacthost hoewel ik ook positieve kanten zie, ze kunnen zich nu tenminste ontworstelen aan wet van de remmende voorsprong. Want er zijn nog veel meer aanbieders die met oude apparatuur ineens een cloud leverancier zijn geworden en de back-up niet op orde hebben. Laat staan dat ze enig idee hebben van wat en wie gebruik maakt van de diensten, het eerder genoemde stukje administratie ontbreekt nog weleens. En zoals we al eens besproken hebben, een kleine speler heeft meer aandacht voor een kleine afnemer.
Door Bart genoemde ‘bankrun’ is dezelfde kortzichtigheid die ik eerder gezien heb bij bedrijven die zich niet interesseren voor de ICT. Grappige is dat ze vervolgens naar een andere bank gaan en daar uiteindelijk dezelfde ellende mee maken. DR is namelijk voorzien in een paraplu als het gaat regenen, wie deze uitleent komt erachter dat hij/zij telkens nat wordt als er plaatselijk een wolkbreuk is terwijl Piet Paulusma prachtig zomerweer voorspelde voor het land.
@ Ewout,
Goede toevoeging!
DR is een proces wat bij velen nog niet hoog genoeg op de agenda staat. Met alle gevolgen vandien.
Ook hier ligt nog een schone taak voor ons allen.