De storing bij Exacthost had minder omvangrijk kunnen zijn als het hostingbedrijf een disaster recovery-omgeving had gehad. Ja, er vielen hard disks van EMC uit, maar dit waren er twee en niet tien zoals Exacthost eerder beweerde. Nadeel was wel dat deze twee schijven allebei in dezelfde raid 5-groep zaten waardoor de hele groep uitviel. Gevolg: de klanten van Exacthost bleven ruim vijf dagen verstoken van internet en e-mail.
Woensdag 29 januari 2014 lukten het EMC-experts om de cloudomgeving van Exacthost weer in de lucht te krijgen. De crash had echter volgens country marketingmanager Ron Grevink van EMC Nederland niet zo lang hoeven duren. ‘Het is een feit dat disks in een storage-omgeving kunnen uitvallen. Als dit gebeurt, dan is er binnen een raid 5-groep altijd een spare disk die het bij uitval overneemt. In een zeldzaam geval vallen er twee disks binnen een groep uit. Dan valt de hele raid 5-groep uit en zou uit moeten wijken naar of een back-up of een disaster recovery-omgeving. Zodoende kan je altijd je dienstverlening continueren.’
Werkende back-up
Deze disaster recovery-omgeving ontbrak echter bij Exacthost waardoor het hele Centrale Cloud Cluster eruit klapte. Grevink: ‘Virtualisatie of de cloud draait niet alleen op één disk of één groep, maar draait op de gehele onderliggende laag. Daarbij wordt data opgehaald en weggeschreven naar verschillende disks in verschillende groepen. Doordat deze onderdelen binnen een cloudomgeving wel van elkaar afhankelijk zijn, gaat de boel plat zodra er een hele groep in één keer uitvalt. Als je dan geen disaster recovery-omgeving hebt, moet je er op z’n minst voor zorgen dat je back-up goed werkt.’
Dat was echter niet het geval bij Exacthost waardoor er een Duitse specialist moest worden ingeschakeld voor de data recovery. Gelukkig voor Exacthost-klanten is bijna alle data veiliggesteld. ‘Het is fantastisch dat service providers diensten aanbieden, maar er moet wel een werkende back-up of een disaster recovery-omgeving zijn’, vervolgt Grevink. ‘Deze laatste moet bij voorkeur ook nog eens in een ander gebouw zijn ondergebracht. Feit is dat disks aan slijtage onderhevig zijn en kunnen uitvallen. Gemiddeld eens in de vier jaar komt het bij ons voor dat er twee disks tegelijk uitvallen waardoor een groep ermee stopt. We testen onze producten onder extreme omstandigheden, maar 100 procent betrouwbaarheid kunnen wij niet garanderen. Bij Exacthost was het een uitzonderlijke situatie.’
DDoS-aanval
Grevink ontkent overigens dat een DDoS-aanval de oorzaak zou zijn van het uitvallen van de EMC-disks. ‘Een DDoS-aanval is op cpu-niveau en doet geen dataverzoek aan een disk. Een processor kan dus overbelast raken, maar disks niet. Dat de crash van de twee disks kort na een DDoS-aanval plaatsvond, was puur toeval.’
Reactie Exacthost
Inmiddels heeft Exacthost ook gereageerd op het ontbreken van de disaster recovery-omgeving. Lees daarom ook het nieuwsbericht ‘Exacthost zet versneld disaster recovery op’.
Het kan helemaal waar zijn, maar mij bekruipt het gevoel: “zo, mijn straat is weer schoon.”.
Valide feedback van EMC.
Dit is absoluut niet je eigen straatje schoon vegen van EMC.
Hier is gewoon geen speld tussen te krijgen. Er is gewoon niet goed nagedacht of geinvesteerd in DR.
Straatje is inderdaad schoon nadat EMC de klant optimaal heeft geholpen.
Raid-5 is nooit een 100% garantie en je moet natuurlijk altijd je backup/DR 100% in orde hebben, zeker als je klanten host.
Dit soort artikelen zijn niet nieuw en dergelijke publicaties zijn slechts het topje van de ijsberg vaak. Niemand laat graag de buitenwereld zien wat er al of niet fout gaat in de eigen processen.
Disaster Recovery zelden op de agenda
Vanuit mijn ervaring alleen al durf ik rustig te stellen dat meer dan 55% van de organisaties, als het al op papier staat, weinig tot niets doen aan disaster recovery. Geen scenario, geen duidelijke verwijzing, geen proces plan of plan van aanpak.
Je zag het gebeuren bij de KPN vs de hacker, bij Donner vs Diginotar, bij de grote brand van Vodafone in Rotterdam, en de NS met een legacy PC waardoor op klaarlichte dag plots alle wissels in en rond Utrecht het niet meer deden. Bij geen van die gevallen was er een duidelijk plan om via de kortste lijnen de boel gewoon op te kunnen vangen en duurde het ‘eeuwen’ voor men de boel weer op orde had.
Vreemd
Het is op zijn minst bevreemdend te noemen dat dit zo is. Immers, Disaster Recovery behoort procesmatig gewoon deel uit te maken van de hele E2E IT procesketen. Er zou op zijn minst iets over op papier moeten staan met toewijzen van personen en verantwoordelijkheden.
Goedkoop is Duurkoop
Als men denkt dat dit onderwerp inzet niet waard is, dan krijgt men te maken met één van de wetmatigheden van IT. Hele hoge rekeningen. En laat nu net vehikel IT daarvoor nou niet zijn bedoeld. Het minstens hebben van een eenduidig proces waarover goed werd nagedacht kost in de regel niet zoveel. Een stap verder zijn gewoon eens simulaties in een weekend.
Goed artikel die Distaster Recovery in de boardroom en MT tussen de oren moet zien te krijgen bij een businees critical vehilcle genaamd IT.
“Ja, er vielen hard disks van EMC uit, maar dit waren er twee en niet tien zoals Exacthost eerder beweerde.”
die naam : Exacthost 🙂
Jammer, Exact – afschuifpoging mislukt. Verder is RAID5 met de huidige volumes een steeds minder interessante optie.
Je ziet hier eigenlijk hetzelfde gebeuren als even geleden met de KPN vs de hacker. Je zag plots verschillende informatiekanalen open staan met tegenstrijdige informatie, met alle gevolgen van dien.
Je ziet dat een dergelijke eenduidige informatiekanaal nog niet altijd goed is georganiseerd. De snelheid waarmee men tegenwoordig met informatie viraal kan gaan kan juist weer ongewenst grote gevolgen hebben dan de daadwerkelijke feiten op de vloer waar het gebeurd.
Hoe dan ook, wanneer men in de gehele IT regie keten gewoon onvoldoende nadenkt over continuance is weer veelzeggend. Het behoort gewoon een standaard gedachtegang te zijn in de hele E2E keten.