Klanten van hostingbedrijf Exacthost zijn al vijf dagen offline nadat het bedrijf een DDoS-aanval te verduren kreeg. De aanval werd redelijk snel afgeslagen, maar het gevolg was wel dat de EMC-hardware overbelast raakte en volledig crashte. Exacthost weet nog niet wanneer het zijn klanten weer in de lucht krijgt. Er zijn experts vanuit de Verenigde Staten en Noorwegen ingevlogen om de problemen op te lossen.
Vrijdag 24 januari 2014 kreeg Exacthost volgens eigen zeggen te maken met een kortstondige en beperkte DDoS-aanval. Om een dergelijk aanval af te slaan maakt ment gebruik van gespecialiseerde soft- en hardware. Korte tijd later waren alle servers dan ook weer bereikbaar van buiten.
Hard disks van EMC
Korte tijd daarna crashten echter in een tijdsbestek van drie minuten ruim tien harddisks, waaronder een aantal disks uit de Centrale Cloud Cluster. Een verband met de DDoS-aanval is volgens Exacthost technisch gesproken extreem onwaarschijnlijk zo niet onmogelijk. ‘Waarschijnlijk gaat het om een toevalligheid’, staat op de homepage van het hostingbedrijf te lezen. ‘Met als gevolg dat een flink aantal servers en een belangrijk deel van de cloudomgeving uitviel.’
Hard disk crashes vinden volgens Exacthost soms plaats, maar zijn zeldzaam. ‘Wij gebruiken uitsluitend speciale hard dics van EMC. EMC is een leverancier die zeer hoog staat aangeschreven, zowel qua prijs, betrouwbaarheid en prestaties. Ondanks de hoge prijs per disk, belasten wij individuele disks nooit verder dan 70 procent en worden de disks jaarlijks preventief vervangen.’
Raid
Normaal gesproken is de eventuele crash van een hard disk geen probleem. Exacthost werkt met raid-configuraties, waarbij de functie van de ene harddisk automatisch wordt overgenomen door een andere disk. Mocht die uitvallen dan is er een derde hard disk, en een vierde en zelfs een vijfde disk.
Op het moment dat de primaire disk in een raid problemen begint te vertonen, schrijft de server automatisch razendsnel de laatste wijzigingen weg naar de slave disk. In dit geval vielen binnen een zeer korte tijd van drie minuten een dusdanig groot aantal disks uit dat de servers dat niet meer compleet konden bijschrijven. Met als gevolg dat op een aantal disks de weggeschreven data niet compleet was en gegevensbestanden dus corrupt raakten. De disks konden niet meer op de normale wijze worden uitgelezen.
Technici uit Amerika en Noorwegen
‘Inmiddels was een team van technici van EMC uit Amerika ingevlogen, die zich voegden bij onze eigen netwerkspecialisten en een speciaal team uit Noorwegen’, gaat de verklaring van Exacthost verder. ‘Het op zo’n grote schaal tegelijk crashen van een dergelijk aantal hard disks was iets dat EMC nog nooit had meegemaakt. Verder onderzoek zal, nadat alles weer in de lucht is, moeten uitwijzen hoe dit veroorzaakt kan zijn. De technici van EMC hebben zaterdag een volle dag nodig gehad om de schade te diagnosticeren. Jammer genoeg konden zij niet achterhalen waarom een zo groot aantal van hun disks tegelijk crashten.’
Hierna is besloten om de gecrashte hard disks onder te brengen bij een gespecialiseerd data recovery-bedrijf in Duitsland. ‘Er zijn wereldwijd drie of vier bedrijven die op het allerhoogste niveau aan data recovery doen, waaronder dit bedrijf in Duitsland’, vervolgt Exacthost. ‘Data recovery is helaas een tijdrovende kwestie. Het gaat om grote harde schijven die bit voor bit uitgelezen en hersteld moeten worden. Als het, zoals in dit geval, om een flink aantal schijven gaat, is men daar, zelfs met inzet van meerdere teams, enige tijd mee bezig.’
Alle data is restored
Gelukkig bleek voor ExachHost-klanten maandag 28 januari na terugkomst in Nederland dat de data voor ruim 98 procent gerestored is. ‘Dat was het goede nieuws en op dat moment hadden wij goede hoop dat wij toen ook in staat zouden zijn om alle servers weer up en running te krijgen. Het slechte nieuws was echter dat de Amerikaanse technici uiteindelijk tot de conclusie kwamen dat er alsnog een probleem zat in een harde schijf die ook naar Duitsland moest voor recovery.’
Helaas voor Exacthost is dit de hard disk met de centrale metadata van het serverpark. Deze data is nodig om de volledige cloud weer in zijn geheel in de lucht te brengen. Overigens zijn niet alle servers getroffen. Deze harde schijf is vandaag direct naar Duitsland gegaan voor data recovery en Exacthost verwacht deze hard disk vannacht terug te krijgen in het datacenter.
Geen beloftes
Exacthost weet niet wanneer klanten weer online kunnen en van hun e-mail gebruik kunnen gaan maken. ‘Daar willen wij op dit moment nog geen beloftes over doen’, vervolgt de verklaring. ‘Het gaat om een zeer gecompliceerd probleem dat tijd kost om op te lossen. Als het mee zit zijn de sites weer snel in de lucht. We zijn eerder al eens te optimistisch geweest, dus willen wij er liever geen concrete belofte over doen.’
Reacties EMC en Exacthost
Inmiddels hebben zowel EMC als Exacthost gereageerd bij Computable. Lees daarom ook het achtergrondartikel ‘Disaster recovery-omgeving ontbrak bij Exacthost’. en nieuwsbericht ‘Exacthost zet versneld disaster recovery op’.
Ik neem aan dat met slave disk hot spares bedoeld worden? Ik ben erg benieuwd naar de config. Is hier wel op basis best practices gewerkt? Was de Cloud cluster gebasseerd op 2 of op 1 storage systeem? Want normaal gesproken heb je in dit soort omgevingen altijd een DR site.
Was het systeem wel goed gesized? En moest het niet in de 2e versnelling 120 km rijden? Want dat vinden disken nooit zo leuk. Ook hier geldt meten is weten.
Klinkt als ‘Lights-Out Operations’ waar, zoals Ruud al aangeeft het meten is vergeten.
Centrale Cloud Cluster = klinkt als ik dit artikel zo lees als geclusterde servers met een 1 storage systeem er onder.
“Data recovery is helaas een tijdrovende kwestie. Het gaat om grote harde schijven die bit voor bit uitgelezen en hersteld moeten worden. Als het, zoals in dit geval, om een flink aantal schijven gaat, is men daar, zelfs met inzet van meerdere teams, enige tijd mee bezig”
Klinkt als het repareren/recoveren van HD’s. Was er dan geen back-up op een andere medium beschikbaar? Van metadata maak je toch wel tussentijdse copieen/snapshots.
Normaal doe je bij disk crashes, recovery al dan niet automatisch (mirroring, raid4/5/6 enzo).
en als dat niet kan (te veel disks tegelijk defect zoals bij Exacthost), an restore je een backup.
abc-tje in Johan Cruijf taal.
Vijf dagen offline na disk crashes ? Je zal dit maar lezen na als local storage beheerder te zijn wegge-cloud-outsourced.
Ik snap best dat zo’n cluster behoorlijk faultolerant is en dit een uitzonderingssituatie is. Maar daarvoor architect-tier je dus backup omgeving. Niet fijn, restored data is minder recent, maar je bent binnen 24 uur toch wel weer online. Alle datadisks eruit voor onderzoek en nieuwe erin. Of wellicht complete vervangende storage hardware, waarop je backup terugzet.
Los van het feit dat het een enorm probleem is voor Exacthost, is er gewoonweg niet goed nagedacht over een DR omgeving in combinatie MET een juiste backup-oplossing (als je bitje voor bitje terug moet halen van een crashed disk). Wordt eigenlijk al door een eerdere reactie geopperd.
Helaas gebeurd het nog veel te vaak, dat men pas budget vrijmaakt voor solide oplossingen als het kwaad al geschiedt is…
Hallo Ruud en Collega’s,
Dit artikel zo lezend is mijn eerste reactie; dat was te verwachten. Maar of het zwaartepunt van de storing te wijten is aan EMC durf ik te betwijfelen. Op de website van Exacthost staat duidelijk te lezen dat het om een enkelvoudig storage systeem gaat, wat weliswaar volledig redundant is. Exacthost maakt volgens eigen zeggen gebruik van een EMC systeem in combinatie met RAID 10 bescherming. Deze combinatie wordt veelal gebruikt met NL-SAS en SATA schijven.
Dit past ook in het prijsplaatje van Exacthost. Het zijn geen kostbare servers die ze aanbieden, de opslagruimte wordt aangeboden voor een tarief tussen de €0,32 en €0,25 per GB. Voor dat geld weet je als klant dat je op een enkelvoudig uitgevoerd systeem staat en dat de backup niet is inbegrepen in de prijs. (over Backup wordt uberhaubt niet gesproken op de website).
Dat een groot RAID 10 volume met SATA disken niet meer te rebuilden is was al geruime tijd bekend en Exacthost heeft dat nu op hele onprettige wijze geleerd.
Ik ben wel van mening dat in het artikel de nadruk iets te zwaar ligt op het niet functioneren van het EMC storage systeem. Uit ervaring weet ik dat schijven van storage systemen helemaal niet jaarlijks preventief vervangen worden zoals Exacthost schrijft. Dit gebeurt pas als er (door EMC) een mogelijk defect wordt geconstateerd, en dat is ook vroeg genoeg. Als het systeem maar binnen support blijft bij de leverancier, en de juiste best practices omtrent het ontwerp worden gehandhaafd is niets aan de hand.
Dit soort verstoringen geven wel een duidelijke trend aan. Wij zien als IaaS groothandel momenteel veel van dit soort kleinere providers de overstap maken naar een IaaS omgeving van een grotere provider. De investeringen die benodigd zijn om dit soort (veelal 3-5 jaar oude) infrastructuren weer te upgraden zijn enorm. De benodigde investeringen in mensen en certificering die dit soort providers moeten doen stijgen vaak boven de omzet uit. Een veiligere keus voor dit soort partijen is dan ook om een dienst van een betrouwbare provider te resellen en te doen waar het goed in is: toegevoegde waarde aan de klant leveren met services.
Bart M. Veldhuis
Cloud Architect
Goede toevoegingen Fabian en Bart.
Geen speld tussen te krijgen.
laat 2014 het jaar van de goede toevoegingen worden. Kijk, weer eentje 😛
Hallo Bart,
Jij geeft aan dat al geruime tijd bekend is dat een groot RAID 10 volume met SATA disken niet te rebuilden is. Dit lijkt mij lariekoek.
Heb jij hier misschien wat extra info over of kan je dit onderbouwen? RAID 10 is in mijn ogen de snelste en beste configuratie met de minste rebuild time t.o.v. andere RAID levels als 5 en 6.
Groeten,
Lennart
Het zal jullie niet verbazen dat mijn LinkedIn profiel inmiddels erg in trek is bij mensen van EMC.. Ik heb geen idee waarom 🙂
Ik heb trouwens vanmiddag geprobeerd om telefonisch contact op te nemen met Exacthost om onze hulp aan te bieden. Ik kan me voorstellen dat na de crash van de RAID group ze zitten te springen om extra systeem capaciteit en wij hebben dat voor dit soort gevallen altijd ruim voorradig.
Na ruim 20 minuten in de wacht heb ik het opgegeven. Als iemand de Exacthost directie kent: ik hou me bereikbaar.