Klanten van hostingbedrijf Exacthost zijn al vijf dagen offline nadat het bedrijf een DDoS-aanval te verduren kreeg. De aanval werd redelijk snel afgeslagen, maar het gevolg was wel dat de EMC-hardware overbelast raakte en volledig crashte. Exacthost weet nog niet wanneer het zijn klanten weer in de lucht krijgt. Er zijn experts vanuit de Verenigde Staten en Noorwegen ingevlogen om de problemen op te lossen.
Vrijdag 24 januari 2014 kreeg Exacthost volgens eigen zeggen te maken met een kortstondige en beperkte DDoS-aanval. Om een dergelijk aanval af te slaan maakt ment gebruik van gespecialiseerde soft- en hardware. Korte tijd later waren alle servers dan ook weer bereikbaar van buiten.
Hard disks van EMC
Korte tijd daarna crashten echter in een tijdsbestek van drie minuten ruim tien harddisks, waaronder een aantal disks uit de Centrale Cloud Cluster. Een verband met de DDoS-aanval is volgens Exacthost technisch gesproken extreem onwaarschijnlijk zo niet onmogelijk. ‘Waarschijnlijk gaat het om een toevalligheid’, staat op de homepage van het hostingbedrijf te lezen. ‘Met als gevolg dat een flink aantal servers en een belangrijk deel van de cloudomgeving uitviel.’
Hard disk crashes vinden volgens Exacthost soms plaats, maar zijn zeldzaam. ‘Wij gebruiken uitsluitend speciale hard dics van EMC. EMC is een leverancier die zeer hoog staat aangeschreven, zowel qua prijs, betrouwbaarheid en prestaties. Ondanks de hoge prijs per disk, belasten wij individuele disks nooit verder dan 70 procent en worden de disks jaarlijks preventief vervangen.’
Raid
Normaal gesproken is de eventuele crash van een hard disk geen probleem. Exacthost werkt met raid-configuraties, waarbij de functie van de ene harddisk automatisch wordt overgenomen door een andere disk. Mocht die uitvallen dan is er een derde hard disk, en een vierde en zelfs een vijfde disk.
Op het moment dat de primaire disk in een raid problemen begint te vertonen, schrijft de server automatisch razendsnel de laatste wijzigingen weg naar de slave disk. In dit geval vielen binnen een zeer korte tijd van drie minuten een dusdanig groot aantal disks uit dat de servers dat niet meer compleet konden bijschrijven. Met als gevolg dat op een aantal disks de weggeschreven data niet compleet was en gegevensbestanden dus corrupt raakten. De disks konden niet meer op de normale wijze worden uitgelezen.
Technici uit Amerika en Noorwegen
‘Inmiddels was een team van technici van EMC uit Amerika ingevlogen, die zich voegden bij onze eigen netwerkspecialisten en een speciaal team uit Noorwegen’, gaat de verklaring van Exacthost verder. ‘Het op zo’n grote schaal tegelijk crashen van een dergelijk aantal hard disks was iets dat EMC nog nooit had meegemaakt. Verder onderzoek zal, nadat alles weer in de lucht is, moeten uitwijzen hoe dit veroorzaakt kan zijn. De technici van EMC hebben zaterdag een volle dag nodig gehad om de schade te diagnosticeren. Jammer genoeg konden zij niet achterhalen waarom een zo groot aantal van hun disks tegelijk crashten.’
Hierna is besloten om de gecrashte hard disks onder te brengen bij een gespecialiseerd data recovery-bedrijf in Duitsland. ‘Er zijn wereldwijd drie of vier bedrijven die op het allerhoogste niveau aan data recovery doen, waaronder dit bedrijf in Duitsland’, vervolgt Exacthost. ‘Data recovery is helaas een tijdrovende kwestie. Het gaat om grote harde schijven die bit voor bit uitgelezen en hersteld moeten worden. Als het, zoals in dit geval, om een flink aantal schijven gaat, is men daar, zelfs met inzet van meerdere teams, enige tijd mee bezig.’
Alle data is restored
Gelukkig bleek voor ExachHost-klanten maandag 28 januari na terugkomst in Nederland dat de data voor ruim 98 procent gerestored is. ‘Dat was het goede nieuws en op dat moment hadden wij goede hoop dat wij toen ook in staat zouden zijn om alle servers weer up en running te krijgen. Het slechte nieuws was echter dat de Amerikaanse technici uiteindelijk tot de conclusie kwamen dat er alsnog een probleem zat in een harde schijf die ook naar Duitsland moest voor recovery.’
Helaas voor Exacthost is dit de hard disk met de centrale metadata van het serverpark. Deze data is nodig om de volledige cloud weer in zijn geheel in de lucht te brengen. Overigens zijn niet alle servers getroffen. Deze harde schijf is vandaag direct naar Duitsland gegaan voor data recovery en Exacthost verwacht deze hard disk vannacht terug te krijgen in het datacenter.
Geen beloftes
Exacthost weet niet wanneer klanten weer online kunnen en van hun e-mail gebruik kunnen gaan maken. ‘Daar willen wij op dit moment nog geen beloftes over doen’, vervolgt de verklaring. ‘Het gaat om een zeer gecompliceerd probleem dat tijd kost om op te lossen. Als het mee zit zijn de sites weer snel in de lucht. We zijn eerder al eens te optimistisch geweest, dus willen wij er liever geen concrete belofte over doen.’
Reacties EMC en Exacthost
Inmiddels hebben zowel EMC als Exacthost gereageerd bij Computable. Lees daarom ook het achtergrondartikel ‘Disaster recovery-omgeving ontbrak bij Exacthost’. en nieuwsbericht ‘Exacthost zet versneld disaster recovery op’.
@ Mauwerd.
Haha. Dat gaan we regelen.
@ Bart,
Herkenbaar.
Ik stel voor dat we samen onze expertise te beschikking stellen. Op dat gebied vullen we elkaar perfect aan.
Dat een redactioneel stukje met het niveau van de Story zoveel (cynische) reacties krijgt is nogal opmerkelijk. Tenslotte gebeuren dit soort dingen vaker, 2 jaar geleden schreef ik zonder de ‘naming & shaming’ over een soortgelijke case. Opmerking van Bart over prijs en verwachting is terecht en ik herhaal dus nog maar even de lessen die ik geleerd had:
1. Verwacht niet teveel van hosting pakket voor een paar euro per maand.
2. Beheer niet alleen de website maar ook de administratie
3. Maak regelmatig een backup van:
a. De database
b. Alle files (bij CMS ook van templates, modules en dergelijke)
c. Webinstellingen
d. Mailaccounts
Betreffende de last van een back-up heb ik trouwens ook al eens wat geschreven, de meeste zeggen dat ze er regelmatig één maken maar weinigen testen deze ook nog. Oja, een back-up ontwerp je trouwens omgekeerd door uit te gaan van RTO/RPO maar meestal wordt die les pas ter harte genomen als het kwaad al geschiedt is.
Nu zie ik in reacties dat de beste stuurlui aan de wal staan, het wachten is nog op Henri.
Dat een website (of vele websites) down gaan kan altijd gebeuren, maar je moet er als hoster wel goed mee omgaan. Het grootste probleem bij Exacthost is dat ze totaal niet communiceren. Ja, eens in de twee dagen een berichtje met te weinig info. Het is echt niet te geloven dat er praktisch niets wordt gecommuniceerd, terwijl alle klanten gedupeerd zijn. De website was gisteren na 6 dagen weer online, maar is (een dag later) alweer 8 uur down, en wederom zo goed als geen communicatie en geen info over de te verwachten duur van de storing. Dit is de doodsteek voor onze stappen op cloud gebied. Je kunt (zelfs na herhaaldelijk verzoek) niet bij je eigen data (incl. cloud backups), en een fatsoenlijke backup van het geheel blijkt er niet te zijn.