SCSI- en FiberChannel-harddisks blijken het net zo snel te begeven als ATA/IDE-schijven. Bovendien is de ‘failure rate’ in de praktijk een veelvoud van wat de fabrikanten opgeven.
Dat blijkt uit de onderzoeken ‘Failure Trends in a Large Disk Drive Population’ en ‘Disk Failures in the Real World’ van respectievelijk Google en Carnegie Mellon University (CMU). Beide presenteerden hun resultaten onlangs op de conferentie File and Storage Technologies (FAST).
Google maakte voor zijn onderzoek gebruik van de gegevens over de harde schijven in zijn eigen datacenters. In totaal ging het om meer dan 100 duizend disks over een periode van vijf jaar. Ook CMU nam de gegevens van 100 duizend schijven over een periode van vijf jaar onder de loep. Zij kregen hun data van een aantal grote rekencentra. Volgens de onderzoekers zijn dit de twee grootste onderzoeken ooit gedaan naar de betrouwbaarheid van harde schijven.
Duurkoop
Bij Google heeft men alleen kunnen kijken naar SATA/PATA-schijven. De gegevens van CMU betroffen ook SCSI- en FiberChannel-disks. Een opzienbarend resultaat is dat die duurdere ‘enterprise’-disks net zo slecht scoorden als de goedkope ATA-schijven. Volgens CMU moest elk jaar twee tot vier procent van alle schijven vervangen worden. Voor sommige systemen bedroeg dat echter meer dan tien procent.
Beide onderzoeken concluderen dat de gevonden ‘failure rates’ een veelvoud zijn van de cijfers die de fabrikanten zelf opgeven. Waar die steevast getallen onder de twee procent aanhouden, kan dat volgens Google in de praktijk oplopen tot zes procent.
Fabrikanten en gebruikers hebben wel een heel verschillende definitie voor een defecte disk. Volgens de fabrikanten blijken tientallen procenten van de teruggestuurde schijven gewoon in orde te zijn. Het is bijvoorbeeld bekend dat een bit ‘om kan vallen’ en de schijf daarna nog jaren probleemloos functioneert. In de praktijk zal zo’n schijf vaak toch vervangen worden.
Deze definitiekwestie kan echter slechts een beperkt deel van de enorme verschillen verklaren. Waar gebruikers rustig over een periode van vijf jaar de levensduur van zijn schijven kan meten, heeft een fabrikant daar geen tijd voor. Hij berekent zijn cijfers dan ook op basis van stress tests, modellen en retouren, maar dan wel in de meest gunstige omstandigheden.
Google heeft ook gekeken naar SMART (Self-Monitoring, Analysis, and Reporting Technology) als voorspeller voor defecten. Als we bedenken dat deze techniek alleen problemen met de schijf zelf detecteert, blijkt SMART goed te werken. Helaas gaat het vaker fout in de elektronica van de schijf dan in het opslagmedium zelf. Dat is onder meer te wijten aan wisselingen in temperatuur en voedingsspanning. Volgens Google gaf meer dan eenderde van de disks geen enkele SMART-waarschuwing voordat deze de geest gaf.
Tenslotte blijkt ook het ‘badkuip-model’ niet te kloppen. Dat zegt dat als schijven in de eerste maanden niet stuk gaan, deze pas na drie tot vijf jaar vanwege slijtage steeds vaker de geest zullen geven. Google vond dat er na twee jaar al een sterke stijging was. Gek genoeg bleek een zware belasting alleen in de eerste drie maanden een hogere uitval tot gevolg te hebben. Daarna werd dit effect pas na jaren gebruik weer goed zichtbaar. Hoge temperaturen bleken alleen bij oude schijven problemen op te leveren. CMU vond niet eens een ‘bodem in de badkuip’, maar alleen een sterk toenemende kans op problemen naarmate de schijf ouder werd. Daarbij was er geen verschil tussen ATA-schijven en dure SCSI- of FiberChannel-schijven. Dat betekent dat fabrikanten en gebruikers die hun geld de afgelopen jaren op de ATA-technologie hebben gezet, met het verschijnen van deze studie hun gelijk hebben gekregen.