Als opslagsystemen falen, zijn harde schijven daar minder vaak de oorzaak van dan beheerders denken. Vaker liggen interconnectieproblemen ten grondslag aan het probleem. Ook gestapelde protocollen kunnen een rol spelen.
Beschadingen op harde schijven zijn niet de belangrijkste oorzaak van falende opslagsystemen. Dat concluderen computerwetenschappers van de universiteit van Illinois op basis van onderzoek in samenwerking met opslagleverancier NetApp.
Volgens de onderzoekers zijn haperende harde schijven slechts in tussen de 20 en 55 procent van de gevallen de reden dat een opslagsysteem dienst weigert. Het percentage is afhankelijk van het merk en type harde schijf. Haperende fysieke verbindingen vormen vaker de zwakste schakel, namelijk in 27 tot 68 procent van de gevallen. Ook gestapelde protocollen kunnen tot uitval leiden, dat gebeurt in 5 tot 10 procent van de gevallen.
De conclusies van het onderzoeksteam zijn gebaseerd op log-bestanden van 39.000 opslagsystemen, die in totaal 1,8 miljoen schijven bevatten. Deze bestanden zijn gedurende bijna vier jaar (44 maanden) verzameld.
Meer redundantie helpt
Volgens de onderzoekers wijzen de onderzoeksresultaten er ondubbelzinnig op dat de betrouwbaarheid van een opslagsysteem niet alleen wordt bepaald door de duurzaamheid van de harde schijven, maar meer door de andere onderdelen in een opslagsysteem en de communicatie tussen onderdelen. Een algemene oplossing is volgens hen het inbouwen van meer redundantie, door het aanbrengen van meer tussenverbindingen tussen harde schijven.
Een relatief simpele oplossing hiervoor is om de harde schijven die tot één RAID-groep behoren, op grotere afstand van elkaar te plaatsen binnen een opslagsysteem. RAID is een afkorting van Redundant Arrays of Independent Disks. Het is een verzameling technieken voor het voorkomen van gegevensverlies door het verdelen van gegevens over meer dan één harde schijf. In een RAID-systeem worden verschillende harde schijven gecombineerd tot een groep van schijven (disk array). De in het systeem ingebouwde software zorgt ervoor dat de computer logisch gezien maar één schijf ziet.
Twistpunt
Het onderzoek kan misschien verklaren waarom schijffabrikanten en klanten het zo vaak oneens zijn over het al dan niet kapot zijn van een harde schijf. Dat conflict werd vorig jaar onderbouwd door de onderzoeken ‘Failure Trends in a Large Disk Drive Population’ van Google en ‘Disk Failures in the Real World’ van Carnegie Mellon University (CMU).
Beide onderzoeken concludeerden dat de gevonden ‘failure rates’ een veelvoud zijn van de cijfers die de fabrikanten zelf opgeven. Waar die steevast getallen onder de 2 procent aanhouden, kon dat volgens Google in de praktijk oplopen tot 6 procent.