De technologie voor storage, back-up en archivering ontwikkelt zich razendsnel. Leveranciers leveren een groot aantal verschillende hard- en software matige oplossingen met verschillende specificaties en service levels, die stevige reducties in de kosten beloven. Tegelijkertijd is er sprake van een groeiende verwarring. Hoe moet je nu omgaan met back-up? Hoe zorg je ervoor dat je voldoet aan je wettelijke verplichtingen voor archivering?
Al te vaak zie ik nog bedrijven, die de jaar-back-up beschouwen als het archief. Hier zitten een belangrijke denkfout achter.
Archiveren betekent letterlijk het geordend opslaan van gegevens. Maar waarom zou je archiveren?
- Juridische reden: De overheid verplicht je om documenten voor een bepaalde tijd te archiveren. Denk hierbij aan personeelsdossiers of financiële documenten.
- Beleidsmatige reden: Je archief herbergt je kennis. Een deel van deze kennis zul je als instelling zeer waarschijnlijk willen gebruiken voor de dagelijkse bedrijfsvoering. Voorbeelden hiervan zijn bijvoorbeeld werkinstructies en rapporten.
- Sociale reden: Het archief herbergt je verleden. Of je nu een commercieel bedrijf of een overheidsinstelling bent, een deel van het archief is wellicht belangrijk voor onderzoeksredenen of heeft misschien ook wel historische waarde.
- Financiële overeweging: Data die niet meer verandert wordt toch in elke full back-up meegenomen. Zo verzamel je vele kopieën van één en dezelfde file. Deze data in een archief stoppen verkleint de back-up (kosten).
In deze tekst concentreer ik me voornamelijk op de juridische redenen voor archivering: bewaren en bewijzen.
Data die om juridische redenen moet worden bewaard moet aan een aantal voorwaarden voldoen:
– De data mag niet meer worden gewijzigd.
– De data moet gedurende de wettelijke bewaar termijn leesbaar zijn. Te allen tijde moet dus de technologie aanwezig zijn om de data te lezen.
– Na het verstrijken van de wettelijke bewaartermijn mag/moet de data worden verwijderd.
Denk nu nog eens terug aan je jaar-back-up die ergens op een tape in een hoekje ligt van het datacenter of misschien wel van het datacenter van een service provider. Is die tape van zeven jaar oud nog leesbaar (tape drive-technologie is dan misschien niet meer beschikbaar in het datacenter of de tape zelf is slecht)? Wat gebeurt er na tien jaar met deze data? Hoe kun je garanderen dat het document op de back-up tape van zeven jaar geleden de laatste versie van het document is?
Geconfronteerd met deze problematiek en de opkomst van goede storage-middelen, stappen veel bedrijven over van back-up op tape naar back-up op goedkope harddrives. Dit lost de problemen met leesbaarheid en verouderde tapes op. De vraag is echter of dit type archief dan wel voldoet aan alle eisen? Wie controleert en garandeert dat de data lang genoeg wordt bewaard om te voldoen aan de wettelijke bewaartermijn? Wie zorgt dat de data niet kan worden gemuteerd? Hoe zorg je dat je snel en eenvoudig de laatste versie van de data vindt? Een goede archiveringsoplossing is hiervoor noodzakelijk en dit gaat verder dan alleen de aanschaf van goedkope storage.
Samenvattend is de aanbeveling om de volgende twee definities te hanteren: archief is de primaire data en back-up is een kopie van de primaire data. Consequentie is dat er van elk archief ook minimaal één back-up moet zijn en dat back-up geen archief is.
Nieuwe technologische mogelijkheden bieden nieuwe kansen om deze problematiek op te lossen. Het motto moet zijn: think before you act. Te snel een oplossing implementeren, kan over acht jaar wel eens een vervelend gesprek met een accountant opleveren.
Peter,
Leuke discussie. Welk medium je ook gebruikt voor je archief je zal altijd uitdagingen houden om het na 5,10,15 jaar nog in te kunne lezen. Buiten de uitdaging op het gebied van hardware kom je dit ook op het softwarevlak tegen.
Peter,
Leuke discussie. Welk medium je ook gebruikt voor je archief je zal altijd uitdagingen houden om het na 5,10,15 jaar nog in te kunnen lezen. Buiten de uitdaging op het gebied van hardware kom je dit ook op het softwarevlak tegen.
Peter,
Een vis is geen vogel hoewel dat bij Escher soms moeilijk te zien is. Daarmee bedoel ik te zeggen dat back-up en archief inderdaad twee verschillende dingen zijn maar vaak in hetzelfde raamwerk zitten. En dat is opmerkelijk omdat er niet alleen een verschil zit in bewaartijd, welke inderdaad langer kan zijn dan de technologische levensduur van het opslagmedium maar ook in de eisen van herstel, de controle of gehele archief nog compleet is. Want de wetmatigheid is dat als handhaving te kort schiet niemand zich er meer druk om maakt totdat het de krant haalt.
Archivering is dus in eerste instantie een proces, waar ook nog rekening gehouden moet worden met vele vormen van ‘digitale documenten’ omdat we tegenwoordig meer hebben dan het geschreven bewijs en dus horen ook de metadata, voicelogs en auditlogs tot een dossier. Want zoals je zegt is een archief tenslotte bedoeld als geheugen maar verliest deze al gauw zijn waarde als het selectief is. Hoe ga je bijvoorbeeld om met ‘unified communication’ als onderdeel van het bedrijfsproces?
Want een vergadering zonder notulen is uiteindelijk alleen maar een gezellig samen zijn, een eetclubje ofzo. Afgelopen jaar zijn er dan ook een behoorlijk aantal geruchtmakende zaken geweest waarin dossiers niet compleet (geheel verdwenen) of incorrect bleken te zijn. En oorzaak daarvan lag meestal niet in het falen van het back-up medium maar vooral de controle erop.
Dus je vragen zijn terecht maar je springt wel erg gauw in (technische) oplossingen.
@ Ewout
binnen 10 jaar is zijn het twee verschillende woorden voor het zelfde ….. Overigens er zijn ook vliegende vissen….
Als je een tape goed bewaard, blijft deze ook na tien jaar nog goed leesbaar. Mocht je migreren van bijvoorbeeld LTO3 naar LTO5 dan is de LTO3-tape nog steeds leesbaar door een LTO5-drive. (twee generaties terug lezen en een generatie terug schrijven) Het is dus zaak om bij een migratie rekening te houden, met hetgeen je al hebt ongeacht de gekozen techniek. Tape wordt overigens steeds meer gebruikt als long term archive, omdat dit meestal de goedkoopste oplossing is. Daarnaast beschikken steeds meer tape robots functionaliteiten om tapes te controleren op hun betrouwbaarheid en indien nog kan de tape zelfs (semi) automatisch gedupliceerd worden.
Feit is en blijft dat je van de juiste data een back-up/archive maakt, en daar valt of staat alles bij.
Eddy,
Je hebt natuurlijk gelijk. Maar met alleen het medium ben je er nog niet. Het betekent ook dat je 10 jaar lang het softwarepakket waar mee je je data veiliggesteld hebt in de lucht moet houden.
In de lucht houden is natuurlijk een groot woord. Er zijn natuurlijk wel wat trucs voor te verzinnen. Het is dus zeer belangrijk om vooraf goed de gevolgen van een mogelijke migratie te overzien
Hoe kan ik de mijn historisch archief waarborgen over 5,10,15 jaar is de keyvraag die je jezelf vooraf moet stellen. En wat heb ik daar voor nodig?
Peter, Dank voor dit artikel, het is soms lastig uitleggen waarom een backup geen archief is, dit stuk helpt daarbij.
De technologie van tapes, schijven en dergelijke is misschien nog wel het simpelste aspect. Wat ik in de praktijk tegenkom is dat data in databases staat, zowel transactionele data als geaggregeerde data in een data warehouses. Als je geen goede archiveringsstrategie hiervoor hebt kom je onherroepelijk voor problemen te staan: Hoe kun je de backup van 7 jaar geleden nog importeren? Intussen ben je misschien van Oracle 8 naar Oracle 11 gemigreerd, ben je van AIX naar Linux gemigreerd, is de versie van de applicatie die je destijds gebruikte niet meer beschikbaar, misschien ben je zelfs wel naar een andere applicatie gemigreerd.
Oftewel: als je een oude backup wilt teruglezen moet je een complete kopie hebben van de omgeving van destjds. Dus de juiste HW, OS, midddleware, DBMS, applicatie, en natuurlijk bijbehorende documentatie en andere vormen van kennis. Neem van mij aan: dat gaat je niet lukken.
Wat ik nastreef is dat bij elke database gekeken wordt welke tabellen relevant zijn voor het archief. De rijen die niet meer actueel zijn (zeg een jaar oud) worden wegeklijks geexporteerd in ASCII formaat en met een beschrijving van structuur en betekenis opgeslagen op archief storage. Hiermee garandeer je in ieder geval dat je onafhankelijk bent van de gebruikte infra componenten. Hiermee heb je echter nog steeds geen volledige oplossing, want je moet misschien ook weten wat de inhoud van stuurtabellen op een zeker moment in tijd was. En stel je voor wat er gebeurt als je een structuurwijziging in je database krijgt, bijvoorbeeld door een applicatieve upgrade.
Een groot bijkomend voordeel is (zoals ook door Peter genoemd), dat je back-up veel sneller klaar is en goedkoper zal zijn.
Oftewel, genoeg food for thought!
Dat men backup niet mag beschouwen als een soort archief lijkt een open deur maar het blijkt noodzakelijk dit steeds weer onder de aandacht te moeten brengen.
Menig organisatie kiest inderdaad voor lang veiligstellen van een jaarbackup, en uit kostenoverweging dan vaak op tape.
Naast de discussie of die tapes na verloop van jaren voor het informatiesysteem nog leesbaar en/of bruikbaar zijn, is er een minstens zo belangrijk aspect dat een rol speelt, de mutatiegraad van de betrokken data.
Data ondergaat gedurende een jaar ongetwijfeld vele veranderingen. Al die mutaties, dat stuk geschiedenis, is grotendeels weg als men uitsluitend nog jaarbackups heeft liggen.
Dat hoeft voor menig organisaties niet een probleem te zijn maar voor organisaties die met juridische-, medische- of personele gegevens werken lijkt mij die geschiedenis onontbeerlijk. Veelal ligt de geschiedenis niet opgeslagen in het informatiesysteem maar kent het informatiesysteem uitsluitend de laatst bekende status.
Zo kent dan ook de jaarbackup uitsluitend maar één status, de status zoals de data was op het moment dat de backup genomen werd. Hoe kwam die data ook al weer in die status? Niet meer te achterhalen, uitsluitend de status van een jaar eerder etc. etc. Ik kan mij situaties voorstellen waarbij je dan heel wat aan de rechter uit te leggen hebt!
Wel, misschien heb je het nog ergens op papier, in een kast. In de kelder. Ook lekker veilig.
Archivering hoort een integraal onderdeel te zijn van het informatiesysteem maar is dat zelden of nooit. Maar al te graag kiest men voor de quick-win (of was het de easy-way-out?) en belast de backup met het archiveringsvraagstuk. Dat lijkt inderdaad een denkfout maar ééntje die in de toekomst een kapitale blunder kan blijken te zijn.
Deze materie wordt steeds interessanter met het constante groeien van de datahoeveelheden.Voor backup zeggen wij tape of disk-to-disk en voor archiveren een niet te manipuleren oplagmedium zoals optische opslag met Blu-ray storage.De techniek biedt opslagmogelijkheden tot 70TB per systeem.Alle relevante informatie kan erop, dus niet alleen de file zelf maar ook de applicatie en versiebeheer ervan. Tiered storage zal steeds vaker moeten worden toegepast i.v.m. de grote datahoeveelheden.
Performance tier, capacity tier en archive tier dus…….
Waar het op neer komt is dat men voor de gewenste toepassing (archief of backup) de geschikte hardware en de geschikte software nodig heeft. Tape is gemaakt voor back-up en kan dit heel goed, opticals zijn gemaakt voor media distributie en kunnen dit heel goed, andere systemen zijn speciaal ontwikkelt voor archief en kunnen dit heel goed. Toevallig heb ik op dezelfde dag dat Peter zijn goed artikel geplaatst heeft op onze website een stuk over de hardware-kant van archieven en back-ups geplaatst waar ik probeer duidelijk te maken hoezo tape minder geschikt is voor archieven en wat wij denken wat de toekomstige oplossingen kunnen zijn (hardware-matig dan). De genegen geinteresseerde mag op deze link klikken: http://www.comex.eu/nieuwsberichten
@Bert: je weet dat ik vanwege het WORM criterium ook altijd een voorstander van optische media was, maar 70 TB per systeem is niet meer van deze tijd. Zeker niet als dit systeem dan een hele 42″ rack in beslag moet nemen. Wij doen momenteel het dubbele (netto) op 6HE met uitbreidingscapaciteiten tot 3 Petabyte per systeem.