Veel organisaties delen bestanden via het interne netwerk. Iedere dag groeit die verzameling bestanden met werkdocumenten, gegevensverzamelingen, verschillende versies en dergelijke. Het wordt daardoor steeds moeilijker om data op een logische manier op te slaan, terug te vinden en te verwijderen. Het beheer van bestanden is in de praktijk meestal niet geregeld, omdat niemand zich daarvoor verantwoordelijk voelt. De meeste organisaties zien dat niet als een probleem, onder andere omdat opslagcapaciteit goedkoop is.
Door het grote aantal bestanden verliest een organisatie snel het overzicht. Naast te hoge opslagkosten, kunnen problemen ontstaan met de beveiliging, versiebeheer, het afleggen van verantwoording en de juridische bewijskracht. Slecht informatiebeheer bemoeilijkt ook het kennismanagement, waardoor dure kennis steeds opnieuw moet worden vergaard. Informatie die onjuist of te laat beschikbaar is, leidt gemakkelijk tot verkeerde beslissingen. Als gevolg hiervan kunnen imagoschade of schadeclaims het management van een organisatie in grote problemen brengen.
Om te onderzoeken welke problemen in de praktijk kunnen optreden, zijn de gegevens van zo'n 770.000 gedeelde bestanden op diverse servers onderzocht. Dit artikel geeft vanuit de praktijk en de regelgeving op welke punten het informatiebeheer kan worden verbeterd.
Goede informatie vormt een essentiële grondstof voor organisaties, daarom moet het informatiebeheer procesmatig en controleerbaar zijn ingericht. Vanuit de ict is bekend dat informatiesystemen de hele levenscyclus van informatie moeten ondersteunen en dat ontwikkel-, test- en productieomgeving gescheiden moeten zijn. Analoog moeten er regels zijn voor de creatie, het gebruik, het testen, het bijwerken en de uitfasering van bestanden, zodat de levenscyclus van informatie volledig 'in control' is.
Ontdubbelen en schonen
Opslagcapaciteit wordt weliswaar goedkoper, maar nooit gratis. Schoning kan dus kosten besparen. Uit de praktijk blijkt dat de filegrootte op een logaritmische schaal normaal verdeeld is (meridiaan 14 KB, standaarddeviatie factor 10). De 45 grootste bestanden beslaan maar liefst 10 procent van de totale opslagruimte, een derde daarvan bestaat uit gezipte back-ups. Nieuwe bestanden groeien bovendien met ongeveer 12 KB per maand.
Van alle bestanden is 67 procent uniek op basis van filenaam, grootte en datum/tijd van laatste wijziging, dus die 33 procent dubbele files kan zonder problemen worden verwijderd. Het echte aantal dubbele files ligt nog hoger, omdat het opslaan vanbestanden soms een uur verschilt door zomer/wintertijd wisseling, gebruikers bestanden hernoemen en eigen back-ups maken met 'kopie van …', .bak en .zip files. Uit een representatieve steekproef bleek dat als MD5 checksums worden gebruikt, het aantal dubbele bestanden zou stijgen tot 38 procent. Voor de goede orde: hierbij zijn bijlagen die iedereen ook bewaart in zijn postbus niet meegenomen.
Ook al is het lastig te beoordelen welke bestanden verouderd zijn, dubbele bestanden kunnen altijd worden opgeruimd. Daarnaast worden veel overbodige concepten van documenten bewaard, die gemakkelijker kunnen worden geschoond.
Schonen kan het beste op basis van de wijzigingsdatum. De aanmaakdatum bleek namelijk bij het merendeel van de bestanden na de datum van de laatste wijziging te liggen. Als een bestand wordt gekopieerd of verplaatst, actualiseert het systeem altijd de aanmaakdatum. Daarnaast raakt de 'datum laatst geopend' vervuild door virusscanners of een full text search, waardoor de gebruikstijd van bestanden langer lijkt. Met een filter op die vervuiling, blijkt dat acht jaar na de laatste wijziging minder dan 1 procent van de Officebestanden nog wordt geopend. Organisaties vermijden het schonen van oude bestanden, omdat de kans bestaat dat een verwijderd bestand in de toekomst nog nuttig kan zijn. Daardoor zijn er in de praktijk (systeem)bestanden aangetroffen uit 1991 en Officebestanden uit 1992.
‘Dementerende overheid’
Nu worden nog vaak fysieke kopieën van bestanden gearchiveerd. Een softcopy archief biedt echter grote voordelen, zoals plaatsonafhankelijk en geautomatiseerd zoeken. Als voorwas van de archivering wordt de schoning van digitale bestanden nog belangrijker.
De meeste organisaties richten zich op nieuwe resultaten, waardoor er weinig capaciteit is voor schonen. Omdat er constant nieuwe bestanden bijkomen, is het onwaarschijnlijk dat in de toekomst daarvoor wèl voldoende capaciteit zal zijn. Schonen en archiveren van bestanden is echter lastig te delegeren aan inhuurkrachten, omdat informatie over de context van een document meestal ontbreekt. Bovendien ontstaan bij personeelswisselingen vaak verweesde bestanden, waarvan het belang lastig te schatten is.
Een standaard werkplek mist tools om efficiënt contextinformatie te produceren. Het aanbod is te groot om handmatig ontbrekende contextinformatie aan bestanden toe te voegen. Vanuit de vraagkant kunnen relevante documenten alleen worden gezocht op basis van de locatie van een bestand in de hiërarchische folderstructuur, op (delen van) de inhoud en op de kenmerken van een bestand (bestandsnaam, grootte en datum laatste wijziging). Bij het zoeken met trefwoorden moeten bijvoorbeeld ook synoniemen als zoeksleutel worden geprobeerd. Dit maakt het zoekproces arbeidsintensief en foutgevoelig.
Zolang de schoning van bestanden onvoldoende aandacht krijgt, is de kans klein dat de achterstand bij de archivering snel kan worden weggewerkt. Het rapport van de Rijksarchiefdienst uit 2005 spreekt in deze context van een 'dementerende overheid', maar of de situatie bij veel commerciële bedrijven beter is, valt te betwijfelen.
Regelgeving en cultuur
De archiefwet en het Besluit Voorschrift Informatiebeveiliging Rijksdienst uit 2007 vormen de basis om de beschikbaarheid, integriteit en vertrouwelijkheid van informatie bij de rijksoverheid te borgen.
Met de recente Baseline Informatiehuishouding Rijksdienst wil de overheid een extra kwaliteitsimpuls geven aan het informatiebeheer, door processen als uitgangspunt te nemen. De proceseigenaar stelt op basis van een risicoanalyse de eisen vast voor toegankelijkheid en betrouwbaarheid van informatie binnen zijn verantwoordelijkheid. Deze eisen hangen sterk af van de maatschappelijke, politieke en bedrijfsrisico's van processen en de aard van gebruikte gegevens.
Vanuit deze eisen maakt de proceseigenaar een selectie uit de set van standaardmaatregelen. Die set is afgeleid van relevante wetgeving en biedt houvast om verantwoordelijkheden voor informatiebeheer consistent in te vullen.
Informatiebeheer wordt niet effectief met een goede regelset alléén, aansluiting van de regels met de cultuur is eveneens een belangrijke voorwaarde. Managers moeten ervoor zorgen dat informatiebeheer meebeweegt met de ontwikkelingen. Ook medewerkers zullen een omslag moeten maken. Het komt nog vaak voor dat medewerkers alle bestanden opslaan in zelfgekozen mappen en officiële stukken zelf bewaren. In de praktijk zijn veel verschillende naamconventies met datums en versienummers aangetroffen. Met 191 tekens is bijvoorbeeld de langste filenaam: 'RE Test wijziging levering retourbestanden digitale tachograafkaarten – automatisch inlezen – wanneer volgende mutatie – signen staat aan – berichten kunnen automatisch verstuurd worden_1.msg'.
Verbeteren informatiebeheer
Individuele medewerkers hebben een beperkte 'information span', dus zonder een structurele samenwerking kan bedrijfsinformatie niet effectief worden beheerd. De Business Information Services Library (verwant aan ITIL) beschrijft als 'best practice' het beheer van de niet-geautomatiseerde informatievoorziening als proces. Uit het praktijkonderzoek volgen nog zes tips, de eerste drie zijn quick-wins.
Tip 1. Initieer het informatiebeheer door het bewustzijn te bevorderen en de cultuur te sturen. Signaleer situaties waar het mis ging, om draagvlak te krijgen voor verbetering. Een belangrijk uitgangspunt daarvoor is een goede focus van het informatiebeheer, zoals 'het opruimen van dubbele bestanden en het beter beheren van nieuwe bestanden'. Meestal is het aanbod van bestaande files namelijk te groot voor een inhaalslag.
Tip 2. Organiseer het informatiebeheer door expliciet de verantwoordelijkheid toe te wijzen aan managers in hun rol als 'informatiemakelaar' en de taak aan een (opgeleide) medewerker. Laat deze medewerker regelmatig de naleving van regels controleren, de bestandsformaten monitoren en zoeken naar oude versies en dubbele bestanden. Stel op basis van praktijkervaringen de regels en de ambities bij, er is al te vaak regelgeving in schoonheid gestorven.
Tip 3. Stel samen met managers en medewerkers realistische regels op voor het gebruik van bestanden, zoals:
– Zet werkbestanden en definitieve versies op het hoogste niveau in verschillende folders, conform de scheiding van ontwikkel- en productie-omgeving bij informatiesystemen. Hierdoor kunnen bewaartermijnen en archiveerbare documenten onderscheiden worden en toegangsrechten beter worden gecontroleerd.
– Stel organisatiebreed naamconventies vast voor (versies van) bestanden en folders.
– Schrijf voor dat maximaal de drie laatste versies van bestanden worden bewaard (grootvader-vader-zoon principe) en wissel het gebruik van incrementele en volledige back-ups af. De organisatie kan een standaard bewaartermijn van bijvoorbeeld zeven jaar bepalen voor bestanden op basis van de datum laatste wijziging. De wetenschap dat werkbestanden of bestanden zonder ingevulde archiefdatum daarna automatisch worden geschoond, stimuleert gebruikers om bestanden tijdig te archiveren.
– Schoon bestanden op basis van de bewaartermijn en datum laatste wijziging in twee fases. Verplaats eerst de mogelijk te verwijderen bestanden gezipt naar een andere locatie en plaats op de originele locatie een snelkoppeling naar dit zip-bestand. Dit kan desgevraagd worden teruggedraaid. In fase 2 volgt (bijvoorbeeld na een jaar) de daadwerkelijke verwijdering van de gezipte bestanden.
Tip 4. Het vervangen van e-mail en documenten door wiki's heeft de volgende voordelen:
– De communicatieprocessen verlopen efficiënter dan bij e-mail, met minder dubbele files (zie de afbeelding);
– Informatie is makkelijker te vinden (zoekmachine);
– Informatie heeft een betere context (hyperlinks van en naar andere pagina's);
– Uitfaseren van informatie is eenvoudiger, via de 'hitrate' en actieve verwijzingen naar een pagina.
Tip 5. Bij samenwerken aan complexe documenten biedt een managementsysteem voor documenten of content veel voordelen voor versiebeheer en archivering. Momenteel rolt het Ministerie van V&W daarvoor het TRIM systeem uit (document en recordmanagement). Belangrijk is de keuze welke contextgegevens van bestanden worden geregistreerd, zoals: eigenaar, trefwoorden, bewaartermijn, doelgroep, samenhang met andere bestanden en archiveren ja/nee).
Tip 6. Zet ondersteunende tools in zoals zoekmachines, om met trefwoorden bijvoorbeeld ook pdf-bestanden op het netwerk te kunnen doorzoeken. Daarnaast zijn tools nuttig die dubbele bestanden kunnen vervangen door een snelkoppeling naar het origineel. Met een MD5 hashtotaal kan het systeem automatisch dubbele bestanden trefzeker signaleren. Het berekenen van alle hashtotalen vraagt echter veel capaciteit van de netwerkinfrastructuur. Een besturingssysteem zou hashtotalen incrementeel kunnen bijwerken, maar bijvoorbeeld virusscanners zouden dat ook kunnen doen. De gebruiker ziet dan bij het kopiëren of verplaatsen van een bestand de melding: 'dit bestand bestaat al op – wilt u hier een snelkoppeling naar het originele bestand?'.
Wilbert Vrouwenvelder, informatiebeveiligingsadviseur en privacyfunctionaris bij het Ministerie van Verkeer en Waterstaat
Henk-Jan van der Molen. senior projectleider/ict-adviseur bij de Inspectie Verkeer en Waterstaat
ODF gebruik valt tegen
De meest voorkomende bestandstypen zijn MSOffice bestanden, mail en systeembestanden. Open standaarden zijn onder andere nodig om te kunnen garanderen dat digitale archiefbestanden in de toekomst bruikbaar blijven. Bij de centrale overheid is daarom de ondersteuning van de Open Document Format (ODF) standaard verplicht gesteld per 1 april 2008 (decentrale overheid per 1 januari 2009). Uit de praktijk blijkt dat sinds die ondersteuning er is, het aantal ODF-bestanden minder dan 0.1 procent is van de opgeleverde MSOffice bestanden. Waarom ODF zo weinig wordt gebruikt is niet onderzocht, maar de geruisloze invoering van de ODF ondersteuning en de matig werkende ODF plug-in voor MSOffice zullen het gebruik ervan niet bevorderen.
Tip 0.
Bedenk een glasheldere (informatie) opslag structuur, VOORDAT je een bedrijf start.
Dan hoef je naderhand geen veelvoud aan consultancy, terugzoek-kosten, implementatie-kosten te maken om je documenten chaos weer voor je te laten ontwarren.
Heus…. het loont echt om af en toe eens op de lange termijn te denken en te plannen. Dat kan een informatie chaos binnen uw bedrijf voorkomen.
@RV
Zinloze tip. Organisaties veranderen tijdens hun levencyclus vele malen van structuur. Daarnaast heeft een startende organisatie wel iets anders te doen dan zich bezig te houden met de (informatie)opslagstructuur.
Mijn persoonlijke mening: leer er mee leven. De kosten van opslag zijn in verhouding met de kosten van arbeidsuren benodigd voor het archiveren minimaal. De stelling dat dubbele bestanden zondermeer verwijderd kunnen worden is bovendien zeer arbitrair aangezien persoonlijke dossiervorming onvermijdbaar is en blijft.
De eenvoudigste en goedkoopste oplossing blijft om bestanden die binnen een voor de organisatie passende periode nietzijn zijn geopend offline te archiveren.
Stickertje erop en in de datakluis. Wedden dat 99% nooit meer gebruikt wordt?
Toch is de tip van RV niet zinloos. Het loont echt wel de moeite om te bedenken waarom je data wil opslaan en wat dan de beste methode is. Natuurlijk verandert de structuur van een bedrijf met enige regelmaat en zul je daar de documentatie structuur op moeten aanpassen.
“… aangezien persoonlijke dossiervorming onvermijdbaar is…”. Daarmee geef je precies een groot probleem weer. Waarom doet men aan persoonlijke dossiervorming? Omdat het overzicht er niet (meer) is. Omdat documentatie niet te vinden is of misschien zelfs helemaal niet (meer) aanwezig is. Omdat de centrale opslag soms niet beschikbaar is. Dubbele bestanden zijn dan nodig om zelf het overzicht te kunnen behouden. Maar het risico daarvan is dat en nieuwe versie niet wordt opgemerkt. Het gaat dan dus niet om de kosten van een dubbel bestand maar om het missen van de update op de originele documenten. Denk dan maar eens aan gewijzigde procedures (misschien juist als gevolg van een gewijzigde organisatie structuur) of dubbele NAW bestanden (probeer maar eens aan adreswijziging door te voeren als die in 6 databases staat).
Ik denk dat de kosten van dataopslag niet meer worden bepaald door de fysieke opslag. Of dat nu op disk of tape is is niet meer relevant. Wat veel meer kost is de tijd die je nodig hebt om, al dan niet met succes, bestanden terug te vinden. Na eerst een tijd te hebben gezocht ga je dan maar weer zelf het wiel uitvinden. Om er vervolgens achter te komen dat dat dan weer niet voldoet aan de standaard die ergens in het zwarte gat beschreven was, zodat je dan alsnog met deze nieuwe (oude) informatie aan de gang moet (wat was het uurtarief ook alweer?).
“ODF gebruik valt tegen”
Wat een FUD.
“Aantal die ODF gebruiken valt tegen”
Volgens de informatie in het artikel.
@RV
Ja, dat ben ik gedeeltelijk met u eens. In mijn ervaring is het verstandig tussentijdse eik punten te hebben en de koers daar op aan te passen. Bijvoorbeeld bij uitbreiding. Maar idd, voorkomen is beter dan genezen. Het scheelt een hoop puinruimen.
Het is overigens al bijna te laat, MS heeft een probleem met patenten in MS-Word. Momenteel ligt er een rechterlijk besluit in de USA die de verkoop van MS-Word verbiedt vanwege schending van patenten.
Ik heb al jaren geleden besloten naar OpenOffice over te stappen, gelukkig.