Hoe sla je ongestructureerde data als Office-documenten, e-mails en rekeningen zo op dat de documenten ook na jaren nog toegankelijk zijn? En hoe organiseer je dat als de hoeveelheid e-mails de komende een tot anderhalf jaar met de factor tien gaat toenemen? Met gestructureerd documentbeheer en de juiste wijze van opslag komt een onderneming heel ver, legt Menno Odijk van EMC Software uit.
De grondslag van goed documentbeheer is dat alle ongestructureerde content uit applicaties in één repository wordt samengebracht. In de woorden van Menno Odijk, senior systems engineer bij EMC Software: “Enterprise content management doe je op één ge-integreerde grondslag; dat maakt het beheer en ook het instellen van regels eenvoudiger.” De metadata en de pointers naar de transactiedata komen in een relationele database terecht. EMC Documentum is niet eenkennig: dat kan een Microsoft SQL-database zijn, een DB/2 van IBM of een database van Oracle of Sybase.
Connectors aan de voorkant
Aan de ‘voorkant’ van de repository zorgen connectors voor de verbinding naar de bedrijfsapplicaties. Documentum levert ze kant-en-klaar uit de doos; ze hoeven alleen nog ingeregeld te worden. Een koppeling aan een bedrijfseigen systeem vergt op zijn hoogst een aantal weken tijd om een bestaand raamwerk aan te passen. Audio, video en data van uitgeverijen hebben gezorgd voor een aantal wat meer exotische koppelingen aan QuarkXpress, Adobe InDesign, Photoshop en Illustrator.
Webservices laten zich via een universele XML-connector koppelen; een soa-service laat daartoe een bericht achter bij het repository van EMC Documentum, dat vervolgens voor ‘vertaling’ zorgt en de data wegschrijft. In de ‘roadmap’ van EMC Documentum is binnenkort ook een standaard, marktconforme (JSR-170 en iECM) API voorzien voor de koppeling aan andere content repositories via soa-webservices.
SAP is goed voor een flinke datastroom richting repository, net als e-mails uit Exchange of Lotus Notes en gescande documenten uit scanstraten en multifunctionele printers. Computer-output als mailings, rekeningen en bankafschriften wordt vaak over het hoofd gezien, maar ook die data moet toegankelijk opgeslagen worden voor toekomstige audits. Dat geldt ook voor data afkomstig uit andere bestandssystemen als gedeelde netwerkdrives en SharePoint Portal Server van Microsoft.
CAS aan de achterkant
Aan de ‘achterzijde’ van de repository wordt de data opgeslagen in opslagmedia die direct verbonden zijn aan servers (das, direct attached storage), of via het netwerk zijn te benaderen door servers (san, storage area network) of servers en werkstations (nas, network attached storage). Gelieerd aan ILM (information lifecycle management) doet de term cas (content adressable storage) langzamerhand zijn intrede. Afhankelijk van de waarde van de informatie wordt voor een bepaalde wijze van opslag gekozen, variërend van tape of optische opslag, via tragere en grotere harde schijven naar supersnelle kleinere schijven.
Opslagkeuze
Die keus hangt af van de benodigde snelheid waarmee data beschikbaar moet zijn, de beschikbaarheid van de opslag, afgesloten sla’s (service level agreements) en afspraken rond wet- en regelgeving (compliance). “Samen met de processen er omheen zorgt ILM voor een bijzonder schaalbare oplossing die recht doet aan het feit dat een recente verkoopovereenkomst nu eenmaal een andere waarde vertegenwoordigt dan het contract-concept. Historische data die niet meer veranderen kun je om die reden bijvoorbeeld wegschrijven op een ander, trager medium”, legt Odijk uit. Door afhankelijk van de waarde van de informatie steeds het juiste opslagmedium te kiezen, vallen er volgens hem ook aanzienlijke kostenvoordelen te behalen.
Odijk schetst een drietal voordelen van het opslaan van gestructureerde en ongestructureerde gegevens in één centrale repository.
Het technische en functionele beheer van informatie (denk aan bewaartermijnen en het gebruik van de opslag) is eenvoudiger en degelijker. “Informatie is beter te vinden, omdat niet langer verschillende si-lo’s afgezocht hoeven te worden met elk zijn eigen interface. De ‘legal discovery’ in het kader van de wet- en regelgeving profiteert daarvan.”
Tweede voordeel is een consistentere opslag via een uniform datamodel met slechts één set meta-data. Grotere organisaties zijn zich volgens Odijk bewust aan het worden hoe belangrijk dat is voor hun bedrijfsprocessen en hun business intelligence. Implementeren en procesbewaking van documentbeheer geschiedt dan ook ‘op een tamelijk hoog niveau in de organisatie op zakelijk en it-gebied.’ Ten slotte leent één platform zich heel goed voor de consolidatiegolf die de ondernemingen in gang zetten. “Beheersing van het kostenniveau en wet- en regelgeving dwingen bedrijven tot een normalisatieslag.”
In de repository zijn ook de regels opgeslagen die vastleggen met welke toegangssnelheid data beschikbaar moeten zijn en of dat 7×24 uur moet zijn of minder. “Regels omtrent plaatsing, migratie en dispositie (verwijderen) van documenten liggen vast in de software. Die bepaalt daarmee de waarde van de informatie, de levenscyclus ervan, de opslagplaats en de verwijderinstructies.” Verwijderen is niet altijd ‘deleten’; opslag in PDF-A formaat of een van de andere standaarden (Remano van de Nederlandse overheid of de DoD-standaard) voor later (historisch) gebruik is evenzeer ‘verwijderen’ uit het live systeem.
Meta-informatie
Een onderneming zal proberen om documenten al bij het maken of de collectie ervan zoveel mogelijk te verrijken met metagegevens, zoals een beschrijving of een classificatie als hypotheekformulier of klachtenbrief. Hoe meer geautomatiseerd dat geschiedt, hoe beter.
“De software van onze scanningtool Captiva gaat in een formulier op zoek naar trefwoorden als een bedrag, een postcode of een polisnummer. Maskers op standaardformulieren helpen daarbij. De software wordt door zelflerende processen steeds intelligenter”, aldus Odijk. Toch ontkomen bedrijven er niet aan een aanzienlijk deel van de benodigde meta-informatie door eindgebruikers te laten invullen.
Laatste stap bij het beheer van documenten is de output: langs welk kanaal komt de informatie beschikbaar? Intern kan een medewerker de documentendatabase bijvoorbeeld vanuit Office raadplegen. Extern gaat de informatie vaak via een e-mail naar de klant, of wordt die gepubliceerd op een website, gebrand op een cd-rom of dvd. Portals komen in zwang als interface tussen de externe gebruiker en het systeem. EMC Documentum heeft standaardconnectoren voor BEA-Weblogic portal, IBM Websphere, Sun portal en Oracle Enterprise Portal.
ROI
De return on investment van een ecm (enterprise content management systeem) schuilt naast het ontsluiten van data in het efficiënter opslaan van die gegevens om daarmee te besparen op operationele kosten. De eerlijkheid gebiedt te zeggen dat audits vaak de reden zijn om te beginnen aan zo’n proces of er een nieuwe fase in te starten, aldus Odijk. De stroom documenten zwelt ondertussen maar aan. “Bij e-mail helemaal; reken maar gerust op een tien maal grotere opslagbehoefte in één tot anderhalf jaar tijd.”