Bedrijven en organisaties verzamelen steeds meer data. Documenten, presentaties, spreadsheets, databasegegevens, maar ook video's, foto's en illustraties. Dat levert niet alleen technische, maar ook organisatorische uitdagingen op. Technisch gesproken zal een bedrijf voldoende disks of tape moeten aanschaffen om alle gegevens te bewaren. Vanuit organisatorisch oogpunt zal het nodig zijn dat informatie ook terug te vinden is. Daarnaast is het de vraag of een organisatie wel alles langdurig moet opslaan? Opslag wordt weliswaar elke dag goedkoper, maar het beheer ervan niet. Contentindexering kan hier uitkomst bieden.
Iedereen maakt het weleens mee: je zoekt naar een presentatie in je mailbox of in een map, maar je weet niet meer precies hoe het document heet. Zoeken op naam levert niets op. Je bent intussen een kwartier verder, maar het bestand is nog niet gevonden. Diverse onderzoeken naar dit verschijnsel laten zien dat we steeds meer tijd kwijt zijn aan zoeken. Dat geldt niet alleen voor individuele gebruikers, maar ook voor organisaties als geheel. Het is duidelijk dat we tools nodig hebben om de spreekwoordelijke speld in een hooiberg te vinden.
Dit klemt te meer nu big data op de agenda van bedrijven komt te staan. We praten niet langer over gigabytes of terabytes, maar over petabytes en exabytes. Daarbij levert het opslaan van data per definitie nog geen informatie op. Dat is juist het probleem voor veel organisaties. Zo verzamelen supermarkten grote hoeveelheden verkoop- en klantdata. Daar willen ze iets mee, zoals een trend destilleren of nieuw beleid formuleren. Om te beginnen zal die informatie doorzoekbaar moeten zijn. Dat gebeurt in toenemende mate door het inzetten van contentindexering.
Hierbij is niet langer de bestandsnaam of de (sub)directory leidend, maar de inhoud. Een indexeringtool 'leest' de inhoud van elk bestand en stelt vast of het voldoet aan de zoekopdracht van de gebruiker. Contentindexering is online en offline mogelijk. Offline komt het meeste voor, omdat hier de productieomgeving ongemoeid gelaten kan worden. Pas na het back-uppen of archiveren vindt indexering plaats. Dat scheelt niet alleen in de kosten doordat minder resources nodig zijn, maar het is ook veiliger. Actieve gegevens zijn relatief dynamisch. De gebruiker verplaatst deze makkelijk. Dat maakt online contentindexering foutgevoelig doordat een document bijvoorbeeld na het indexeren door een gebruiker verplaatst is. Back-ups en archieven zijn veel statischer en daardoor bij uitstek geschikt voor contentindexering.
Beveiliging
Een belangrijk aandachtspunt bij contentindexering is uiteraard beveiliging. Een organisatie zal immers willen voorkomen dat medewerkers via zoekopdrachten toegang krijgen tot bestanden die ze normaal gesproken niet kunnen openen, omdat ze daartoe de rechten niet hebben. Dit vereist dus van een indexeringtool dat die te integreren is met bijvoorbeeld de Active Directory, zodat de rechtenstructuur ook bij het zoeken intact blijft.
Contentindexering speelt vooral in de Verenigde Staten een belangrijke rol in legal search. Bij (juridische) conflicten is met een eenvoudige zoekopdracht in een keer alle relevante documentatie rond bijvoorbeeld een order te ontsluiten. In Europa komt dit nog maar beperkt voor, mede doordat de EU-landen verschillende regels hanteren voor wat betreft schriftelijk bewijsmateriaal. De Europese Commissie werkt overigens wel aan meer harmonisatie op dat gebied. Dit kan betekenen dat legal search ook in de EU op termijn vaker ingezet zal worden.
Redundantie
Contentindexering speelt verder een nuttige rol bij het voorkomen van redundantie. Gebruikers en it-beheerders zijn vaak terughoudend in het wissen van bestanden. Je kunt immers nooit weten of iets nog eens nodig is… Door op inhoud te indexeren, is te bepalen welke bestanden nog nuttig en nodig zijn om actief te worden gehouden, en welke beter een plek kunnen krijgen op goedkopere archiefopslagmedia.
Big data zal de komende tijd steeds hoger op de agenda van organisaties komen te staan. Contentindexering is een van de uitstekende middelen om de uitdagingen op dit gebied aan te gaan.
Michiel von der Crone
Director Field Advisory Services Team EMEA
CommVault
Big Data is meer dan voor het terugvinden van data. Dat is slechts 1 aspect en dat heeft Google briljant getackeld. Probeer iets te zoeken op de KPN site. Daar doen ze ook aan context indexering, maar daar mist de “PageRank”, met het gevolg dat als je Big Data maar groot genoeg is, je de content nog steeds niet vind.
En ook bij Google heb ik mijn “private cloud”, ik kan namelijk heel snel dingen terugvinden tussen mijn duizenden e-mails.
Maar Big Data is meer dan alleen het zoeken in de grote hoop. Het gaat er juist om dat er inzichten in de data verstopt zitten die ons kan helpen grotere problemen op te lossen dan een verdwaalde PowerPoint presentatie.
Michiel,
Je hebt gelijk betreffende de noodzaak van indexering en gisteren was ik toevallig op een seminar over Big Data in (medische) onderzoeksinstituten waar het belang van metadata ook als punt besproken werd. In dat verhaal ging het vooral om bewaartijd van medische dossier, de lifecycle van informatie. Want hoewel het gezegde luidt: ‘wie wat bewaart die heeft wat’ is het discutabel om achterhaalde data maar te blijven bewaren. Zeker als we het hier hebben over zettabytes die maar één keer gebruikt worden voor een onderzoek en daarna alleen maar liggen te ‘verstoffen’ in een archief. Interessant was dan ook het verhaal van de CIO van het Broad Institute, waar enorme hoeveelheden aangemaakt en opgeslagen worden maar 80% van deze data niet herbruikt wordt. Na publicatie van de resultaten verliest deze namelijk al snel zijn wetenschappelijke waarde hoewel de privacy van patienten natuurlijk niet vergeten mag worden. Grappig was trouwens om te horen dat transport van de ruwe data nog via het ‘sneakernet’ gaat, via koeriers die versleutelde schijven naar andere onderzoekscentra brengen.
Tot slot bracht laatste spreker, een voormalig minister weer andere aspecten naar voren van de mogelijkheden die deze ‘archieven’ ons juist bieden om door middel van andere disciplines informatie te vinden. Want als je het over redundantie hebt moet je ook niet de ’tunnelvisie’ vergeten die we vaak hebben in onze werkzaamheden. Een multidisciplinaire benadering is vaak niet alleen efficiënter maar levert vaak ook nieuwe inzichten op. Het business intelligente aspect wat vaak genoemd wordt bij de term Big Data maar niet zonder de metadata kan, een groepering bijvoorbeeld naar onderwerp en onderzoek. Dat hier trouwens nog menselijke barrières zijn bleek uit afsluitend panel gesprek waarbij duidelijk werd dat het niet zo zeer de techniek is maar de inrichting van onze processen. Opmerkelijk was dan ook de vraag van de aanwezige onderzoekers na afloop tijdens de borrel wat Big Data nu eigenlijk was.