In welke mate je de komende vijf jaar als organisatie je content onder controle krijgt is het verschil tussen succes en falen. De hoeveelheid content explodeert, de groei is exponentieel. Kosten en risico’s van content groeien mee. Het is een chaos en niet meer onder controle.
Hierom is het onder controle brengen van deze chaos een van de meest waardevolle proposities van dit moment binnen ecm, zo niet de meest waardevolle. Niet alleen vanwege het beperken van de kosten en risico’s, maar ook vanuit het mogelijk maken de business te optimaliseren door weer de eigenlijke waarde van de content te kunnen verkrijgen. Alles drijft op content, deze optimaliseren is key.
Bezem door de kast
Zelf heb ik recentelijk ook getracht wat controle te krijgen over mijn content. Ik ben begonnen met opruimen. Ik had verschillende backups op externe discs, usb’s, een oude laptop, een dropboxaccount, een box account, mediacenter met vele foto’s, een aantal e-mailaccounts, veel sociale media met content, en waarschijnlijk vergeet ik nog wat. Mijn doel was alles op één plek onder te brengen, ergens in de cloud. Ik begon met alles te verzamelen en te bekijken wat ik nu eigenlijk allemaal had en hoe ik het zou willen bewaren.
Deze plotselinge behoefte werd wellicht gedreven door het feit dat ik er in mijn overleggen met klanten hier op wijs: hoeveel waarde het heeft eens goed de bezem door de contentkast te halen. Het is de eerste stap in het controle krijgen, en zoals ik in mijn opening aangaf, het is nu het moment om dit te doen. Wat ik al een uitdaging vond met mijn beperkte hoeveelheden, is een gigantische uitdaging voor vele verschillende stakeholders in grote organisaties.
Cio’s hebben onvoldoende inzicht in welke content waar staat, waar het voor gebruikt wordt, welke systemen er aan gelinkt zijn, welke kosten er aan verbonden zijn et cetera. De cfo’s zien dat it-budgetten blijven groeien en vooral de infra, storage en beheer componenten, meer dan de prijs hiervan naar beneden gaat. Privacy officers hebben geen inzicht in en controle over de gevoelige content, opgeslagen op de verschillende locaties in de organisatie. Dit alles leidt tot inefficiënte business en creëert een steeds grotere impact.
Niet opitmaal
Even terug naar mijn eigen opschoonactie. Het was geen leuk werk, en ik heb niet het idee dat het helemaal optimaal was. Wat ik vooral zelf ontbeerde was correct versiebeheer, metadatamodellen en richtlijnen, eigenlijk totaal geen informatiebeleid. Dus wellicht mis ik zaken waar ik nog achter ga komen, en heb ik zeker nog dubbele bestanden of niet geïdentificeerde versies. Het zou heerlijk zijn geweest een tool te hebben die me inzichten gaf in wat ik allemaal waar had staan. Ik koppel even mijn dropbox, box, mijn backups, mijn laptop en begin te analyseren. Ik zie snel hoeveel ik waar heb staan, ontdek dat ik foto’s meerdere keren heb opgeslagen, zie presentaties waarvan wel versies versies bestaan. Ik creëer regels om alleen de waardevolle content te behouden en zet het meteen over naar mijn target cloud omgeving. Het had erg prettig geweest, helaas was dit niet het geval.
Dat ik iets dergelijks niet kon vinden voor mijn eigen gebruik, betekent gelukkig niet dat dit ook nog niet voor je organisatie mogelijk is. De totale omgeving van ongestructureerde data kan via slimme technieken gebaseerd op natural language processing geclassificeerd worden. Met deze classificatie kan vervolgens via regels en filters bepaald worden welke actie op deze data van toepassing is. Wil je het niet meer bewaren omdat het een duplicaat is of te oud, in quarantaine zetten omdat je het niet zeker weet, migreren naar een andere omgeving, of extra beveiligde omgeving? De inzichten bieden vele mogelijkheden om je landschap te optimaliseren. Is het een risico dat een bepaald type informatie op een bepaalde locatie verblijft, met deze inzichten kun je bepalen het te verplaatsen. Samengevat levert de controle een aantal snelle voordelen op.
-
De eerste is puur kostenbesparing, minder kosten storage, infra, beheer, systemen omdat nu eenmaal minder content beheerd en beheerst dient te worden.
-
Ten tweede een grote optimalisatie van de business. Correcte zoekresultaten, minder logge content systemen, de juiste beslissingen nemen op basis van de juiste correcte content.
-
Ook maakt het mogelijk het risico op grote boetes door niet voldoen aan wet- en regelgeving of privacyzaken te verminderen. Inzicht in de gevoeligheden van je content kan gebruikt worden voor opzet beleid of mitigeren van risico’s
-
Verder kunnen door analyses en inzichten optimale migratiescenario’s, archiefinrichting, applicatie rationalisatiescenario’s bepaald worden. Leidend tot nog verdere besparingen en optimalisaties.
Het is tijd om de controle te pakken. De groei is exponentieel, de uitdagingen die dit oplevert ook. Wees niet te laat.
Wat is content? Hoe herken is dat? Ik kom al jaren bij verschillende organisaties ben nooit groeiende explosies content tegen gekomen. Chaos herken ik wel. Maar gelukkig ben ik meestal daar om het op te lossen.
Inderdaad, wat een belabberd artikel zeg! En ik zal onderbouwen waarom ik dat zeg.
Ten eerste: Je geeft aan dat je zelf ook wel eens wilde doen wat je klanten adviseert. Niet alleen geef je aan dat het je moeite kost (als het uberhaupt lukt), dat het veel tijd kost, maar erger nog: Je geeft totaal niet aan wat het je persoonlijk dan opgeleverd heeft of kan hebben!
Leuk dat je het hebt over die content explosie. Maar is dat niet gewoon een beetje napraten? Nergens onderbouw je iets met cijfers en speel je ook nog in op angst “voordat het te laat is”. Te laat voor wat? Wat zijn die gevolgen dan?
Nu is het gewoon een reclame praatje, en nog een slechte ook, zonder enige detail te noemen en alles maar te houden op “content”. Problemen los je niet op met generalisaties, maar met details.
Daarnaast: Opslag en redundantie wordt met rasse schreden goedkoper. Zo heeft je betaalde Dropbox al 1 TB aan data, net als bij OneDrive en bij Google for Work is het ongelimiteerd.
Als je gevoelige content op de verkeerde plaatsen opslaat is dat geen content explosie probleem, maar gewoon een probleem van hoe je organisatie functioneert, het lijkt me zo dat dat een groter probleem is dan je content explosie.
En zoals Clay Shirky het zo treffend zegt : “It’s not information overload, it’s filter failure”
@Henri
Misschien moet je eens met je hoofd uit de wolken komen, je luchtkasteel verlaten om eens vertikaal te kijken naar de problemen die je veroorzaakt met het ontkennen van het bestaan van data. Als ik foutief ben corrigeert de auteur me wel maar ik denk dat hij het hier dus heeft over data, vanuit zijn horizontale perspectief content genoemd.
In mijn laatste opinie ‘Trustworthy Computing gaat om de data’ schreef ik ook over het groeiende probleem van ongeclassificeerde data, sloot hierbij af met CIA principe dat volgens mij wel aardig aansluit op relletje met USB-stick van Zembla. Die onrechtmatig verkregen informatie zit namelijk in alle bedrijfsgegevens alleen niemand rept daarover omdat we er allemaal ons voordeel meedoen.
Betreffende C van Confidentiality wijs ik je graag op Google dorks, de zoekopdrachten die door de FBI als gevaarlijke hackingtool aangemerkt worden. Google is evil zullen we maar zeggen hoewel het dus ook nog weleens handig is als de overheid het eigen falen weer als geheim heeft geclassificeerd. Zo maar één voorbeeld waarbij metadata je helpt om dingen te vinden die anders maar in die grote wolk verstopt blijven.
Aangaande I van Integrity reageerde ik nogal primair op de showcaase van huisleverancier die buiten aanbesteding om als oplossing voor slechte interne admministratieve processen (GHDB + vertrouwlijk rapport) een back-up oplossing leverde. Zie hier de invulling van het digitaal zaakgericht werken van de overheid die dan ook nog vrolijk roept dat die burger hiermee gebaat is. Zo maar één voorbeeld hoe betrouwbaar sommige informatie dus is.
Als laatste hebben we de A van Availability welke uiteindelijk de kern van het probleem vormt als je niet classificeert en alles beschikbaar maakt voor iedereen. Heerlijke beleidsreflex van overheid aangaande onthullingen, als ze bonnetjes en tapverslagen niet kwijt raken dan is het geheim. Zo maar één voorbeeld hoe belangrijk het is om eerst te classificeren en dan pas te bewaren.
Kortom, je leidt weer aan de gebruikelijke kortzichtigheid met je USB-sticks in de cloud wat niet de oplossing maar juist het probleem is. In mijn laatste opinie gaf ik de formule goedkope resources + gevoelige data = dure les. Mogelijk ontgaan maar auteur is expert op het gebied van ECM wat staat voor Enterprise Content Management en waarin jouw oplossingen dus vaak als ‘Rogue IT’ bestempeld worden. Want of je de bedrijfsgegeven nu aan Zembla of Google geeft maakt voor het resultaat niet zoveel meer uit.
Ewout, je ontspoort weer volledig met je reactie. Ik ontken het bestaan van data? Wat is dat nu voor een debiele uitspraak?
Content is altijd data, maar data is niet altijd content.
Je laatste opinie was een obscuur stuk waar nagenoeg niemand volgens mij chocola van kan maken.
Ik ontken niet dat het classificeren van data zinvol is, maar dat als je content explosie een probleem is, dit nauwelijks een technisch probleem is, maar een organisatorisch probleem. Zo ook dat lekken waaraan je refereert. Classificeer jij er maar op los (op email niveau? Laat me niet lachen), daar los je de gestelde problemen niet mee op.
Als je goed lees naar wat ik schrijf, en als je dat dan ook nog begrijpt, dan is de kern van mijn reactie toch heel duidelijk. Als je maar wat roept zonder onderbouwing en dan ook nog een angstkaart speelt, dan stelt dat gewoon niet veel voor. Punt.
En ook in de laatste alinea laat je weer eens merken dat je het eigenlijk niet lijkt te snappen.
goedkope resources + gevoelige data = dure les is in jouw geschetste voorbeeld nu precies de wereld op zijn kop. Dit is namelijk wat er eens tijdens een proces over roken mis ging (kijk naar de film de insider): Toen de verdachte werd geconfronteerd met een brief die hem noodlottig werd kon de verdachte alleen maar aangeven dat het inderdaad dom was… om die brief te laten lekken. Als jij gewoon geen foute/stoute dingen doet hoef je ook niet bang te zijn dat die dingen uitkomen, en die staan volledig los van goedkope resources.
Ik respecteer je intellect en hoe veel jij van heel veel dingen weet, maar er komt ook gewoon een hele hoop onzin uit je mond die je dan als de waarheid verkondigd. En als je de I van integriteit nu eens serieus nam liet je die dubbele agenda van je nu eens vallen.
@Henri
Je eerste zin en je laatste zin van eerste reactie spreken boekdelen, daar tussenin is het gebruikelijke herhaling van Dropbox, OneDrive enzovoort. Aangezien je eerste zin dus een waardeoordeel is zal ik daar niet op ingaan, ik laat je voor wat dat betreft in je waarde.
Laatste zin lijkt te verwijzen naar de ‘big data’ oplossing van eerst alles verzamelen en dan pas kijken welke informatie er allemaal in zit, precies dus wat NSA e.a. doen wat je argumentatie over foute/stoute dingen in de tweede reactie dan ook weer hilarisch maakt.
Betreffende content is data maar data is niet altijd content ben ik benieuwd hoe je tegen de andere kant van ‘big data’ aankijkt waar uit machinegegeneerde data content gemaakt wordt. Google analytics, tracking cookies, logfiles en dergelijke waar als ik Opstelten mag geloven nooit naar gekeken wordt en ik denk dat je wel begrijpt wat ik bedoel.
Betreft de genoemde dubbele agenda, die heb ik voor gespleten persoonlijkheden zoals jij Henri. In eerdere discussie over classificatie van data kwam jezelf met antwoord dat de gebruiker gevoeligheid noch belang ervan voor de organisatie kon bepalen.
Door contentexplosie komen er steeds meer snippers aan informatie buiten invloedsfeer van organisatie te liggen. Alleen al handig zoeken maakt dat duidelijk en het is precies hier waar AIVD en CBP dus al enkele jaren voor waarschuwen.
Als laatste hebben we nog de waarheid welke dus vaak verdraaid of ontkent wordt omdat deze ongelegen komt. In reactie had ik het trouwens over horizontaale perspectief, je ontkent misschien niet het bestaan van data maar ziet dus wel alleen het topje van de ijsberg.
Ewout,
Als downplayen een sport was, dan zat jij in de Champions League. En daarom reageer ik vaak geïrriteerd op je reacties.
“met je USB-sticks in de cloud” is gewoon een onzin vergelijking als je kijkt naar de durability, availability, hackability, security, et cetera van diverse cloud opslagdiensten. Die veelal prima tools bieden voor auditing en het kunnen houden aan de compliancy eisen voor veel organisaties, maar niet alle.
Ja, we hebben een groot vermoeden dat VS overheid grote hoeveelheden data redundant opslaat voor allerlei mogelijke doeleinden, maar daar gaat dit artikel helemaal niet over.
En nogmaals: Ik erken dat je beleid en governance nodig hebt voor een beheersbare content / data berg, maar dit is *geen* technisch probleem, maar organisatorisch. En ook geen cloud versus niet cloud probleem.
Bijvoorbeeld de bezem door de content kast houden zoals de schrijver ook persoonlijk trachtte te doen lost het probleem ook niet op omdat het veel tot “snapshots” leidt en symptoombestrijding.
Hmm, je hebt dus data, content en informatie begrijp ik. Data wordt big (altijd alles opslaan, omdat het kan) maar content ook (want die explodeert blijkbaar). Maar de extracted info moet juist weer steeds kleiner las ik laatst. In 140 tekens, de rest plaatjes. Soort Nijntje.
Lastig natuurlijk, om uit de databrei een BI SMSje te genereren. Natural language filter technieken gaan ons daarbij bij de eerste stap helpen, zegt het artikel. Hoe zouden die choco-filters installed worden ? 10 pagina’s onleesbare disclaimers waar je maar meteen yes op moet zeggen om nog beetje snel te kunnen marketen ? En daarna classificeert de software wellicht de artikelen die te moeilijk zijn, als obscuur :-P. Meteen wegdonderen dus.
Maar zoals John Roos al mee begon, voorlopig een hoop werk voor de ict afdeling.
@Henri
Dank voor je reactie, ik zal proberen te reageren op je vragen / opmerkingen met betrekking tot mijn opinie!stuk.
De vergelijking met mijn eigen uitdaging maak ik omdat dit mij inzicht gaf in hoe lastig het inderdaad is en hoeveel dubbelingen etc. je als 1 gebruiker al creeert. Laat staan in een organisatie van 1000en medewerkers. Een feitje voor je: CGOC, 2012 heeft onderzoek gedaan naar de waarde van ongestructureerde data (content), hieruit volgde dat gemiddeld 69% van de data die organisaties bewaren, opgeslagen hebben, geen enkele toegevoegde waarde heeft voor de organisatie. En de businesscase is wel degelijk aardig interessant, een PB aan data kost een organisatie al gauw zo’n 5M dollar per jaar, ook Gartner. Dit is natuurlijk niet alleen de schijf, maar alles er omheen. Maar mocht je de helft kunnen verwijderen omdat het geen waarde heeft, zeker interessant.
En in mijn beleving kun je wel degelijke problemen schetsen zonder in de details te gaan. Wat verwacht je voor details, hoe precies deze content geanalyseerd wordt om te bepalen wat het is en of het waarde heeft. De wiskundige algoritmes die we hiervoor gebruiken? Naar mijn mening is dit niet de gewenst inhoud van een opiniestuk. Ik schets een mening om discussie te krijgen.
Mbt tot opslag die goedkoper wordt, hier maak je een veel gemaakte denkfout. Dat wordt het inderdaad. Maar de groei is groter. Nog een feitje. Gartner heeft onderzocht dat content groeit met 40-60% per jaar. Een dubbeling iedere 2 jaar. Exponentiele groei die flink pijn gaat doen. De goedkoper wordende storage wordt veelal op 10-15% afname per jaar geschat. Deze cijfers worden onderbouwd door getallen die ik van mijn klanten verneem in mijn advisering.
Denk je dat File analysis (zo noemt Gartner deze propositie analyse – waardebepaling van ongestructureerde data) voor niets aan het begin van de hype cycle van ECM staat? Nee.. het is in opkomst en dat komt vooral door de groei die veelal out of control is en de risico’s die dit oplevert. Dat er zomaar vele softwarebedrijven zijn in de ECM wereld die deze propositie omarmen en hun software inzetten om deze content te analyseren, op te ruimen en risico’s te controleren? Kwestie van vraag en aanbod.
Het feit dat veel gevoelige content ” verkeerd” opgeslagen is of in ieder geval niet bekend is dat het ergens staat is wel degelijk een van de gevolgen van de content explosie. Content brengt risico met zich mee, hoe meer content des te meer risico, want minder controle. Ik weet niet binnen welke organisaties jij je begeeft, maar iedere privacy officer en legal officer waar ik mee spreek zouden het geweldig vinden inzicht te hebben in ” gevoelige” content. Er zijn ook legio voorbeelden van hoge boetes die betaald zijn omdat er schadelijke informatie gevonden is die niet bewaard had hoeven worden.
Ik ben met je eens dat governance een vereiste is. Maar om governance goed op te zetten is eerst inzicht vereist. En daar ontbeert het vele organisaties. Hoe vaak wij wel niet door netwerkschijven gaan en content tegenkomen die onder een bepaald retentiebeleid dienen te vallen? Een bezem door de kast lost het niet op inderdaad, maar is een eerste stap naar volledige governance. Een eerste stap om het beleid goed op te zetten en te blijven controleren. Dat is wat ik hier probeer te zeggen.
Dag Sjoerd, bedankt voor je reactie en excuus dat ik je artikel belabberd noem, dat was een impuls reactie die in mijn opkwam toen ik het las. Maar zeker met de toevoeging van wat details maak je de propositie al wat beter, en fijn dat je in ieder geval de pen (toetsenbord) ter hand neemt. Nu is dat ook onderdeel van jouw content creatie / explosie. Met welke ECM tool heb je daar nu governance over?
” een PB aan data kost een organisatie al gauw zo’n 5M dollar per jaar ”
Hiermee bevestig je in feite de propositie van cloud computing ook als driver voor kostenbesparingen.
Laat ik voorop stellen dat ik niet geloof in het kiezen voor een ECM om je data probleem op te lossen. In een notendop om exact de reden die je zelf aangeeft waarom het al moeilijk is om voor jezelf een systeem te vinden om je content creatie en beheer probleem op te lossen. Zonder een heel epistel te schrijven, zie ik de plaats van een ECM pas veel later in de content life-cycle keten.
Daarnaast twijfel ik er aan of je 1 tool zou moeten hebben voor ECM, dit maakt in mijn ogen (maar laat me graag het tegendeel zien) je wendbaarheid alleen maar kleiner. Volgens mij zit IAM in het centrum en gebruik je een orchestratie aan (web) services om content / data te kanaliseren, waarbij ECM of SharePoint een onderdeel is.
Ook stel ik dat een fileshares dood moeten. Die zijn inderdaad een probleem.
Maar terug naar de content explosie. Wat ligt hieraan dan ter grondslag? Ja, we digitaliseren, maar dat is niet per se een content generator, maar meer een vervanging. Video’s nemen veel ruimte in beslag, maar die lijken me geen organisatie content explosie probleem. Worden er veel meer documenten getypt? Wellicht, maar dat is geen onderdeel van de explosie en in mijn ogen organische groei.
Dan blijft er o.a. de data over die gegenereerd worden door systemen. Analytische data van (interne) websites, database records, log bestanden, et cetera. Als daar de explosie zit, dan hebben we er blijkbaar voor gekozen om meer te bewaren omdat het kan.
Waar ik moeite mee heb zijn onder andere uitspraken als:
– “Het is tijd om de controle te pakken. De groei is exponentieel, de uitdagingen die dit oplevert ook. Wees niet te laat.”
– “In welke mate je de komende vijf jaar als organisatie je content onder controle krijgt is het verschil tussen succes en falen”
– “Correcte zoekresultaten, minder logge content systemen, de juiste beslissingen nemen op basis van de juiste correcte content.”
En bekruipt me het gevoel dat er een oplossing wordt voorgesteld die eigenlijk een onderdeel gaat vormen voor het probleem.
Ja, ik zie ook wel dat regelgeving en compliance een gevaar is als je niet in control bent. Maar nogmaals, de oplossing moet gevonden worden in de organisatie, niet in de tool / techniek.
En zeker met algemene cijfers van Gartner hebben een hoog stastiek gehalte. Ofwel: Opa’s en oma’s nemen hun kleinkinderen naar de dierentuin, maar de gemiddelde leeftijd is 35 jaar.
Maar goed. Het artikel vond ik niet geweldig, de discussie voegt veel meer waarde toe.
@Henri,
Excuses aanvaard. Inderdaad, op deze manier creeren we weer content.. Het gemak waarop we deze dagen content creeren is een van de oorzaken van de groei. Je geeft zelf aan de digitalisering, deze vindt nog steeds plaats. Maar ook het makkelijker creeren via mobile devices, we werken meer social, meer collaborative, en ondanks dat blijven we nog steeds meer en meer e-mailen, dat werkt allemaal content creatie en dubbele opslag in de hand en ook werkt zoals je zelf aangeeft groter wordende files mee aan de groei. Hoe lang bewaart computable deze reacties in hun CMS, hoe lang heeft het nog waarde?
Ik probeer niet te zeggen dat we een ECM moeten hebben om het dataprobleem op te lossen. Ik zeg alleen dat er mogelijkheden en aanpakken zijn content van geen waarde en met risico’s te identificeren van al die verschillende omgevingen, en dat deze een perfecte eerste stap zijn om naar een meer gecontroleerde totale information governance te komen.
Ik ben het met je eens dat het in de toekomst wellicht af zal vlakken en dat internet of things etc meer data zal creeren en de verhouding unstructured / structured wellicht wijzigt. Op dit moment is het de data die verdubbelt iedere twee jaar en 60-80 procent hiervan in organisaties is ongestructureerd. Ook is een van de uitdagingen dat alles tot nu toe bewaard wordt / is geweest en we er achter komen dat dit helemaal niet nodig is en zelfs kosten en risico’s met zich meebrengt. Dat is de situatie die ik wil aanpakken, dat is de spreekwoordelijke bezem.
Een doel vervolgens kan zeker een cloudomgeving zijn vervolgens. Daar zie dan ook zeker de propositie van en deze wil ik niet ontkrachten. Maar wanneer je naar de cloud gaat is het prettig om alleen de waardevolle content mee te nemen en niet meteen met alle troep die bijvoorbeeld op je fileshares stonde en ook deze nieuwe omgeving zul je met de juiste governance moeten bewaken. Die governance kan wel degelijk uitgevoerd worden door een tool, en dat kan pas nu heel goed doordat de technologie van bijv search en Natural language processing zo ver is dat geautomatiseerd ook ongestructureerde data / tekst op basis van regels makkelijker en sneller gevalideerd kan worden. Natuurlijk is beleid en regels van business en wet- en regelgeving input, maar de uitvoering is vanuit de tool. En dat is waar ik over spreek. Ik heb het niet over 1 ECM systeem, dat is ook helemaal niet iets wat ik propageer. Ik heb het over een oplossing die juist over alle systemen heen kan analyseren en controle kan bieden als eerste stap.
Verder heb je blijkbaar moeite met de (wellicht) bolde uitspraken, maar dat is mijn manier van discussie initieren, wat dus blijkbaar werkt 😉 kwestie van smaak is mijn mening.. En correcte zoekresultaten en minder logge content systemen is wel degelijk een uitkomst van een content opschoning zoals ik die hier voorstel,hierbij kan ik refereren naar een huidig praktijkvoorbeeld met 200M documenten waar naar schatting de helft maar van overblijft in hun nieuwe samenwerkingsomgeving.