In al die jaren dat ik in de it-industrie werk, heb ik vele trends, oplossingen en ook uitdagingen zien langskomen. Er zijn echter een aantal factoren die hetzelfde zijn gebleven. ‘Kennis is macht’ is zo’n constante factor.
Dit uitgangspunt is een uitdaging voor veel organisaties. De alsmaar aanhoudende groei van data is niet te stoppen, denk aan de opslag van grotere bestanden zoals virals door het toenemende intensieve gebruik van social media. Daarnaast zijn veel bedrijven verplicht om data gedurende langere tijd op te slaan, denk aan ziekenhuizen die patiëntendossiers gedurende tientallen jaren moeten bewaren. Ook constateren wij een markt die voor een massale groei van data zorgt, aangevuld met het feit dat de constant veranderende markt uitdaagt tot het nemen van snelle beslissingen. Sterker nog, onderzoek wijst uit dat als een organisatie in geval van calamiteiten binnen 72 uur na aanvang van die calamiteit niet bij z'n data kan komen, er een grote kans bestaat dat de organisatie nog binnen hetzelfde jaar ophoudt te bestaan. Kon men vroeger een maand wachten op een rapport, de huidige minister staat morgen om elf uur in Nieuwspoort en als hij dan geen panklaar antwoord heeft, wordt er aan zijn stoelpoten gezaagd.
Laten wij even stilstaan bij het feit dat de meeste bedrijven sinds jaar en dag een afdeling marketing of finance hebben die business intelligence-processen in kaart brengen om in te kunnen spelen op de vraag uit de markt. Maar zijn deze processen en oplossingen nog wel voldoende om in te kunnen spelen op snel veranderende markten? De uitdaging ligt dus bij de business en it helpt hierbij. Bij de it-afdeling komen alle processen samen via de infrastructuur en programma's die van toepassing zijn. De vraag is of deze nog goed genoeg werken en of je als it'er in kunt spelen op de groeiende vraag vanuit je organisatie. In hoeverre is je bestaande infrastructuur en programmatuur nog voldoende in staat de vraag naar big data te ondersteunen?
Voordat je op zoek gaat naar het antwoord, kun je je afvragen of je met de volgende uitdagingen te maken hebt en hoe het antwoord op de volgende vragen luidt:
• Hoe ziet die groei van ongestructureerde data eruit en hoe ga je deze data opslaan?
• Verwijder je wel eens data waarvan het vermoeden bestaat dat deze nog nuttig kan zijn?
• Duurt het te lang om grotere hoeveelheden data op te vragen terwijl de query-tijd niet mag toenemen of zelfs zou moeten afnemen?
• Zou jouw organisatie data niet alleen altijd online of near-line beschikbaar moeten hebben maar ook nog eens online en snel kunnen doorzoeken?
Is het antwoord op twee van de vier bovenstaande vragen ‘ja', dan kun je de volgende stap bepalen. Het loont zich om in dat geval op zoek te gaan naar een passende oplossing. Het is tegenwoordig al mogelijk voor kleinere bedrijven om een appliance aan te schaffen en voor grotere bedrijven behoort ook een volledig gemanagede omgeving tot de mogelijkheden.
Ruud,
Op zich zijn het 4 valide vragen die je stelt. Maar bij de mogelijke transitie naar Big Data komt natuurlijk veel meer bij kijken en dat zie ik helaas niet terug in je artikel.
Big Data krijgt net als Cloud erg veel media/marketing aandacht. De meeste leveranciers doen ons geloven dat je zonder Big Data het niet meer gaat redden. Een simpele google opdracht levert al gauw 1.410.000.000 resultaten op.
De belangrijkste vraag in mijn optiek is echter “Wat wilt u als organisatie zijnde met Big Data bereiken”. Big Data past namelijk niet bij iedere organisatie en is absoluut niet voor iedereen een must. Pas als deze vraag beantwoord is kan je verder gaan.
Data classificatie is van zeer groot belang. Namelijk niet alle data van een organisatie is even bedrijfskritisch en dient met dezelfde frequentie veilig gesteld te worden. En niet alle data dient even snel opvraagbaar te zijn. En niet alle data is geschikt voor Big Data.
Deze 2 vragen kunnen je helpen om te kijken of Big Data bij je organisatie past of niet.
Ruud,
Meestal leidt het stellen van gesloten vragen tot beperkte antwoorden en 3/4 die jij nu voorlegt kun je eigenlijk alleen maar met JA beantwoorden. Een leuk begin voor een gesprek dat dus nog alle kanten uit kan gaan, bijvoorbeeld naar Enterprise Content Management, een uitbreiding in de opslag, vervanging van de hardware of de complete inrichting van een schaduw datacenter. Wat het met ‘big data’ te maken heeft blijft mij in dit artikel nogal onduidelijk, net als de appliance waarover aan het einde gesproken wordt en da’s jammer.
Ik zal nog een opinie artikel schrijven over Big Data.
Big Data is heel simpel. Het is data die niet zomaar in relationele tabellen past omdat de relaties niet makkelijk in sleutelsvelden zijn te vangen.
Je hebt dus een hoop data waar je niet zomaar bruikbare en zinvolle inzichten uit kunt halen. Dat je tools en techniek nodig hebt om chocola van deze data te kunnen maken lijkt me evident, maar die tools zijn niet de oplossing voor het probleem van de Big Data. De uitdaging zit hem toch echt in het samenstellen van zinvolle data.
Zoals ik eerder heb gezegd: Big Data is alleen interessant als je Big Data genereert, of als je toegang hebt tot Big Data. Als 1 van beide geldt dan zijn de uitdagingen helder. Heb je geen eigen Big Data of toegang daartoe? Dan is het niet interessant en kun je het onderwerp aan je voorbij laten gaan.
Wel is het zo dat Cloud Computing een aanjager is voor Big Data al is het gebruik soms beperkt. Neem Gmail. De inhoud valt in feite NIET onder Big Data terwijl het wel in zichzelf WEL Big Data is. Je kan/mag het niet query-en. Wel kun je wat met de meta-data. Bijvoorbeeld door data op te bouwen hoeveel bepaalde type advertenties getoond zijn. Daaruit kun je weer herleiden hoeveel e-mails wellicht over financiën gingen, over over vakanties.
De punten uit opsomming in dit artikel komen hier niet aan te pas. Dat zijn eigenlijk de simpele vragen met weliswaar complexe maar ook voor de hand liggende (commercieel gedreven) oplossingen.
@Henri
Ik zou zeggen neem je tijd want hoe meer erover geschreven wordt hoe vaker het over ‘oude wijn in nieuwe zakken’ lijkt te gaan. Big data wordt daarmee de nieuwe marketing buzz die al dan niet in combinatie met Cloud Computing voor veel ruis zorgt. En nu ik het toch over ruis heb, wat is het SETI project eigenlijk?
Om een quote van Winston Churchill aan te halen: “Kritiek is niet aangenaam, maar moet. Het vervult dezelfde functie als pijn in het menselijk lichaam. Het vestigt de aandacht op een ongezonde toestand.” Bagatelliseren van het onderwerp door te stellen dat je het voorbij kunt laten gaan als je geen big data genereert of er geen toegang toe hebt is, afhankelijk van de definitie die je eraan geeft misschien ook wel kortzichtig. Wat ik dus telkens mis in deze discussies zijn de 3 wijsheden: betrouwbaarheid, controleerbaarheid en transparantie. Eén komma verkeerd kan tot onjuiste conclusies leiden die vervolgens als waarheid aangenomen wordt.
Zo heb ik toegang tot ‘big data’ door bijvoorbeeld een week lang een netwerk trace te maken. Dat hoeft niet altijd diep te zijn door alle packets te analyseren maar wel snel en nauwkeurig om zo bijvoorbeeld de relaties tussen zender en ontvanger inzichtelijk te maken. Analyse leidt, afhankelijk van de scope niet alleen tot antwoorden op de gestelde vraag maar soms ook tot verrassende inzichten. Bijvoorbeeld dat de angst voor herlocatie onterecht is omdat er door segmentering van het netwerk op één locatie al veel hogere latency en roundtrip tijden zijn. Of dat er veel bandbreedte van het WAN verspeeld wordt doordat authenticatie tegen verkeerde domain controllers gedaan wordt. En na verrijking van deze data met andere bronnen bleek er ook nogal wat energie verspeeld te worden. Uitgedrukt in een business case werd er met een kleine investering veel ruis verwijderd en miljoenen bespaard.
De vraag die ik me namelijk steeds stel vanuit verschillende perspectieven is: ‘What’s in it for me?’ Want uiteindelijk lijkt het toch steeds te gaan om een antwoord op de ongestelde vraag, een gevoel wat bewezen moet worden. En terugkomend op de vraag met het SETI project is het natuurlijk leuk om te weten dat er buitenaards leven is maar als dat onbereikbaar blijft voegt die kennis eigenlijk niet veel toe aan ons dagelijkse leven, of wel?
Ewout: Dank voor die mooie Churchill quote.
Maar een netwerk trace zie ik niet als wat er onder “Big Data” wordt verstaan. Je weet namelijk de betekenis van de data waardoor de analyse niet de specifieke kenmerken heeft waarom “Big Data” als Big Thing gezien wordt en het gewone koek is ongeacht dat het om GB’s aan data gaat.
Dat er ruis bestaat mbt cloud en cloud computing en nu big data is gewoon een feit. Juist door jouw waarde toe te voegen kan het voor bijvoorbeeld klanten meer betekenis krijgen.
Het “coole” van Big Data is dat het vol zit met geheimen en het eigenlijk geen waarheid bevat. Je raakt de drie wijsheden dus juist kwijt! Dat is discutabel en eng, maar kan wel tot inzichten leiden die je een voordeel geven ten opzichte van bijvoorbeeld concurrenten.
Neem als voorbeeld fraude. Door credit card transacties te combineren met andere bronnen zoals locatie, soort aanschaf, duur van tot stand komen van transactie en dit tegen een subset van werkelijke fraude te houden kun je misschien patronen ontdekken die fraude sneller kunnen opsporen. Is het transparant? Nee. Is het controleerbaar? Moeilijk en het is slechts een indicatie. Is het betrouwbaar? Na vele ervaring, wijziging en iteratie… mogelijk, maar zeker niet heel betrouwbaar.
Het leuke van Big Data is dat de standaard benaderingen niet meer werken, het is dus echt weer pioniers werk waardoor er leuke nieuwe methoden, tools en inzichten bestaan.
“Meten is weten” is zo 2011 😉
@ Ruud Mulder
“Wat wilt u als organisatie zijnde met Big Data bereiken”. Hi Ruud, dit is inderdaad de belangrijkste vraag, inclusief wat ook in de overige reacties werd aangegeven “what’s in it for me”. Dat zal altijd per type organisatie of bedrijfstak verschillen. Dat is voor mij een reden geweest om de content zoveel mogelijk te beperken tot de vier gestelde vragen. Indien deze van toepassing zijn, zijn er uiteraard voldoende oplossingen en aanbieders die hier een rol in kunnen spelen. Ik ben van mening dat de vragen die ik stel een prima uitgangspunt zijn indien de business bij IT komt met dergelijke vraagstukken. En niet dat “Big Data” wordt gepositioneerd voordat een organisatie er uberhaupt iets mee wenst te doen. We hebben in dit geval hetzelfde uitgangspunt.