De term big data gaat verdwijnen, maar datavolumes nemen de komende jaren sterk toe. Begrijp me niet verkeerd: big data op zich verdwijnt echt niet. Wel gaat de term aan inhoud verliezen. We raken er namelijk aan gewend dat data ‘groot’ is. Twee terabytes vonden we vroeger immens veel . Nu zet je het op je harde schijf die je bij de Media Markt koopt. Big Data is omvangrijk, snel en gevarieerd. En daarom lastig te beheren. In 2014 komt er alleen maar meer van deze data en tegen het einde van het jaar is het niets meer dan ‘nog een pakketje data’.
Data discovery-tools hebben het duidelijk goed gedaan de afgelopen jaren . Veel data discovery-bedrijven liepen binnen. We zien nu echter tekenen dat mensen klaar zijn met standalone data discovery-tools. Om te voorkomen dat mensen met totaal verschillende antwoorden op vragen een vergadering binnenstappen, is geïntegreerde, betrouwbare data, inclusief audit trail, de enige optie. Zo voorkomen we de Excel-hel.
Analytic apps en datastewards populair
Ik praat hier niet over ‘analytic applications’ als in voorgekauwde datamodellen en one-size-fits-all rapportagepakketten die je bij een leverancier koopt. Ik heb het over een app zoals op je smartphone: klein en intuïtief, bedrijfsgericht en eenvoudig in gebruik. Want dat zijn apps die mensen willen gebruiken.
Door machines gegenereerde data (inclusief het ‘Internet of Things’) groeit sneller dan welke big data-bron voor analytics-doeleinden dan ook. Men focust zich te vaak op ongestructureerde, door mensen gegenereerde data. Denk aan social media. Toch denk ik dat we dit jaar meer gaan zien en horen over machine-generated data. Het stroomt nu onze bedrijven al binnen. Het lijkt ‘kleine’ informatie, zoals data over de temperatuur van een vrachtwagenlading. Maar er is heel veel van deze informatie en het moet vaak realtime afgehandeld worden.
Er kwamen heel veel vacatures voor data-analist voorbij dankzij de opkomst van big data. En dat blijft ook nog wel even zo. Toch zien veel bedrijven ook in dat er wel ‘goede’ data moet zijn om te analyseren. En dat vergt een operationele functie – iemand die verstand heeft van cijfertjes en weet hoe je kwalitatief goede cijfers genereert. Daarom komen er binnenkort meer datastewards: mensen die weten hoe in een bedrijfsproces ‘schone’ data tot stand komt.
Datakwaliteit wordt nog belangrijker
Door betere data-analyse komen er ook meer problemen boven water drijven. Datakwaliteit wordt hierdoor een groter issue, omdat ze tastbaarder wordt. Het is altijd al belangrijk geweest, maar de nadruk op beslissingen die gemaakt worden op basis van data, maakt het belangrijker dan ooit.
Daarnaast leidt het samensmelten van voorspellende analytics, data discovery, gis en andere typen analytics tot analytic-automation. Er bewegen momenteel heel veel verschillende technologieën in dezelfde richting. Een voorbeeld: heel grote datasets zijn op zichzelf vaak niet heel nuttig. Analisten moeten hier de interessante informatie uithalen om mee te werken. Door het samengaan van statistische analyse en data-extractie en ETL-mogelijkheden kunnen analisten gebruik maken van de precisie van voorspellende analyse om te bepalen welke dataset ze moeten hebben.
Dirk Verweij , sales director Benelux Information Builders
Big Data heeft uiteraard met volume te maken, maar beperkt zich niet tot volume. VEEL data is nog niet per se BIG data. Dat heeft ook te maken met verschijningsvorm, beschikbaarheid, etc…
Big Data is denk ik wel overhyped. En heel veel een consultant gedreven term, terwijl organisaties nog niet zo ver waren/zijn.
Gebruik van data wordt geintegreerd in het dagelijks leven. Eens.
Eens Erwin, de nadruk ligt vaak op veel.
Wat ik goed vind om te lezen is dat het opgemerkt wordt dat beslissingsprocessen richting geautomatiseerde handelingen gaan. Dat is een onrustbarende ontwikkeling. De kachelthermostaat is goed uitontwikkeld, maar zo is het zeker niet met big data, de analytics en predictive analytics en de besluiten die daar uit voortkomen.
We zien nu al (nog handmatige) onzinnige besluiten op basis van verschillend verkeerd geinterpreteerde data (100 km / 80 km op de ring… mooi voorbeeld). Laat staan als dat geautomatiseerd gaat, dan weet niemand meer waar die wisselende snelheden eigenlijk vandaan komen.
De excel-hell vind ik een mooie term daarvoor. Je mag niet vragen naar de data achter de excelsheet, dan kom je in het land van quasi wetenschappelijke (of helemaal niet wetenschappelijke) verzamelingen van data met discutabele aannames en conclusies.
Just stick to the (excel) facts!
@Bernhard.
Je conclusie dat geautomatiseerd besluiten nemen per definitie eng of fout is, is wat prematuur. Het besluit om de snelheid op de ring te verhogen was grotendeels gedreven door politieke ambitie en/of persoonlijke of partij overtuiging en juist /niet/ op pure gegevens. Deze gegevens werden genegeerd of opzettelijk verkeerd geïnterpreteerd. Met zuivere geautomatiseerde besluitvorming zou het besluit een stuk goedkoper zijn geworden (en minder verwarrend): niet meer dan 80Km/h op de ring (een computerprogramma kent de belevingswereld van een autobestuurder niet, laat staan dat dit wordt meegenomen in het beslissingsproces).
Ik wil hiermee niet pleiten voor alleen maar geautomatiseerde besluitvorming (hemel bewaar ons), maar wel voor een transparanter besluitvormingsproces waarbij de gegevens worden gebruikt als onderbouwing, geen politiek. En in die zin kan ik een heel stuk meegaan met dit artikel