Volgens Wil van der Aalst, hoogleraar Information Systems aan de Technische Universiteit Eindhoven, produceren we tegenwoordig iedere tien minuten net zoveel data als in de gehele periode van de prehistorie tot aan 2003. Het verzamelen van data gaat door nieuwe technologieën behoorlijk eenvoudig, maar het wordt voor bedrijven steeds lastiger om in deze verzamelde data waardevolle informatie te vinden.
Om de toenemende hoeveelheid data werkelijk te benutten, is een goede en slimme analyse van de data nodig. Het uitvoeren van zo’n analyse is een vak apart en vraagt om expertise. Een data scientist biedt hier uitkomst. Maar waarom zou ieder bedrijf een data scientist moeten aanstellen?
Interessante inzichten
Data science is de kunst, of eigenlijk de wetenschap, om uit de grote bulk aan data juist díé informatie te halen die voor de bedrijfsvoering relevant is. Deze informatie combineer je vervolgens met data afkomstig uit diverse externe bronnen, zoals gegevens over het weer of demografie, om tot interessante inzichten te komen.
Door de enorme omvang van datasets is het lastig om het overzicht te bewaren. De grootste kracht van een data scientist is misschien wel dat hij of zij zich niet laat misleiden door data die er niet toe doen en dat hij niets over het hoofd ziet. Ze hebben kennis van de business, van statistiek en ze hebben ook programmeerervaring. Met deze eigenschappen en met behulp van geavanceerde analysetechnieken, kan een data scientist inzichtelijke en zeer nuttige analyses en modellen maken. Deze analyses helpen bedrijven om bijvoorbeeld efficiënter te werken en klanten beter te bedienen.
Valkuilen
De steeds groter wordende hoeveelheden data die bedrijven verzamelen bieden dus legio mogelijkheden, maar ook minstens zoveel valkuilen. ‘Door de bomen het bos niet meer zien’ is een spreekwoord dat één van die valkuilen omschrijft.
Het gevaar bij data science is dat er verbanden worden gezien die er in werkelijkheid helemaal niet zijn. Of het combineren van gegevens en aantonen van relaties zonder dat het verband zinnig is. Denk bijvoorbeeld aan de correlatie tussen regen en het gebruik van een paraplu. Hoewel er wel degelijk een relatie is, is het niet zo dat het gaat regenen zodra men een paraplu gebruikt. Dat verband ligt natuurlijk andersom. Een data scientist vraagt zich steeds af welke gegevens hij of zij combineert en zorgt ervoor dat de correlaties die worden aangetoond juist zijn.
Kwaliteit van de data zorgt vaak voor een andere valkuil. Vooral wanneer je data van internet gebruikt, geldt dat de kwaliteit vaak een punt van kritiek is. Het is belangrijk dat je zelf altijd nagaat wat de kwaliteit van de bron is, voordat je deze gaat gebruiken in een analyse. Verder moet je altijd de bron vermelden wanneer je verkregen informatie met anderen deelt.
Daarnaast moet de informatievoorziening compleet zijn. Het gebeurt nog vaak dat er bij analyses van data gegevens missen. Een goed voorbeeld hiervan zijn analyses op basis van sociale media. Onlangs concludeerden wetenschappers Derek Ruths (McGill University) en Jurgen Pfeffer (Carnegie Mellon-universiteit) dat onderzoeken waarbij grote hoeveelheden data afkomstig uit social media worden gebruikt, onjuiste conclusies opleveren. Dat komt omdat gebruikers van social media geen afspiegeling zijn van de bevolking. Echter, essentiële correcties zoals demografische verschillen tussen de populaties actief op social media, worden zelden gemaakt tijdens de analyses.
Dit geeft dus een vertekend beeld. Een data scientist is erop gebrand om de essentiële correcties, zoals hierboven beschreven, wel te maken tijdens de analyse zodat de uitkomsten kloppen en zinvol zijn.
Meer dan een tool
Het gevaar om fouten te maken ligt bij data science dus continu op de loer. Nu de datasets groter worden en de vraagstukken van organisaties complexer, is het lastiger om juiste conclusies te trekken en wordt het risico op onjuiste analyses groter. Bedrijven kunnen er dus niet langer omheen om een data scientist aan te stellen. Het is namelijk niet alleen de tool of de technologie, maar de kunde van een data scientist die voor de meest relevante en optimale analyses zorgt. Analyses die het bedrijf nodig heeft voor het bepalen, uitvoeren en eventueel bijstellen van bedrijfsprocessen en de strategie. Concurrentievoordeel blijft zo binnen handbereik, én binnen de eigen datasets.
Data science blijft rocket science, maar ik ben het inderdaad eens dat veel bedrijven zouden kunnen profiteren van een goede data wetenschapper. Maar ze zijn lastig te vinden en je zoekt er eigenlijk 1 die niet alleen veel snapt van data analyse maar ook bereid is zich te verdiepen in jouw domein. Daarnaast zijn ze duur en is de opbrengst in de basis onzeker.
langzaam komen er wel tools die beloven het science stuk makkelijker te maken. Zo kun je nu bij IBM een account aanmaken om te spelen met Watson Analytics. Het laat nu nog te wensen over, maar door iteratieve verbeteringen zou dat over twee jaar wel eens anders kunnen zijn.
Van een andere vriend die data science voor een farmaceut doet hoorde ik dat zij een hele reeks aan technieken gebruiken en de uitkomsten van alle methoden weer met elkaar vergelijken. Daar komen verrassende conclusies uit. Ten eerste is een methode die op een dataset goed werkt geen zekerheid dat ie ook nog goed presteert op een andere dataset. Juist door meerdere methoden parallel te proberen (we stoppen die dataset overal in en kijken wel wat er gebeurd) wordt je steeds handiger in het trekken en onderbouwen van conclusies.
Als ik mijn keuzes opnieuw mocht maken zou ik wellicht voor data science hebben gekozen. Wiskunde en algebra zijn overigens de meest belangrijke skills.
Machine learning (en varianten) verkrijgen nu overigens de hype status met dito opgeblazen verwachtingen. Zo lijkt het (weer) dat er nu een doorbraak komt, zeker nu steeds meer wetenschappers hun geboekte resultaten delen.
Kan iemand mij het verschil uitleggen tussen “data science” en statistiek?
Volgens mij kun je hier ipv “data science” gewoon statistiek lezen.
Er zit heel veel overeenkomst tussen data science en statistiek. De data scientist onderscheidt zich van de pure statisticus door zijn vaardigheden met het werken met grote datasets. Een data scientist moet veel van statistiek en wiskunde weten en dat toe kunnen passen op allerlei datasets, binnen en buiten een bedrijf. Een statisticus zal dat vaak ook wel kunnen, maar niet persé.
Het spijt me Hans maar je antwoord verbaast me. Een statisticus die anno 2014 niet met grote datasets kan werken heeft toch de boot gemist.
Je artikel vindt ik zeer overtuigend in de zin dat bij statistische analyses op de kwaliteit gelet moet worden en men niet alles voor zoete koek moet slikken. In die zin deel ik je mening dat er dringend behoefte is aan vakmensen die begrijpen hoe een statistische analyse tot betrouwbare resulaten komt.
Momenteel zie je te vaak dat een gewenst resultaat geleverd wordt met “analyses”.
Statistiek is liegen met cijfers, in een eerdere opinie (SAP-er-de-flap) stelde ik dat statistiek nog weleens gebruik maakt van exception- and exemption management. Data science dient te gaan om de wetenschappelijk twijfels omdat je met statistiek vooral de bevestiging zoekt. Dit alles heeft trouwens niets met de omvang of diversiteit van datasets te maken maar met de integriteit van de antwoorden, zoiets als de stelling van Pythagoras.
De toepasbaarheid hiervan was al bekend alleen het aantonen van de wetmatighheid moest nog gedaan worden. Nadat dit dus gelukt was kon de formule ook voor andere problemen met hoeken gebruikt worden, lineaire algebra is min of meer dus een afgeleide van stelling van Pythagoras. Verschil zit naar mijn opinie vooral in hoe wetenschappelijk je gok is en niet in de massa van je data om je gelijk te bewijzen.
Daarmee kom ik aan de vraag hoe erg je zit te wachten op een wetenschappelijke twijfelaar die een oneindig getal eerst tot weet ik hoeveel posities achter de komma uit wil rekenen voordat de ‘maar’ achter het voorzichtige ‘ja’ verdwijnt. Zoeken naar zekerheden in een onzekere wereld zorgt ervoor dat de kans gemist wordt als deze zich aandient.
Jan, ik vind je vraag over het verschil tussen “data science” en statistiek wel goed. En zal hem kort beantwoorden. Je vraag triggerde me een ander probleem op te lossen, dus ben er ook dankbaar voor.
Je kunt het verschil op een aantal manieren aanvliegen. Zie statisticus als de front-end van data en data wetenschapper de back-end.
Een statisticus kan met methodieken, wiskunde en algebra bepaalde output genereren die iets zegt over de data(set). In mijn ogen is dat overigens vaak ook redelijk structurele data.
Een data wetenschapper heeft een heel arsenaal aan tools en methodes om bijvoorbeeld ook nog wat met de data te doen. Bijvoorbeeld “te trainen” ofwel met allerlei iteraties de data te verrijken of klaar te stomen zodat een statisticus er wat mee kan. Of anders dat de data ook toepasbaar wordt. Een data wetenschapper kan geheugen vullen met “kennis” zodat als je een nieuwe input aanleverd het systeem kan zeggen “Er staat een kat op dit plaatje”. Data wetenschap is veel breder en staat ook dichter bij technologie en is meer hands on. Een statisticus zal tools gebruiken om data te visualiseren of te berekenen. Een data wetenschapper maakt soms zelfs zijn eigen tools en gebruikt bijvoorbeeld Hadoop om bewerkingen uit te voeren.
Dat zijn mijn twee centen, en daarom denk ik ook dat data wetenschappers enorm belangrijk zijn in een wereld op de vooravond van het “Internet der dingen”.
@Henri:
Je geeft een goed en compact antwoord. Maar ik kan me voorstellen dat het ook weer nieuwe vragen oproept.
De geinteresseerde lezer heeft wellicht baat bij “What is Data Science” [http://www.oreilly.com/data/free/what-is-data-science.csp] door Mike Loukides. Dat is een beknopte en zeer toegankelijke inleiding.
Volgens mij is een belangrijk verschil tussen data science en statistiek dat statistici meestal werken met gegevens die geschikt zijn om statistiek op los te laten. Een groot deel van het werk van een data scientist is het geschikt maken van de gegevens voor statistische en ‘machine learning’ modellen. Vaak wordt gezegd dat het opschonen en geschikt maken van de gegevens 80% van het werk in een data science project is, en mijn ervaring tot nu toe bevestigt dat volkomen.
Als data scientist ken ik niet alle afleidingen en onderbouwingen van statistische methoden, maar weet ik wel hoe ik de resultaten kan interpreteren, inclusief het herkennen van foutieve conclusies zoals Hans Geurtsen terecht opmerkt. Maar ik gebruik meer software engineering dan een doorsnee statisticus. Data science is vaak een combinatie van “just enough math” en “just enough software engineering”.