Het World Economic Forum voorspelde al dat er in 2020 veel vraag zou zijn naar data-analisten. Een van de oorzaken hiervan is dat de vraag naar data scientists nog altijd groter is dan het aanbod. Hierdoor gaan organisaties op zoek naar alternatieven. Het aardige is dat deze ontwikkeling wordt ondersteund door de opkomst van auto-ml (automated machine learning), waarmee data-analisten naast data scientists een belangrijke bijdrage kunnen leveren aan data science-projecten.
Veel bedrijven hebben de afgelopen jaren flink geïnvesteerd in auto-ml. Daarmee wordt het proces van het toepassen van machine learning voor het oplossen van zakelijke uitdagingen geautomatiseerd. Dit betekent ook dat data-analisten, die niet opgeleid zijn tot data scientist, maar wel bredere kennis en vaardigheden hebben dan data scientists, toegang krijgen tot data en deze vrij kunnen gebruiken.
Vroeger werd auto-ml bijna uitsluitend gebruikt voor het automatisch selecteren van het best presterende algoritme voor een bepaalde taak en voor het aanpassen van de parameters van deze algoritmes. Hoewel dit heel nuttig was voor data scientists leverde het tot voor kort geen betere toegang op tot data of inzichten voor data-analisten of zakelijke gebruikers. Zij waren voor het bouwen van modellen nog steeds afhankelijk van data scientists. Dankzij auto-ml is dit niet langer het geval.
Zelf modellen maken
Auto-ml helpt bij het democratiseren van data science waarmee het makkelijker wordt voor data-analisten om actief betrokken te zijn bij het proces van het omzetten van data naar inzichten. Hoewel auto-ml data scientists niet kan vervangen, kunnen data-analisten met auto-ml wel zelf functies maken en selecteren, datamodellen maken en vergelijken en ze zelfs operationaliseren. Daarmee draagt auto-ml nu actief bij aan self service data analytics waarmee de datapijplijn een stuk efficiënter is geworden.
In de laatste twee jaar van het vorig decennium zag je bij technologiebedrijven al een duidelijke verschuiving naar integratie van data science en business intelligence. Dit in tegenstelling tot traditionele bedrijfsmodellen waar organisaties afzonderlijke teams gebruikten voor business intelligence (dashboards, rapporten, datavisualisatie, SQL) en data science (statistische modellen, R/Python).
Hun redenering is logisch. Door data science en business intelligence samen te voegen, creëren bedrijven realtime, gecentraliseerde toegang tot databronnen die vroeger gescheiden waren. Deze nauwere samenwerking tussen analytics en data science teams stelt meer mensen in staat een data-analist ofwel ‘citizen data scientist’ te worden.
Verschillende rollen
Citizen data scientists zijn er in vele vormen en hun data-analyse vaardigheden vergroten het inzicht op verschillende manieren. Soms hebben ze bijvoorbeeld de rol van ‘data translator’; iemand die de technische expertise van data-ingenieurs en data scientists samenbrengt met operationele kennis van marketing, supply chain, manufacturing, risk en andere domeinen.
We zien ook mensen in de rol van ‘data explorer.’ Zij richten zich op het identificeren en het leggen van de verbinding met nieuwe databronnen, het samenvoegen en voorbereiden van data en het bouwen van productieklare datapijplijnen. Verder zijn er ‘data modellers’ die verantwoordelijk zijn voor het bouwen van voorspellende modellen, het ontwikkelen van een product of dienst op basis van die modellen en de implementatie ervan.
Diepgaande kennis
Ongeacht de aard van deze nieuwe rollen, is er één ding hetzelfde: in tegenstelling tot de data scientists van de afgelopen tien jaar, hoeven citizen data scientists of data-analisten niet alle fijne kneepjes van geavanceerde machine learning en feature engineering onder de knie te hebben. Zij moeten vooral diepgaande kennis van de bedrijfsproblemen meebrengen en weten welke zakelijke vragen er moeten worden beantwoord.
De volgende stap in de democratisering van data science is dat machine learning nog meer een kwestie van self service wordt. De implementatie en het beheer van modellen wordt steeds eenvoudiger en geautomatiseerd, net als veel analytische taken. Door zelf machine learning te gebruiken en te integreren in hun kernactiviteiten, zijn innovatieve bedrijven steeds beter in staat realtime data te gebruiken om betere en snellere beslissingen te nemen. En laat dat nu juist hetgeen zijn waar ze het verschil mee kunnen maken.