Bedrijven staan voor de uitdaging om voldoende gegevens te verzamelen waarmee ze hun artificiële intelligentie (ai)-modellen kunnen voeden. Ook bij andere data-gedreven oplossingen, zoals software en business-intelligence, lopen toepassingen tegen beperkingen aan.
Dit blijkt vandaag uit de presentatie van Wim Kees Janssen tijdens TBX. De ceo en medeoprichter van Syntho.ai, lanceert in Jaarbeurs Utrecht Syntho’s nieuwe self-serviceplatform voor het genereren van synthetische data. Dit soort data moet de voornaamste belemmering bij de ontwikkeling van ai wegnemen.
Door strikte privacyregels zit vijftig procent van alle data op slot. Ook zijn burgers en klanten steeds minder bereid hun persoonlijke gegevens af te staan. Dit betekent het verlies van drie biljoen dollar aan (markt)kansen rond data. Vooral organisaties die werken met privacygevoelige data hebben hier last van.
Janssen demonstreert dat klassieke anonimisering van data geen goede oplossing is. De toekomst is volgens hem aan een synthetische data-twin op basis van oorspronkelijke gegevens. Marktvorser Gartner voorspelt dat synthetische data in 2025 al goed zullen zijn voor tien procent van alle geproduceerde data. Nu is dat nog minder dan een procent. Het marktpotentieel voor ‘generative ai’ is dus groot.
Kloof
Het nieuwe platform voor het genereren van synthetische data dat Syntho.ai vandaag presenteert. is volledig selfservice. ‘Klanten kunnen daarmee zelf aan de slag gaan zonder tussenkomst van ons,’ aldus Janssen.
Het platform helpt de kloof te overbruggen tussen de behoefte aan data en het steeds meer door beperkingen omgeven aanbod. Syntho.ai richt zich op data-scientists die zich met analytics bezighouden en software-testers en -ontwikkelaars. Volgens Janssen is kennis van data voldoende om hiermee aan het werk te gaan. ‘We helpen nog wel met de vraag welke usecases hiervoor geschikt zijn.’
Over de waarde van synthetische data bestaan geen twijfels meer. De door Syntho.ai ontwikkelde methode om met ai synthetische data te genereren is goedgekeurd door de data-experts van SAS (analytics). Synthetische data zijn net zo goed als oorspronkelijke gegevens, zo oordeelde SAS. Dit geldt voor gebruik in neurale netwerken en logistische regressie. Ook bij ‘gradient boosting’ en ‘random forests’, technieken voor machine learning die worden gebruikt voor regressie- en classificatie-taken, voldeden dit soort data prima.
Heel interessant. Wij hebben ook vastgesteld dat synthetische data van grote waarde kan zijn bij datasets die ongebalanceerd zijn. Denk aan situaties waarbij je positieve observaties hebt, maar geen of heel weinig negatieve observaties.
Ik vraag me wel af of een platform als dit voldoende maatwerk biedt aan de data scientist. Kun je spelen met het datatype van features? En de gesynthetiseerde data testen en terugkoppelen met experimenten?
En weegt dit dan nog op tegen het gebruik van bestaande open source synth frameworks, waarmee dit ook heel goed en relatief gemakkelijk kan?