Linux Foundation verenigt open source ai en big data

De Linux Foundation (LF) gaat de ontwikkeling van opensourcesoftware op het gebied van kunstmatige intelligentie (ai) en big data onder één dak brengen. De LF AI Foundation (LF AI) en het open ecosysteem voor big data ODPi slaan hiervoor de handen ineen.

Met de nieuwe LF AI & Data Foundation worden beide communities en ecosystemen in elkaar geschoven. Hierdoor kan de innovatie op gebied van kunstmatige intelligentie, machine learning (ml), deep learning (dl) én datatechnologie worden versneld. Ibrahim Haddad, uitvoerend directeur van LF AI, en ODPi-directeur John Mertic, lichten de fusie toe in een Zoom-interview. Volgens hen zijn ai en datatechnologie zoals analytics niet langer los van elkaar te zien. Beide ontwikkelingen zijn geheel met elkaar verstrengeld geraakt.

De LF AI & Data Foundation krijgt 22 projecten onder haar hoede die worden ondersteund door ruim zestig bedrijven, twintig universiteiten en ruim 1300 actieve ontwikkelaars. Tot de nieuwe leden behoren Cloudera, Databricks, Index Analytics, ING Bank en SAS Institute.

Door de opensourceprojecten onder één paraplu te brengen kan de samenwerking verbeteren. Ook de integratie en interoperabiliteit varen er wel bij. Haddad en Mertic verwachten dat de ecosystemen hierdoor sterker zullen worden. Ook de eindgebruikers hebben hier baat bij. Het advies en de informatie die ze krijgen, worden meer uniform als het gaat om tools en standaarden. De nieuwe fusie-organisatie staat de komende maanden voor de opgave projecten van beide organisaties onder één noemer te brengen en nieuwe projectnamen te verzinnen. Zodra de integratie is afgerond zal de LF AI & Data Foundation als grotere organisatie nog meer impact krijgen.

De dienst uitmaken

Ibrahim Haddad, uitvoerend directeur van Linux Foundation

‘Opensource is alom vertegenwoordigd,’ stelt Haddad. ‘De meeste commerciële cloudoplossingen zoals die van AWS, Google en Microsoft, zijn op basis van opensourceprojecten gebouwd.’ Projecten die onder LF AI & Data vallen zoals ONNX, Amundsen, Horovod, Angel en Marquez worden daarbij als bouwstenen gebruikt. Haddad denkt dat de bundeling van ai en data goed aansluit op de nieuwe opensourcestrategie van de Europese Commissie die de voordelen van dergelijke software beter wil benutten. Hij noemt in dit verband met name de grotere nadruk die de nieuwe foundation gaat leggen op ethiek en kunstmatige intelligentie. Dit gebeurt via het Trusted AI comité en drie projecten op dat gebied: Adverserial Robustness Toolbox, AI Explainability 360 en AI Fairness 360.

Extra nadruk krijgt de ‘Responsible AI’. Tegengegaan wordt dat in algoritmes en data vooringenomenheid sluipt. Haddad noemt in dit verband vier belangrijke aspecten. Onder Fair AI vallen tools die de ‘bias’ in datasets en modes blootlegt en mitigeert. Verder moet kunstmatige intelligentie robuust zijn. Hiervoor bestaan tools die wijzigingen in of manipulatie van datasets en modellen detecteren, inclusief wijzigingen als gevolg van vijandige aanvallen. Het derde aspect is de uitlegbaarheid. Methoden worden ontwikkeld om de begrijpelijkheid te verbeteren van ai-modelresultaten en aanbevelingen tot beslissingen. Tenslotte is er aandacht voor lineage, een methode om de herkomst van datasets en ai-modellen te garanderen.

Aan Haddad ook de vraag in hoeverre techreuzen als Facebook, Uber, Intel en IBM de dienst uitmaken in de wereld van opensource. Bij de opzet en lancering van nieuwe opensourceprojecten zijn deze grote spelers inderdaad behoorlijk actief, geeft hij toe. ‘Maar het ecosysteem kent ook een zeer grote ‘long tail’ van starters en kleine bedrijven. Die stellen hun platformen, libraries en frameworks als opensource beschikbaar en bouwen daar communities omheen. Al die kleintjes tezamen spelen een belangrijke rol,’ legt Haddad uit.

Te weinig open data beschikbaar

Uit data blijkt dat veruit de meeste opensource-ai-projecten vanuit de Verenigde Staten worden geleid. Van de 280 projecten zijn er 203 overwegend Amerikaans. China doneerde slechts vijftien projecten. In de cijfers lijkt het belang van China af te nemen. Dat komt echter omdat de Chinezen veel via aparte stichtingen werken die buiten China hun domicilie hebben. De inbreng van Europa is gering. Alleen Duitsland (acht projecten), het Verenigd Koninkrijk (zes projecten) en Frankrijk (vijf projecten) hebben meer dan één project. Nederland en België zijn afwezig.

Gevraagd naar de geografische balans op ai-gebied zegt Haddad dat zijn organisatie daar geen controle over heeft. Overigens is het aantal projecten op elk deelgebied van ai behoorlijk groot. ‘We hebben bepaald geen gebrek aan activiteiten,’ zegt hij. Aan het belang van open source in de wereld van ai hoeft niet te worden getwijfeld.

Jim Stolze, innovatiedeskundige en oprichter van het ai-ontwikkelbedrijf Aigency, zegt: ‘De ai-gemeenschap heeft al veel te danken gehad aan opensource. Denk aan Python, een taal die veel in data science en machine learning wordt toegepast.’ Ook veel libraries, verzamelingen code die door programma’s kunnen worden gebruikt, zijn opensource. ‘TensorFlow van Google was al vroeg op de markt en gold als een Zwitsers zakmes voor deep learning. Maar de laatste tijd zie ik steeds meer ontwikkelaars overstappen naar PyTorch en Fast.ai. Alle drie zijn producten van de opensourcebeweging.’

Wel schort het momenteel aan data waarmee de modellen zijn te trainen. Stolze: ‘De hamers zijn er wel. Maar er moeten ook spijkers worden geslagen.’ ImageNet en MNIST hebben destijds voor een grote versnelling gezorgd. We hebben meer van dit soort grote open datasets nodig om betere en verantwoorde kunstmatige intelligentie te ontwikkelen.’

Haddad hoopt dat het samengaan van beide foundations zal leiden tot meer beschikbaarheid van open data. Data zijn essentieel voor ai. De Linux Foundation heeft daarom de Community Data License Agreement (https://cdla.io/) opgezet. Deze maakt het mogelijk data op dezelfde manier te delen als met open source software gebeurt. Haddad hoopt dat met dit gestandaardiseerde open licentiemodel voor data meer datasets beschikbaar komen. Hiermee kan worden voldaan aan de behoefte aan grote datasets voor trainingsdoeleinden.