Naar verwachting bedraagt de hoeveelheid opgeslagen data in 2025 180 zettabytes; dat is 180 gigabytes met twaalf nullen. Een enorm volume. Databricks pioniert met zinvolle informatie te halen uit die berg gegevens. Geen wonder dat ceo Ali Ghodsi stelt dat ‘dit onze tijd is’. Het bedrijf groeit tegen de klippen op.
Amerikanen zijn vaak ‘excited’ als zij vertellen over hun producten, diensten of klanten. Ghodsi liet zich tijdens de gebruikersconferentie in San Francisco regelmatig ontvallen ‘super, super excited’ te zijn. Geen wonder: de conferentie Data + Ai Summit van eind juni 2023 telde tienduizend bezoekers. Van technici die trainingen komen volgen tot aan ondernemers die willen weten wat een datagedreven bedrijfscultuur in de praktijk inhoudt en hoe ze die vorm geven. En alle functies daartussen.
Tijdens het driedaagse evenement staat Ghodsi op het podium met onder anderen Larry Feinsmith, Managing Director en Head of Technology Strategy, Innovation, & Partnerships bij Amerika’s grootste bank JPMorgan Chase. Hij roemt de schaalbaarheid en interoperabiliteit van de Lakehouse architectuur. En geeft hoog op van de samenwerking met Databricks.
Verantwoord gebreid van ai
Via een videoverbinding spreekt Ghodsi met Satya Nadella, de ceo van Microsoft, over verantwoord gebruik van ai. Nadella spreekt van een geweldige samenwerking met Open AI, de makers van ChatGPT. ‘De volgende vijf jaar gaat het gebeuren’, meent Nadella. ‘Dan kunnen we bi-tools eindelijk gebruiken zoals ze bedoeld zijn.’ Overigens werkt Microsoft ook nauw samen met Snowflake, de grootste concurrent van Databricks.
En natuurlijk deelt Ghodsi het toneel met Naveen Rao, medeoprichter en ceo van MosaicML. Glunderend verhalen beiden van de overname van MosaicML door Databricks. ‘Samen met Databricks zullen we de weegschaal doen doorslaan in het voordeel van velen – en we doen het als geestverwanten: onderzoekers die ondernemers zijn geworden en een vergelijkbare missie delen. We kijken ernaar uit om deze reis samen met de AI-gemeenschap voort te zetten’, aldus Rao.
Fenomenaal
Eerder had Ghodsi de aanwezige journalisten en analisten gemeld dat MosaicML ‘fenomenaal is met het bouwen van grote taalmodellen’. ‘Wij hebben de klanten, zij weten hoe je modellen kunt bouwen. Samen brengen we ai een stap verder.’
‘In de afgelopen zes tot zeven maanden concludeerde elke grote onderneming waarmee we spraken, elke vergadering die ik met een klant had, met stappen in de richting van generatieve ai’, zegt Ghodsi. ‘Elk gesprek, zelfs als het over iets anders gaat, leidt uiteindelijk naar generatieve ai.’
Een belangrijk punt daarbij is het intellectueel eigendom (ip) van de modellen. ‘Wij zorgen ervoor dat bedrijven daar geen problemen mee krijgen. Op dit moment is het voor organisaties moeilijk om de taalmodellen te bouwen. Het is een magische kunst. Je moet weten hoe je alles goed moet doen. Mosiac werkt gewoon out-of-the-box. We probeerden het tijdens onze due diligence. Je stelt wat parameters in en het werkt gewoon. Ze hebben de GPU’s en je krijgt het model dat je kunt bezitten als je eigen ip op je eigen gegevens. Het is dus perfect. Tachtig procent van alle ai-start-ups gebruikt Mosaic’, aldus Ghodsi.
Met MosaicML kan Databricks ai toevoegen aan Delta Lake, het lakehouse van de onderneming.
Formatenoorlog voorbij
Ghodsi had meer nieuws te melden tijdens de Data + AI Summit, zoals de aankondiging van Delta Lake 3.0 met UniForm. Dit moet de formatenoorlog beëindigen, aldus Ghodsi. Je kunt data opslaan in opslagformaten van Delta Lake, Apache Hudi of Apache Iceberg. Dan kun je de situatie krijgen dat de financiële afdeling van een bedrijf data opslaat in een lakehouse via Delta Lake, terwijl de verkoopafdeling data opslaat in een lakehouse via Iceberg. Die implementaties kunnen niet met elkaar overweg.
De opensource-houding van Databricks, de uitvinders van Apache Spark, dwong zijn bedrijf een oplossing te vinden, aldus Ghodsi. Delta Lake 3.0 is gericht op het verenigen van gegevens ongeacht het opslagformaat met de introductie van Universal Format. Dankzij UniForm kan Delta Lake niet alleen worden gebruikt met Delta Lake-tabellen, maar ook met Hudi- en Iceberg-tabellen. Hierdoor kunnen organisaties hun voorheen geïsoleerde gegevens verenigen.
UniForm converteert de tabelformaten automatisch naar metadatacode die Delta Lake begrijpt, waardoor je vervolgens gegevenstabellen kunt samenvoegen. Voorheen moesten data engineers handmatig tabelformaten converteren om gegevenstabellen in verschillende formaten te combineren. ‘Het opslaan van metadata kost niet zo veel. Dit is een goede ontwikkeling voor iedereen’, aldus Ghodsi.
Uit recent onderzoek van de Eckerson Group blijkt dat tachtig procent van de organisaties twee of meer dataplatformen gebruiken.
Marketplace
Nog meer nieuws: Databricks Marketplace. Dit is een open marktplaats voor al data, analyses en ai-modellen, gebaseerd op de opensource Delta Sharing-standaard. Het fenomeen was in 2022 aangekondigd. Nu is er de bekendmaking dat de Marketplace operationeel is en voor iedereen toegankelijk.
Mensen kunnen zoeken naar datasets en ai- en analyse-assets, zoals ml-modellen, notebooks, applicaties en dashboards, zonder merkgebonden platformafhankelijkheden, ingewikkelde ETL (Extraction, Transformation, Load) of dure replicatie. Dankzij deze open aanpak zou het mogelijk zijn om data sneller aan het werk te zetten in elke cloud met de tools naar eigen keuze. Ghodsi noemt het een ‘big deal’. ‘We zijn very excited hierover.’
De Marketplace is een platform met de dataleveranciers, hun dataproducten, middelen om de assets te evalueren en het gemak van toegang op één plek. Het is mogelijk de producten te rangschikken op aanbieders, categorieën en typen.
Unity Catalog
Op het vlak van ai kwam Databricks ook nog met LakehouseIQ, Databricks Assistant en Lakehouse AI. LakehouseIQ is de kennismotor van het Lakehouse die leert wat iemands bedrijf uniek maakt om iedereen te wapenen met accurate antwoorden. Databricks Assistant is een context-bewuste medewerker aangedreven door LakehouseIQ die natuurlijke taal gebruikt om rapporten te genereren, code te genereren en uit te leggen, en vragen over data en code te beantwoorden. Lakehouse AI is een snelle, kosteneffectieve en veilige manier om generatieve AI-toepassingen te bouwen.
Tot slot nog de Unity Catalog. ‘Dat is bijzonder belangrijk voor ons’, zegt Ghodsi. ‘Het is vrij te gebruiken; wij verdienen daar niks mee. Het is voor ons strategisch. De catalogus helpt de bron van data(modellen) weer te geven. Je kunt zien waar data vandaan komen en hoe ze gerelateerd zijn. Dit is nodig om het vertrouwen in ai op te bouwen. Je kunt in de catalogus beveiligingsregels plaatsen, die vervolgens overal worden overgenomen.’