Mapr heeft een initiatief bekendgemaakt om Apache Drill te integreren met Apache Spark. Apache Drill is een open source zelfservice query-engine voor meerdere databronnen (big data). Apache Spark is een open source toepassing voor in-memory data-analyses en tegelijkertijd een programmeertaal voor real-time dataverwerking.
Apache Drill biedt de flexibiliteit om met minimale it-inspanningen razendsnel complexe datasets te doorzoeken, waaronder ook niet-gestructureerde en geneste data. Omdat de sql-queries rechtstreeks op de originele bestandsformaten zijn uit te voeren, is live-data al bij de ontvangst te doorzoeken. In vergelijking met eerst weken nodig te hebben voor het voorbereiden en managen van alle dataschema’s en opzet van de etl-scripts. Omdat Apache Drill Ansi sgl ondersteunt, zijn zowel alle aanwezige sql-kennis en -vaardigheden te benutten als ook bestaande business intelligence tools te gebruiken.
Het integreren van Apache Drill en Spark vereenvoudigt de ontwikkeling van datapijplijnen en maakt Drill-gebaseerde ad-hoc sql-queries mogelijk op in-memory data. Het initiatief van MapR om Apache Drill te integreren met Apache Spark’s snelle in-memory dataverwerking, levert een krachtige combinatie op. De ondersteuning van MapR voor de volledige Spark stack, biedt Drill-gebruikers de mogelijkheid om geavanceerde datapijplijnen te creëren en te analyseren met een mix van Drill’s flexibiliteit en Spark’s batchverwerking.