Big data is een nieuwe term binnen het it-jargon. Maar wat wordt er eigenlijk met big data bedoeld?
De term big data wordt op twee manieren gebruikt en dat levert nogal eens wat spraakverwarring op. Met big data bedoelen we meestal big data storage of big data analytics.
Big data storage
Big data storage is het opslaan van zeer grote hoeveelheden ongestructureerde data, oftewel een bizarre hoeveelheid files. De omvang is meerdere petabytes aan gegevens in miljarden files. Normale file servers of nas-oplossingen bieden niet voldoende schaalbaarheid om zoveel files beheerbaar en betaalbaar op te slaan. Voor big data storage zijn dus specifieke oplossingen nodig, waarbij de totale omvang wordt bereikt door samenwerking van een veelvoud aan systemen die benaderd en beheerd worden als één geheel. De grootste systemen bieden een totale omvang van op dit moment maximaal tot 16 petabyte (HP IBrix/X9000, EMC Isilon, IBM Sonas, enzovoorts). Voor de beeldvorming: 16 petabyte aan gegevens is op dual-layer blue-ray schijfjes (zonder doosje) een stapel hoger dan de Eiffeltoren.
Big data analytics
Big data analytics is een nieuwe vorm van data warehousing, waarbij wederom de schaal groter is dan we gewend zijn. De uitdaging hier is vooral hoe je op een snelle manier deze hoeveelheid gegevens kunt analyseren. Traditionele datawarehouse- en business intelligence-oplossingen laden één keer per dag de nieuwe data en zijn dan vooral goed in het uitvoeren van vaste gedefinieerde analyses (queries). Voor een toenemend aantal klanten is dat echter niet meer voldoende; zij willen ad-hoc queries kunnen doen op real-time data. Voorbeelden zijn vooral bedrijven die veel consumententransacties doen, denk aan grote retailers en webbedrijven. Oplossingen zijn onder andere HP Vertica, EMC GreenPlum, IBM InfoSphere en Hadoop.
Link
De link tussen deze termen is dat big data analytics meestal big data storage nodig heeft. De toepassing van big data storage zelf is echter veel breder dan alleen big data analytics. Big data storage zien we bijvoorbeeld terug voor archieven en webcontent; als het maar veel ongestructureerde gegevens zijn.
Hoi Remko,
Mooi artikel, dit geeft mensen veel duidelijkheid omtrent het buzz-word “Big Data”.
Doordat EMC Isilon begon met de term Big Data en daarna andere vendors kwamen met de term Big Data in BI/Datwarehouse omgevingen, was ik de draad kwijt.
Na wat stukken te hebben gelezen begreep ik het onderscheid, echter ik begreep dat Big Data Storage voornamelijk gaat om de grootte van de bestanden en niet zozeer om de hoeveelheid bestanden. Big Data omvat in dat geval voornamelijk data uit de media-, research-, healthcare-wereld, etc..
Als we bijvoorbeeld kijken naar EMC Isilon, is dit product juist getuned op dit soort grote bestanden.
Gezien de grootte van de filesystems in de Big Data storage systemen, begrijp ik dat het automatisch ook gaat om de hoeveelheid data.
Beste Denys,
Uit eigen ervaring en ervaring van een aantal van onze klanten kan ik je vertellen dat EMC Isilon niet alleen geschikt is voor hele grote bestanden maar ook zeer goed te gebruiken is voor grote hoeveelheden kleine bestanden. Bij grote hoeveelheden heb ik het al snel over omgevingen met enkele biljoenen files op een single filesystem.
Wat dat betreft schaalt Isilon beide kanten op.