Video: Big Data en hoe wij er betekenis aan geven (November 2024)
Bedrijven krijgen geen punten voor hoe efficiënt hun infrastructuur draait of hoe hoog ze alle Big Data kunnen verzamelen die ze verzamelen. Wat wel telt, is de kwaliteit van de analyses en intelligentie die gegevens produceren.
In de afgelopen jaren is Hadoop het woord dat het meest synoniem is geworden voor het opnemen, verwerken en transformeren van gegevens. Dit open-source framework voor gedistribueerde gegevensopslag en -verwerking heeft zijn eigen bedrijfsruimte voortgebracht en zijn weg geïntegreerd in alle belangrijke cloudplatforms. Hadoop is verre van de enige Big Data-technologie die het waard is om over te praten, maar het is degene geworden waarop vele anderen zijn gebouwd.
Het probleem voor bedrijven is dat de Hadoop-ruimte vol is met distributies en tooling-opties, en zoals Nick Heudecker, onderzoeksdirecteur van Gartner, er hetzelfde uitziet. Heudecker, wiens onderzoek informatiebeheer omvat, waaronder de Big Data- en NoSQL-ruimtes, zei dat als je naar de algemene opties voor gegevensverwerking kijkt, veel leveranciers zeer vergelijkbare functies bieden.
De markt doorbreken
Er zijn drie belangrijke pure-play Hadoop-startups - Cloudera, Hortonworks en MapR - en ze zijn allemaal gestaag gegroeid in 2015. Volgens Gartner heeft elk ongeveer 700 klanten, geven of nemen 10 procent, waardoor de wereldmarkt tussen 2.100-2.400 Hadoop-klanten wereldwijd. Alle drie bieden zowel een gratis laag als een ondernemingslaag van hun Hadoop-distributie en leveren elk aanzienlijke open-sourcebijdragen aan projecten onder de vlag van Apache Software Foundation (ASF).
"Onze gegevens geven aan dat 44 procent van het gebruik van Hadoop momenteel onbetaald is", zegt Heudecker. "Is er een duidelijke leider? Ik denk het niet. Ze veroveren allemaal marktaandeel omdat het een heel nieuwe ruimte is."
In de afgelopen maanden is een groot deel van de concurrentie tussen de drie neergekomen op concurrentie om gegevensanalysemogelijkheden en creatieve manieren om Apache Spark te integreren, een open-source Big Data-verwerkingsengine met gebruiksscenario's van realtime gegevensstromen tot machinaal leren. MapR heeft onlangs MapR Streams aangekondigd als onderdeel van een "geconvergeerd dataplatform" waarin Hadoop, op Spark gebaseerde stroomverwerking en analyses zijn geïntegreerd. Hortonworks heeft een update voor het Hortonworks Data Platform (HDP) uitgerold met Spark-analyse in het geheugen, en Cloudera biedt een verscheidenheid aan open-source Spark-integraties via zijn One Platform Initiative, samen met het aanbieden van Spark-trainingslessen.
"Er gebeurt veel op het gebied van informatiebeheer en informatie-infrastructuur, en het is niet allemaal Hadoop", legt Heudecker uit. "Er is een enorme impuls achter de snelheid en het geheugengerichte gegevensverwerkingsmodel van Spark, hoewel de ontwikkeling van Spark zich nog in een vroeg stadium bevindt. Spark zal een andere lingua franca zijn in gegevensverwerking, net als SQL vandaag, en vertoont zeker tekenen dat het enkele benen heeft naarmate meer en meer bedrijven erin investeren."
Heudecker benadrukte ook het belang van de cloudspelers in Big Data; de technische reuzen die Hadoop en andere Big Data-technologieën hebben geïntegreerd in hun bestaande aanbod van Infrastructure-as-a-Service (IaaS).
Amazon Web Services (AWS) gebruikt zijn Amazon Elastic MapReduce (EMR) -service voor cloudgebaseerde Hadoop-orkestratie. Microsoft biedt een hele reeks Big Data-services binnen zijn Azure-cloudplatform en werkt samen met Hortonworks aan de HDInsight-service voor het beheer van Apache Hadoop, Spark, HBase en Storm, samen met zijn SQL-gebaseerde Azure Data Lake en Azure Data Analytics. IBM heeft zowel zijn on-premise IBM Open Platform-aanbod voor Hadoop als IBM BigInsights, een analysepakket dat daarop kan worden uitgevoerd, samen met managed Hadoop en Apache Spark-as-a-service in de Bluemix-cloud. De lijst gaat verder en bedrijven vinden de meer toepasselijke gebruiksscenario's in de cloud.
"We schatten dat alleen AWS ongeveer 5.000 klanten heeft, dus dat is meer dan het dubbele van het klantenbestand van de pure-plays gecombineerd", zei Heudecker. "Een van de voordelen van overstappen naar de cloud is dat je een ecosysteem krijgt. Je kunt de pure-play Hadoop-distributies krijgen voor elk IaaS-aanbod. MapR is beschikbaar in alle clouds die je maar kunt bedenken, behalve die van IBM; hetzelfde voor Cloudera en Hortonworks. We hebben niet gezien dat cloudbeschikbaarheid een te grote factor werd bij het kiezen tussen de ene leverancier en de andere."
Een bedrijfsdatastrategie kiezen
Voor zowel kleine als middelgrote bedrijven (MKB's) en groeiende ondernemingen, zei Heudecker bij het investeren in oplossingen voor gegevensverwerking en analyse de beslissende factor welk platform het hoogste serviceniveau kan bieden. De grootste uitdaging voor bedrijven is volgens Gartner de vaardigheidskloof - uitzoeken wie het platform gaat beheren zodra het is geïnstalleerd en geïmplementeerd.
"Als bedrijven op zoek zijn naar een dataplatformpartner, wie gaat hen dan helpen met data-inname? Wie gaat hen helpen bij het bouwen van de analytische applicatie? Voor zover de drie pure-play Hadoop-ers zijn de evaluatiecriteria meestal rond de volwassenheid van de managementtools en consoles, de data governance-tools en de prestaties."
Het andere interessante aspect van het kiezen van een Hadoop-platform is een gebrek aan loyaliteit. Bedrijven evalueren hun Hadoop-platform zo vaak als elke 6-12 maanden opnieuw om te zien of de gegevensverwerkingscomponenten nog steeds geschikt zijn, vanwege de snelheid waarmee de ruimte verandert en hoe weinig de grote spelers zich hebben onderscheiden. Heudecker zei dat 20 procent van de bedrijven die hij heeft gesproken meerdere Hadoop-distributies in hun datacenters of cloud hebben, ofwel verschillende teams hun favoriete platform laten kiezen of opzettelijk diversifiëren om te voorkomen dat ze vast komen te zitten met slechts één Hadoop-distributie.
Dit soort gediversifieerde platformportfolio past in wat Frank Buytendijk, een Gartner Research Vice President en Distinguished Analyst gericht op digitale strategie, "informatie als een pluspunt" noemt. Alsof je geen bedrijf kunt runnen zonder kapitaal, arbeid, materialen en fysieke of virtuele faciliteiten, zei Buytendijk dat je geen bedrijf kunt runnen zonder informatie.
"Vroeger keken we naar zaken in termen van de drie stromen: de primaire stroom waren goederen, de secundaire stroom was geld, en tertiaire stroom was informatie om ervoor te zorgen dat de goederen en het geld op elkaar afgestemd waren.. De primaire stroom is informatie, van identificatie en configuratie tot contentmarketing, enz. Of je dat Big Data noemt of niet, doet er eigenlijk niet toe."
"Big Data" is verouderd
Buytendjik zei dat hij Big Data niet als een afzonderlijke technologie voor bedrijven ziet, maar als een thema of mindset binnen uw algemene digitale strategie.
"Ik geloof niet in het hebben van een Big Data-strategie, " zei Buytendjik. "Er is nauwelijks een bedrijfsstrategie meer zonder digitale componenten, dus ik geloof in een digitale strategie waarin allerlei technologieën cruciale mogelijkheden bieden. Dit omvat mobiel, sociaal, cloud, IoT, slimme machines en Big Data."
Heudecker gelooft dat we steeds minder over "Big Data" gaan praten, omdat het nu alleen maar data is. Het is de manier waarop zaken worden gedaan. Enorme volumes en hoge snelheid van gegevens zijn niet langer ontmoedigend.
"Big Data wordt opnieuw overspoeld met informatie en analyses", zegt Heudecker. "De categorie Big Data maakt eerlijk gezegd geen onderscheid. We worden altijd gevraagd naar de omvang van de Big Data-markt, maar wat betekent dat eigenlijk? Big Data is niet echt een markt, het is een concept. Voor een bedrijf denken Big Data aan iets unieks en speciaals dat radicaal anders is dan wat je eerder hebt gedaan, is een fout. Op dit moment zijn gegevens gewoon normaal."