Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (November 2024)
Een ding dat indruk maakte op de Bloomberg Enterprise Technology Summit van gisteren was de focus op het omgaan met data op nieuwe manieren - met andere woorden, omgaan met wat vaak "big data" wordt genoemd.
Sommige van de gesprekken gingen over de waarde van big data, en of het echt een "triljoen dollar kans" was, terwijl andere de specifieke uitdagingen van individuele organisaties en de industrie als geheel onder ogen zagen bij het breder inzetten van deze nieuwe technieken.
Gerard Francis, wereldwijd hoofd van Bloomberg Enterprise Solutions, Bloomberg LP begon de dag met de suggestie dat het belangrijkste wat bedrijven kunnen doen, is 'profiteren van de waarde van gegevens door deze te gebruiken' en zich te concentreren op de toegang, kwaliteit en stroom van gegevens binnen een organisatie. In de daaropvolgende panels werd er veel gepraat over nieuwe tools die met gegevens omgaan, en over specifieke problemen bij het opslaan, beheren en vinden van de mensen om met de gegevens om te gaan.
In een algemeen panel over bedrijfstrends zei Dwight Merriman, voorzitter en mede-oprichter van MongoDB, dat de gegevenslaag van het applicatiespoor 'de grootste verstoring en verandering heeft die we in 25 jaar hebben gezien'. Hij zei dat bedrijven al 25 jaar of langer relationele databases gebruiken, waardoor dat de oudste technologie in de stapel is. Maar nu gebeuren er dingen met op bestanden gebaseerde opslag, zoals Hadoop en nieuwe databasetechnologieën, vaak gegroepeerd als "NoSQL". Hij benadrukte dat Big Data niet gaat over "big", maar eerder over de vorm van data, de soorten data en de stap naar het omgaan met realtime data.
Google Fried Information Officer Benjamin Fried was het ermee eens dat de meeste ondernemingen geen "big data" -problemen hebben. Veel van de datasets - met zaken als HR-gegevens en financiële gegevens - zijn niet zo groot, zei hij. Wat belangrijk is, is de flexibiliteit die u nodig hebt om goed met de gegevens om te gaan.
Wat is big data eigenlijk?
Dat concept - die flexibiliteit is net zo belangrijk als de grootte van de gegevens - werd later op de dag in een ander paneel weerspiegeld. Daar waren de deelnemers het erover eens dat bedrijven al heel lang te maken hebben met data-zware applicaties, maar de schaal is recent veranderd. Mark F. Bregman, Senior Vice President en Chief Technology Officer van Neustar, merkte bijvoorbeeld op dat sommige bedrijven nu "alles opslaan" in de hoop dat het waardevol zal zijn.
"Big wordt beter gedefinieerd als complexiteit", aldus Gary Bloom, CEO en President van MarkLogic. Hij merkte op dat veel zogenaamde "big data" -applicaties veel verschillende soorten data omvatten, maar niet het soort volume waar je normaal gesproken van hoort in "big data" -applicaties.
Hij noemde een voorbeeld van luchtverkeer dat weergegevens, luchthavengegevens, geografische gegevens, vluchtgegevens, boekingsgegevens van luchtvaartmaatschappijen en sociale gegevens combineert. Hij merkte op dat het omgaan met heterogene gegevens echt moeilijk te doen was met traditionele relationele databases, wat eerdere opmerkingen van Merriman van MongoDB weerspiegelde dat dit de "eerste generatieverschuiving in database in 25 jaar" was sinds we van mainframe naar het tijdperk van relationele databases zijn overgestapt.
Hij merkte op dat veel mensen over sociale media-gegevens praten, maar het moet echt worden gecombineerd met andere gegevens om echt iets te hebben waarop je kunt profiteren. Het combineren van deze gegevens is 'de echte waarde'.
Natuurlijk bevatten sommige toepassingen veel informatie, waarbij Bregman zegt dat heterogeniteit slechts één factor is. Hij citeerde DNS-gegevens, die gemakkelijk 8 TB aan informatie per dag kunnen genereren, en de noodzaak om dergelijke dingen in Hadoop op te slaan. Bregman en de anderen merkten op dat als het gaat om 'gegevenskapitalisatie', de echte waarde niet in de onbewerkte gegevens zit, maar in de analyse wanneer het iets wordt dat u kunt gebruiken. De anderen op het paneel waren het daarmee eens.
Streambase CEO Mark Palmer zei dat het combineren van grote hoeveelheden gegevens met streaming-analyse belangrijk was in veel applicaties; en sprak over de extra waarde die kon worden gecreëerd door traditionele en realtime analyses te combineren.
Maar hij was het ermee eens dat de complexiteit van gegevens een probleem is. Hij citeerde hoe Vivek Ranadivé, die Tibco runt (die nu eigenaar is van Streambase), een basketbalteam kocht om erachter te komen hoe technologie de ervaring van de fan kan verbeteren. Hij sprak opnieuw over "verschillende soorten gegevens samenvoegen", beginnend bij een Twitter-stream maar ook gebruik makend van andere soorten gegevens.
Bloom merkte op dat alles afhangt van de toepassing en zegt dat "latentie in het oog van de toeschouwer is." Sommige toepassingen moeten de gegevens op de draad ontleden voordat deze zelfs de database raakt, terwijl andere dat niet doen.
Bregman bracht de kwestie naar voren dat het in plaats van dat het moeilijk is om rekenbronnen te verplaatsen, het nu veel moeilijker wordt om de gegevens te verplaatsen. Hij merkte op dat voor veel toepassingen de "lock-in" de locatie van de gegevens is. Nadat u uw gegevens in een openbare cloud heeft opgeslagen, is het erg moeilijk om ze te verplaatsen. Als gevolg hiervan, zei hij, willen veel organisaties enorme hoeveelheden gegevens op hun eigen locaties opslaan en vervolgens naar verschillende providers kunnen overstappen voor de rekenfunctionaliteit. Hij leende een term van MarkLogic's Bloom en vertelde hoe organisaties een "datacenter datacenter" nodig kunnen hebben als een plek waar je enorme hoeveelheden data kunt bewaren.
Is big data een 'triljoen dollar kans'?
Porter Bibb van MediaTech Capital Partners, Cloudera's Doug Cutting, Snaplogic's Gaurav Dhillon en Jason Kelly van Bloomberg LinkEen ander panel besprak de kansen en uitdagingen van big data, en reflecteerde op een opmerking van Porter Bibb, Managing Partner bij MediaTech Capital Partners. Bibb zei dat er feitelijk meer dan een triljoen dollar voordelen is voor bedrijven die de nieuwe technieken gebruiken. Tot op heden, zei hij, zijn we "nog niet eens begonnen met het benutten van het potentieel dat deze technologie biedt."
Bibb sprak over hoe belangrijk het was voor organisaties om hun datastrategie af te stemmen op de bedrijfsstrategie en vreesde dat de meeste bedrijfs- en overheidssystemen niet op elkaar zijn afgestemd.
In die eerste sessie zei Scott Weiss van Andreessen Horowitz dat "Hadoop zoals cryogene opslag is", dus moderator Jason Kelly van Bloomberg Link vroeg Cloudera Chief Architect Doug Cutting, die in de eerste plaats een van de makers van Hadoop was, hoe hij het zag dat.
Snijden zei dat Hadoop mensen in staat stelt met meer gegevens te werken. Hij zei dat organisaties gegevens van tape halen, in plaats daarvan online en bruikbaar maken. Klanten gaan over van het werken met 90 dagen aan gegevens naar vijf of 10 jaar aan gegevens in een "actief archief".
Een aantal specifieke problemen in verband met het omgaan met al deze gegevens kwamen in dit panel opnieuw aan de orde. Snaplogic CEO Gaurav Dhillon sprak over 'data-zwaartekracht' en zei dat het geen zin heeft om data die zich in Hadoop op locatie bevindt te nemen en die naar de cloud te verplaatsen. Maar tegelijkertijd, als er gegevens in de cloud zijn, zoals click-stream-analyse, heeft het geen zin om dat ter plaatse te verplaatsen. Dientengevolge, zei hij, zag hij heel weinig "grensoverschrijdende mogelijkheden" bij het verplaatsen van de gegevens.
Cutting zei dat hij niet geloofde dat er echt een tekort was aan datawetenschappers. In plaats daarvan zei hij dat er veel mensen zijn die wiskunde en bedrijfskunde begrijpen, maar ze hebben gewoon niet de tools. Je leert de basis van de tools en wat ze doen in een paar weken, zei hij, maar het begrijpen van je bedrijf kost jaren. Toch zijn er veel mensen die dat wel begrijpen.
Dhillon gaf ook uiting aan zijn bezorgdheid over wetgeving die handelt over welke informatie waar kan worden opgeslagen. Hij zei dat sommige verticale markten vereisen dat informatie ter plaatse wordt opgeslagen, maar maakte zich zorgen over dingen zoals vereisten om gegevens niet uit het land van oorsprong te verplaatsen. Veel hiervan is een overdreven reactie op dingen zoals de onthullingen van Snowden en datalekken, zei hij, en hij merkte op dat 'een haast om wetgeving vast te stellen nooit goed is'.
Gevraagd of hij zich zorgen maakte dat de inbreuken op Snowden en Target klanten bang maakten voor gegevens, zei Cutting dat hij zich zorgen maakte dat zoveel mensen zich zorgen maken. Veel mensen zijn bang voor technologie, zei hij, en het was een mislukking van de industrie om klanten comfortabel te maken in de gedachte dat hun gegevens niet werden gebruikt. "Je hoeft niet eng te zijn, " zei hij.
Aan het eind was er veel discussie over waarderingen, waarbij Bibb suggereerde dat de recente Intel-investering in Cloudera een "big deal" was, omdat dit bevestigt wat het bedrijf doet. Hij zei dat andere grote bedrijven zoals Oracle, IBM, Microsoft en Amazon rond voorspellende analysebedrijven zweefden. "De goudkoorts begint net."
Dhillon zei dat de waarderingen een weerspiegeling zijn van wat loodgietersbedrijven brengen naar de big data-markt. Hij zei dat hij blij was te zien dat zulke "pick and shovel" -jongens goede waarderingen kregen, maar zei dat hij een beetje bang was dat de waarderingen de markt voorlopen.
Bibb zei dat hij dacht dat big data overbelicht zou kunnen zijn in de media, maar het is onderbelicht in de "c-suite" (wat betekent CEO's, CFO's en andere topmanagers.) Hij zei dat het een "enorm economisch potentieel heeft dat nog moet worden ontdekt."