Video: Welke 4 skills heeft een data-analist nodig? (November 2024)
De Big Data-revolutie heeft de manier waarop ondernemingen werken opnieuw gedefinieerd; data ondersteunt alles. Niet alleen hebben open-source tools zoals Apache Hadoop en Spark het gemakkelijker maken om grote hoeveelheden gegevens in realtime te verzamelen, te verwerken en op te slaan, maar business intelligence (BI) en datavisualisatiehulpmiddelen zijn begonnen om ons te helpen de oppervlakte van analyse te doorbreken en het transformeren van die gegevens om belangrijke zakelijke beslissingen te nemen.
Ondanks hoeveel Big Data en BI-technologie er is geëvolueerd, hebben we nog steeds te maken met zulke enorme hoeveelheden constant samengestelde gegevens dat het vinden van de juiste punten voor analyse nog steeds voelt als duiken naar naalden in een nooit eindigende hooiberg. De oplossing? De hooiberg opnieuw ontwerpen.
Voer datameren in, een nieuw type cloudgebaseerde enterprise-architectuur die gegevens op een schaalbaardere manier structureert waarmee u gemakkelijker kunt experimenteren; maakt het meer open voor verkenning en manipulatie in plaats van opgesloten in rigide schema's en silo's. Nasry Angel, een Enterprise Architecture Researcher bij Forrester Research, legde uit waarom bedrijven data lake-architecturen omarmen.
"Het klinkt cliché, maar als je denkt aan een effectieve moderne data-omgeving, is het een stuk experimenteler", zegt Angel. "Je moet snel kunnen leren en snel kunnen falen. In het verleden ging het bij het beheren van gegevens, vooral in een magazijn, om kwaliteit, tot op de komma; om ervoor te zorgen dat alles volledig accuraat en waar was. Het wordt achtervolgen genoemd versie van de waarheid. Genereer vervolgens een pixel-perfect rapport en blaas het uit naar 5.000 gebruikers.
"Tegenwoordig is het een meer wetenschappelijk proces. Je komt binnen met een hypothese over de gegevens die je wilt testen en je wilt met de gegevens kunnen spelen, mixen en matchen, om verschillende dingen uit te proberen voordat je iets gaat produceren."
Wat zit er in een datameer?
Een gegevensmeer is een opslagrepository. In tegenstelling tot een datawarehouse of 'data mart', legde Angel echter uit dat datameren over meerdere knooppunten worden verdeeld in plaats van in de vaste, gestructureerde omgeving van een datawarehouse dat afhankelijk is van schema's (zie onderstaande infographic).
"Met een gegevensmeer kunt u een schema toepassen wanneer u de gegevens schrijft versus een gegevensmagazijn waarvoor u een schema moet lezen tijdens het lezen. Dus in wezen vereist een gegevensmagazijn dat u de gegevens modelleert voordat u de context begrijpt, wat niet is niet echt logisch, "zei Angel.
Bron: JustOne Database, Inc. (Klik op de afbeelding hierboven om de volledige weergave te zien.)
"Normaal gesproken hebben IT-professionals in een magazijn wat volgens hen de beste datamodellen zijn, en zij zijn niet de uiteindelijke gebruikers van de gegevens. U kunt snel zien hoe dat de productiviteit en bedrijfswaarde belemmert, " voegde hij eraan toe. "Uiteindelijk moeten jij en de zakelijke gebruikers degenen zijn die beslissingen nemen over de structuur van gegevens, en in een gegevensmeer kun je eerst verkennen en uitzoeken wat er is en dan een schema bedenken om het het beste te organiseren."
Datameren worden meestal gebouwd op Hadoop en Hadoop-distributies van bedrijven zoals Hortonworks en MapR bieden datameerarchitecturen. Bedrijven kunnen ook datameren bouwen met behulp van Infrastructure-as-a-Service (IaaS) clouds, waaronder Amazon Web Services (AWS) en Microsoft Azure. Amazon's Elastic Compute Cloud (EC2) ondersteunt datameren, terwijl Microsoft een speciaal Azure Data Lake-platform heeft om realtime gegevens op te slaan en te analyseren. Angel zei dat datameren tot het punt aan het rijpen zijn binnen de Big Data-ruimte waar bedrijven met redelijk vertrouwen in hen kunnen beginnen te investeren.
"Een paar jaar geleden was Hadoop woedend. Nu komen we op een punt waar Hadoop gecommititiseerd wordt", zei Angel. "De vraag is niet of Hadoop, maar wanneer en wat je ermee gaat doen. Welke soorten applicaties ga je bovenop Hadoop bouwen als je de gegevens eenmaal hebt verzameld in een gemeenschappelijke plaats zoals een gegevensmeer? Op dit moment gaat het om het gebruiken van de gegevens om applicaties te ontwikkelen die voldoen aan uw specifieke zakelijke behoeften."
Bouwen bovenop een gegevensreservoir
Het meest opwindende deel van Big Data is de mogelijkheid die het ontgrendelt. Nadat u een datameer hebt opgezet waarin u kunt spelen en experimenteren met verschillende gegevenscombinaties en bedrijfsresultaten, kunt u beginnen met innovatieve analysetechnieken.
Machine learning (ML) -algoritmen worden al onderdeel van de structuur van cloudinfrastructuur en onderzoekers verbeteren voortdurend diepleertechnieken en neurale netwerken om machines en gegevenssystemen te trainen om complexe patronen te herkennen. Voorspellende analyses worden ook in steeds meer datatools en enterprise-platforms ingebakken, die voor alles worden gebruikt, van voorspellende scores en geautomatiseerde segmentatie voor klantrelatiebeheer (CRM) tot het identificeren van trends in de financiële markt en het preventief vangen van mechanische storingen in machines.
Dit alles gebeurt bovenop de gegevensopslag die uw bedrijf voedt en schaalt volgens zijn behoeften. Angel sprak over enkele praktijkgevallen waarin hij gezien heeft dat datameren de manier veranderen waarop organisaties functioneren.
"Ik werkte met een uitgeverij met een portfolio van verschillende tijdschriften - ze hebben een publicatie voor advocaten, een andere voor accountants, een andere voor consultants, enz. - en elke publicatie had zijn eigen datawarehouse. In feite had elke publicatie zijn eigen silo, "legde Angel uit.
"Dus hebben we alle gegevens uit een magazijn geëxtraheerd en in een datameer geplaatst, en door het datameer konden ze door silo's heen kijken. Ze waren in staat om de gegevens te verkennen en gegevens te ontdekken, en beseften dat in al deze verschillende publicaties, klanten uit elk tijdschrift waren geïnteresseerd in cybersecurity. Het lezerspubliek voor cybersecurity was sterk in al deze verschillende rollen. Dus wat deden ze? Ze maakten cybersecurity het thema van hun jaarlijkse conferentie."
Een ander voorbeeld waar Angel het over had, is e-commerce. Een andere klant, een online kunsthandel, gooide een hoop informatie in een datameer en gebruikte het niet alleen als repository, maar ook als een soort canvas om bedrijfsinzichten samen te brengen. De detailhandelaar bracht transactiegegevens (bestellingen, facturen, betalingen, enz.), Clickstreamgegevens (opeenvolgende klikken en pagina's van elke websitebezoeker) en gegevens uit het gegevensmagazijn van de detailhandelaar naar het meer en gebruikte deze in overleg om winkelwagen te bestrijden verlaten en conversies.
"Je wilt bovenop een datameer bouwen en het gebruiken om complexe zakelijke inzichten te formuleren, " zei Angel. "De kunsthandelaar kon de clickstream-gegevens van een klant bekijken en klikken koppelen aan klantprofielen, vervolgens transactiegegevens gebruiken om te zien wat de klant in het verleden heeft gekocht en die inzichten gebruiken om zeer specifieke e-mailcampagnes uit te voeren. Dus, als een klant verliet hun winkelwagentje, kon de detailhandelaar twee uur later opvolgen en zeggen: 'We zagen dat je deze Picasso aan het bekijken was; hier is de link als je er nog een keer naar wilt kijken.'"
Datameren zijn universeel toepasbaar in alle soorten zakelijke gebruikstoepassingen. Maar voor een Chief Technical Officer (CTO) of Chief Information Security Officer (CISO) die overweegt om naar de architectuur te migreren, benadrukte Angel dat datawarehouses nog niet verouderd zijn, nog lang niet. Voor de meeste zakelijke organisaties, of u nu een cloudprovider of een aangepaste Hadoop-distributie gebruikt, hebben bedrijven beide nog steeds nodig.
Datameren geven u toegang tot ongeëvenaarde inzichten door de limieten voor het conformeren van gegevens aan een bepaald schema te verwijderen en komen met veel lagere totale eigendomskosten, gezien het gebruik van goedkope, flexibele cloudopslag zoals AWS om op en neer te schalen - terwijl alleen betalen voor de verwerkingskracht die u daadwerkelijk gebruikt. Het runnen van een datawarehouse is duurder en maakt IT-professionals bijgevolg selectiever over welke data er in en uit komt. Maar voor de meest missiekritieke gegevens van een onderneming is dat geen slechte zaak.
"Het datawarehouse heeft voordelen op het gebied van beveiliging en is een zeer eenvoudige tool om data governance te beheren, " zei Angel. "Dus u wilt nog steeds uw meest gevoelige informatie in het magazijn bewaren, de missiekritieke dingen. Maar als het gaat om nieuwe zakelijke kansen en het ontdekken van verborgen inzichten, wilt u gebruikmaken van een datameer."