Huis Bedrijf Big data basics: hoe een data governance plan te bouwen

Big data basics: hoe een data governance plan te bouwen

Video: Data Governance vs. Big Data Governance (November 2024)

Video: Data Governance vs. Big Data Governance (November 2024)
Anonim

We hebben veel geschreven over de rol van gegevens in moderne bedrijven. Van startups en kleine tot middelgrote bedrijven (MKB's) tot grote ondernemingen, gegevensinzichten en analyses zijn toegankelijker voor bedrijven van elke omvang dan ooit tevoren. Dit is gedeeltelijk te danken aan de opkomst van self-service business intelligence (BI) en datavisualisatiehulpmiddelen.

Voordat u BI-tools kunt gebruiken of voorspellende analyses kunt uitvoeren op een gegevensset, zijn er echter een aantal factoren die u kunt oplossen. Het begint met eenvoudig begrijpen wat Big Data is, wat het niet is (hint: geen kristallen bol) en hoe gegevensopslag, organisatie, machtigingen en beveiliging binnen uw bedrijfsgegevensarchitectuur kunnen worden beheerd. Dit is waar data governance binnenkomt. De processen waarmee u governance binnen een onderneming verzekert, verschillen afhankelijk van met wie u praat. Maar in de kern gaat gegevensbeheer over gegevensvertrouwen en verantwoordingsplicht, gecombineerd met uitgebreide best practices voor gegevensbeveiliging.

Ik sprak met Hortonworks en MapR, twee van de grootste onderneming Hadoop-leveranciers op de markt. Scott Gnau, Chief Technology Officer bij Hortonworks, en Jack Norris, Senior Vice President Data and Applications bij MapR, legden elk uit wat data governance voor hun organisaties betekent. Ze bespraken hoe de complexe uitdaging van het waarborgen van gegevensbeheer binnen de complexe gegevensarchitecturen en organisatiehiërarchieën van een grote onderneming kan worden aangepakt.

Wat precies is Gegevensbeheer en waarom hebben we het nodig?

Governance betekent ervoor zorgen dat bedrijfsgegevens worden geautoriseerd, georganiseerd en geautoriseerd in een database met zo min mogelijk fouten, met behoud van zowel privacy als veiligheid. Het is geen gemakkelijke balans om aan te slaan, vooral wanneer de realiteit waar en hoe gegevens worden gehuisvest en verwerkt constant in beweging is. Norris van MapR legde uit waarom bedrijven van een hoger niveau naar gegevensbeheer moeten kijken en zich moeten concentreren op de grotere gegevenspijplijn die in het spel is.

"Wanneer je begint met het schalen van de variëteit en snelheid van de Big Data waar we mee te maken hebben, moet je data governance hebben, maar het is in deze bredere context. Welke gegevens heb je, wie heeft er toegang toe, en hoe gaat het de lijn van die gegevens in de loop van de tijd beheren? " zei Norris. "Vanuit het oogpunt van gegevensbeheer kunt u verschillende stadia van de gegevens in een systeem hebben die kunnen worden gefotografeerd, zodat u op elk moment in de pijplijn kunt terugkeren. Het gaat om het inbouwen van auditability en toegangscontrole in het gegevensplatform om gegevensontdekking en analyse zijn transparant, of u nu een bedrijfsmanager bent die naar financiële gegevenssets kijkt of een gegevenswetenschapper die werkt met onbewerkte stroomopwaartse gegevens."

Bron: Rimes. Klik op de afbeelding voor volledige weergave.

Gnau van Hortonworks volgde een soortgelijk punt. Of het nu gaat om een ​​datawarehouse of data lake-architectuur, data governance gaat over het balanceren van tegengestelde krachten. Het gaat om onbelemmerde gegevenstoegang om innovatie te stimuleren en inzichten te verkrijgen, en gedetailleerde machtigingen en privacy om die gegevens tegelijkertijd volledig te beschermen.

"Vergelijk en contrasteer de oude wereld van traditioneel bestuur in de gegevensruimte; het was een beetje eenvoudiger", aldus Gnau. "Vroeger waren gegevens goed gedefinieerd per functie of toepassing. In de nieuwe wereld krijg je de meeste waarde wanneer datawetenschappers toegang hebben tot zoveel mogelijk gegevens en het vinden van dat gelukkige medium erg belangrijk is.

"Het drijft een heel nieuw paradigma aan in hoe je governance moet benaderen, " voegde Gnau toe. "In deze nieuwe wereld overweeg ik governance- en beveiligingsonderwerpen die samen moeten worden behandeld. Veel bedrijven worstelen nog steeds om dat te doorlopen om hun datawetenschappers in staat te stellen die nieuwe use cases effectief te vinden en tegelijkertijd, inzicht in hoe om te gaan met beveiliging, privacy, governance - alle dingen die belangrijk zijn vanuit een bottom-line perspectief en ook vanuit een bedrijfsreputatieperspectief."

Hoe moet een enterprise data governance plan al die tegengestelde krachten omvatten en bevredigen? Door elke eis methodisch aan te pakken, stap voor stap.

Hoe een Data Governance Plan te bouwen

Hortonworks, MapR en Cloudera zijn de drie grootste onafhankelijke spelers in de Hadoop-ruimte. De bedrijven hebben hun eigen invloedssfeer als het gaat om data governance. MapR heeft een aantal whitepapers over dit onderwerp uitgebracht en data governance gebouwd in zijn Converged Data Platform, terwijl Hortonworks een eigen oplossing voor data security en governance heeft en medeoprichter van het Data Governance Initiative (DGI) in 2015. Dit leidde tot de openheid -bron Apache Atlas-project dat een open raamwerk voor gegevensbeheer biedt voor Hadoop.

Maar als het gaat om hoe elke leverancier uitgebreide strategieën voor gegevensbeheer en beveiliging maakt, spraken Gnau en Norris beide langs dezelfde lijnen. Hierna volgen de gecombineerde stappen die Hortonworks en MapR aanbevelen aan bedrijven om rekening mee te houden bij het bouwen van een data governance plan.

De grote: granulaire gegevenstoegang en autorisatie

Beide bedrijven zijn het erover eens dat u geen effectief gegevensbeheer kunt hebben zonder gedetailleerde controles. MapR doet dit voornamelijk via Access Control Expressions (ACE's). Zoals Norris heeft uitgelegd, gebruiken ACE's groepering en Booleaanse logica om flexibele gegevenstoegang en autorisatie te regelen, met op rollen gebaseerde machtigingen en zichtbaarheidsinstellingen.

Hij zei erover te denken als een Gartner-model. Op de Y-as aan de onderkant bevinden zich strikt bestuur en lage wendbaarheid, en op de X-as aan de bovenkant bevinden zich hogere wendbaarheid en minder bestuur.

"Op het lage niveau beschermt u gevoelige gegevens door deze te verdoezelen. Bovenaan hebt u vertrouwelijke contracten voor gegevenswetenschappers en BI-analisten, " zei Norris. "We doen dit meestal met maskeermogelijkheden en verschillende weergaven, waarbij je onbewerkte gegevens zoveel mogelijk onderaan vergrendelt en geleidelijk meer toegang geeft totdat je aan de bovenkant beheerders een bredere zichtbaarheid geeft. Maar hoe geef je toegang tot de juiste mensen?

"Als je vandaag naar een toegangslijst kijkt, staat er zoiets als 'iedereen in engineering heeft hier toegang toe', " voegde Norris eraan toe. "Maar als u wilt dat een paar geselecteerde directeuren van een IT-project toegang hebben of iedereen behalve de persoon, moet u een speciale groep maken. Het is een te gecompliceerde en ingewikkelde manier om toegang te bekijken."

Dat is waar volgens Norris toegangsrechten verlenen voor verschillende niveaus en groepen. "We hebben ACE's gecombineerd met de verschillende manieren waarop u toegang hebt tot gegevens - via bestanden, tabellen, streams, enz. - en weergaven geïmplementeerd zonder afzonderlijke kopieën van de gegevens. We bieden dus weergaven over dezelfde onbewerkte gegevens en de weergaven kunnen verschillende toegangsniveaus hebben. Dit geeft u meer geïntegreerde beveiliging die directer is."

Hortonworks behandelt granulaire toegang op een vergelijkbare manier. Door Apache Atlas voor governance en Apache Ranger te integreren, zei Gnau dat het bedrijf autorisatie op ondernemingsniveau afhandelt via een enkele ruit. De sleutel, zei hij, is de mogelijkheid om contextueel toegang te verlenen tot de database en tot specifieke metadatatags met behulp van op tags gebaseerd beleid.

"Als iemand eenmaal in de database is, gaat het erom hem door de gegevens te leiden waartoe hij relevante toegang moet hebben", aldus Gnau. "Het beveiligingsbeleid van Ranger op objectniveau, fijnmazig en overal daartussenin kan dat aan. Het koppelen van die beveiliging aan governance is waar dingen echt interessant worden.

"Om te schalen in grote organisaties, moet je die rollen integreren met governance en metadata-tagging, " voegde Gnau toe. "Als ik me aanmeld vanuit Singapore, zijn er misschien verschillende regels op basis van lokale privacywetten of bedrijfsstrategie. Zodra een bedrijf deze regels definieert, instelt en begrijpt vanuit een holistisch top-down perspectief, kunt u toegang op basis van specifieke regelsets terwijl alles binnen het kernplatform wordt uitgevoerd."

Bron: IBM Big Data & Analytics Hub. Klik op de afbeelding voor volledige weergave.

2. Perimeterbeveiliging, gegevensbescherming en geïntegreerde authenticatie

Governance gebeurt niet zonder eindpuntbeveiliging. Gnau zei dat het belangrijk is om een ​​goede perimeter en firewall te bouwen rond de gegevens die kunnen worden geïntegreerd met bestaande authenticatiesystemen en standaarden. Norris was het ermee eens dat het voor bedrijven belangrijk is om te synchroniseren met beproefde systemen.

"Bij authenticatie gaat het over hoe u kunt integreren met LDAP, Active Directory en directoryservices van derden, " zei Norris. "We ondersteunen ook Kerberos-gebruikersnaam en -wachtwoorden. Het belangrijkste is niet om een ​​hele afzonderlijke infrastructuur te maken, maar het is hoe u kunt integreren met de bestaande structuur en hefboomsystemen zoals Kerberos."

3. Gegevenscodering en tokenisatie

De volgende stap na het beveiligen van uw perimeter en het verifiëren van alle granulaire gegevenstoegang die u verleent: zorg ervoor dat bestanden en persoonlijk identificeerbare informatie (PII) van begin tot eind worden gecodeerd en tokenized via uw datapijplijn. Gnau besprak hoe Hortonworks PII-gegevens beveiligt.

"Als je eenmaal voorbij de perimeter bent en toegang hebt tot het systeem, is het zeer belangrijk om PII-gegevens te beschermen", aldus Gnau. "U moet die gegevens coderen en tokeniseren, zodat ze, ongeacht wie er toegang toe heeft, de analyses kunnen uitvoeren die ze nodig hebben zonder een van die PII-gegevens langs de lijn bloot te leggen."

Wat betreft hoe u veilig toegang hebt tot gecodeerde gegevens, zowel in beweging als in rust, legde Norris van MapR uit dat het belangrijk is om ook gebruik te maken van gevallen zoals back-up en noodherstel (DR). Hij besprak een concept van MapR's, logische volumes genoemd, die governancebeleid kunnen toepassen op een groeiend cluster van bestanden en mappen.

"Op het laagste niveau heeft MapR WAN-replicatie ontworpen voor DR en tijdconstante snapshots voor alle gegevens die kunnen worden ingesteld op verschillende frequenties per map of volume, " zei Norris. "Het is breder dan alleen gegevensbeheer. Je kunt een fysiek cluster met mappen hebben, en dan is het logische volumeconcept een echt interessante managementeenheid en een manier om dingen te groeperen terwijl het controleert op gegevensbescherming en frequentie. Het is een andere pijl in de gegevens van de IT-beheerder regeringskoker."

4. Constante controle en analyse

Kijkend naar het bredere bestuursbeeld, zeiden zowel Hortonworks als MapR dat de strategie niet werkt zonder auditing. Dat niveau van vsibility en accountability in elke stap van het proces is wat IT in staat stelt om gegevens daadwerkelijk te "regeren" in plaats van eenvoudigweg beleid en toegangscontroles te bepalen en op het beste te hopen. Het is ook hoe ondernemingen hun strategieën actueel kunnen houden in een omgeving waarin onze gegevens en de technologieën die we gebruiken om deze te beheren en analyseren elke dag veranderen.

"Het laatste deel van een moderne governance-strategie is loggen en volgen", zegt Gnau. "We staan ​​in de kinderschoenen van Big Data en IoT, en het is van cruciaal belang om toegang te kunnen volgen en patronen in de gegevens te kunnen herkennen, zodat, aangezien de strategie moet worden bijgewerkt, we voorlopen op de curve."

Norris zei dat auditing en analyse zo eenvoudig kunnen zijn als het bijhouden van JSON-bestanden (JavaScript Object Notation). Niet elk stukje gegevens is de moeite waard om te volgen en te analyseren, maar uw bedrijf zal nooit weten welke - totdat u merkt dat er een baanbrekend inzicht ontstaat of er een crisis gebeurt en u een audittrail moet uitvoeren.

"Elk JSON-logbestand wordt geopend voor analyse en we hebben Apache Drill om JSON-bestanden met de schema's op te vragen, dus het is geen handmatige IT-stap om metadata-analyse in te stellen, " zei Norris. "Wanneer u alle gegevenstoegangsgebeurtenissen en elke administratieve actie opneemt, is er een breed scala aan analyses mogelijk."

5. Een uniforme gegevensarchitectuur

Uiteindelijk moet de technology officer of IT-beheerder die toezicht houdt op een enterprise data governance-strategie nadenken over de details van granulaire toegang, authenticatie, beveiliging, codering en auditing. Maar de technologieofficier of IT-beheerder moet daar niet stoppen; in plaats daarvan moet die persoon ook nadenken over hoe elk van deze componenten hun grotere gegevensarchitectuur invoert. Hij of zij moet ook nadenken over hoe die infrastructuur schaalbaar en veilig moet zijn - van het verzamelen en opslaan van gegevens tot BI, analyses en services van derden. Gnau zei dat data governance net zoveel gaat over het heroverwegen van strategie en uitvoering als over de technologie zelf.

" Het gaat verder dan een enkele ruit of een verzameling beveiligingsregels, " zei Gnau. "Het is een enkele architectuur waar je deze rollen creëert en ze synchroniseren over het hele platform en alle tools die je erin brengt. Het mooie van een veilig beheerde infrastructuur is de flexibiliteit waarmee nieuwe methoden worden gecreëerd. Op elk platformniveau, of zelfs in een hybride cloudomgeving, u hebt één referentiepunt om te begrijpen hoe u uw regels hebt geïmplementeerd. Alle gegevens passeren deze laag van beveiliging en governance."

Big data basics: hoe een data governance plan te bouwen