Video: Inside a Google data center (November 2024)
Elk bedrijf wil troeven van business intelligence (BI) verzamelen, evenveel gegevens als leidinggevenden, marketeers en elke andere afdeling in de organisatie kunnen krijgen. Maar als je eenmaal die gegevens hebt, ligt de moeilijkheid niet alleen in het analyseren van de enorme hoeveelheid gegevens om de belangrijkste inzichten te vinden waarnaar je op zoek bent (zonder te worden overspoeld door de enorme hoeveelheid informatie), maar ook het beveiligen van al die gegevens.
Dus, terwijl uw IT-afdeling en datawetenschappers voorspellende analysealgoritmen, datavisualisaties uitvoeren en een arsenaal aan andere dataanalysetechnieken gebruiken op de Big Data die u hebt verzameld, moet uw bedrijf ervoor zorgen dat er geen lekken of zwakke plekken zijn in het reservoir.
Daartoe heeft de Cloud Security Alliance (CSA) onlangs The Big Data Security and Privacy Handbook uitgebracht: 100 Best Practices in Big Data Security and Privacy. De lange lijst met best practices is verspreid over 10 categorieën, dus we hebben de best practices teruggebracht tot 10 tips om uw IT-afdeling te helpen uw belangrijkste bedrijfsgegevens te vergrendelen. Deze tips maken gebruik van een arsenaal aan technieken voor gegevensopslag, encryptie, governance, monitoring en beveiliging.
1. Beveiligde gedistribueerde programmeerkaders
Gedistribueerde programmeerraamwerken zoals Hadoop maken een groot deel uit van moderne Big Data-distributies, maar ze brengen een ernstig risico op gegevenslekken met zich mee. Ze komen ook met wat "niet-vertrouwde mappers" worden genoemd of gegevens uit meerdere bronnen die door fouten berekende geaggregeerde resultaten kunnen produceren.
De CSA beveelt aan dat organisaties eerst vertrouwen vestigen door methoden zoals Kerberos-verificatie te gebruiken en tegelijkertijd te zorgen voor conformiteit met vooraf gedefinieerd beveiligingsbeleid. Vervolgens "de-identificeert" u de gegevens door alle persoonlijk identificeerbare informatie (PII) los te koppelen van de gegevens om ervoor te zorgen dat de persoonlijke privacy niet wordt aangetast. Van daaruit machtigt u toegang tot bestanden met een vooraf gedefinieerd beveiligingsbeleid en zorgt u ervoor dat niet-vertrouwde code geen informatie lekt via systeembronnen met behulp van verplichte toegangscontrole (MAC) zoals de Sentry-tool in Apache HBase. Daarna is het harde deel voorbij, want het enige dat u nog hoeft te doen, is waken tegen gegevenslekken met regelmatig onderhoud. De IT-afdeling moet de werkknooppunten en mappers in uw cloud of virtuele omgeving controleren en opletten voor nepknooppunten en gewijzigde duplicaten van gegevens.
2. Beveilig uw niet-relationele gegevens
Niet-relationele databases zoals NoSQL komen vaak voor, maar ze zijn kwetsbaar voor aanvallen zoals NoSQL-injectie; de CSA somt een reeks tegenmaatregelen op om hiertegen te beschermen. Begin met het coderen of hashen van wachtwoorden en zorg voor end-to-end-codering door gegevens in rust te coderen met behulp van algoritmen zoals geavanceerde coderingsstandaard (AES), RSA en Secure Hash Algorithm 2 (SHA-256). TLS (Transport Layer Security) en SSL-codering (Secure Sockets Layer) zijn ook nuttig.
Naast deze kernmaatregelen, plus lagen zoals datatagging en beveiliging op objectniveau, kunt u ook niet-relationele gegevens beveiligen met behulp van de zogenaamde pluggable authenticatiemodules (PAM); dit is een flexibele methode voor het authenticeren van gebruikers en zorgt ervoor dat transacties worden geregistreerd met behulp van een tool zoals NIST log. Ten slotte is er wat fuzzing-methoden worden genoemd, die cross-site scripting en kwetsbaarheden tussen NoSQL en het HTTP-protocol blootleggen met behulp van geautomatiseerde gegevensinvoer op het protocol, dataknooppunt en toepassingsniveaus van de distributie.
3. Veilige gegevensopslag en transactielogboeken
Opslagbeheer is een belangrijk onderdeel van de Big Data-beveiligingsvergelijking. De CSA beveelt aan om ondertekende berichtensamenvattingen te gebruiken om een digitale identificatie voor elk digitaal bestand of document te bieden en een techniek te gebruiken die veilige niet-vertrouwde gegevensrepository (SUNDR) wordt genoemd om ongeautoriseerde bestandswijzigingen door kwaadwillende serveragenten te detecteren.
Het handboek bevat ook een aantal andere technieken, waaronder luie intrekking en sleutelrotatie, uitzending en op beleid gebaseerde coderingsschema's en digitaal rechtenbeheer (DRM). Er is echter geen vervanging voor het eenvoudig bouwen van uw eigen veilige cloudopslag bovenop de bestaande infrastructuur.
4. Eindpuntfiltering en validatie
Eindpuntbeveiliging is van het grootste belang en uw organisatie kan beginnen met het gebruik van vertrouwde certificaten, het testen van bronnen en het verbinden van alleen vertrouwde apparaten met uw netwerk via een oplossing voor mobiel apparaatbeheer (MDM) (bovenop antivirus- en malwarebeveiligingssoftware). Van daaruit kunt u statistische gelijksoortigheidsdetectietechnieken en uitbijterdetectietechnieken gebruiken om kwaadaardige invoer te filteren, terwijl u zich beschermt tegen Sybil-aanvallen (dwz één entiteit die zich voordoet als meerdere identiteiten) en ID-spoofing-aanvallen.
5. Real-time compliance en beveiligingsmonitoring
Naleving is altijd een hoofdpijn voor ondernemingen, en nog meer als u te maken hebt met een constante stroom van gegevens. Het is het beste om het rechtstreeks aan te pakken met realtime analyse en beveiliging op elk niveau van de stapel. De CSA beveelt organisaties aan Big Data-analyse toe te passen met behulp van tools zoals Kerberos, Secure Shell (SSH) en Internet Protocol Security (IPsec) om grip te krijgen op realtime gegevens.
Zodra u dat doet, kunt u mijngebeurtenissen ontginnen, front-end beveiligingssystemen zoals routers en firewalls op applicatieniveau implementeren en beginnen met het implementeren van beveiligingscontroles in de hele stapel op cloud-, cluster- en applicatieniveau. De CSA waarschuwt ook ondernemingen om op hun hoede te zijn voor ontwijkingsaanvallen die uw Big Data-infrastructuur proberen te omzeilen, en zogenaamde "gegevensvergiftigingsaanvallen" (dwz vervalste gegevens die uw controlesysteem misleiden).
6. Bescherming van gegevensprivacy
Het handhaven van gegevensprivacy in steeds groeiende sets is echt moeilijk. De CSA zei dat de sleutel "schaalbaar en samenstelbaar" moet zijn door technieken te implementeren zoals differentiële privacy - het maximaliseren van de vraagnauwkeurigheid terwijl het minimaliseren van recordidentificatie - en homomorfe codering om gecodeerde informatie in de cloud op te slaan en te verwerken. Voorbij dat, niet beknibbelen op de nietjes: de CSA beveelt aan om bewustmakingscursussen voor werknemers op te nemen die zich richten op de huidige privacyregelgeving en ervoor te zorgen dat de software-infrastructuur wordt onderhouden door autorisatiemechanismen te gebruiken. Ten slotte moedigen de best practices de implementatie aan van de zogenaamde 'privacy-conserverende datasamenstelling', die het lekken van gegevens uit meerdere databases beheert door de infrastructuur te controleren en te bewaken die de databases aan elkaar koppelt.
7. Big Data Cryptography
Wiskundige cryptografie is niet uit de mode geraakt; het is zelfs veel geavanceerder geworden. Door een systeem te bouwen voor het zoeken en filteren van versleutelde gegevens, zoals het doorzoekbare symmetrische versleutelingsprotocol (SSE), kunnen bedrijven Booleaanse zoekopdrachten uitvoeren op versleutelde gegevens. Nadat dat is geïnstalleerd, beveelt de CSA verschillende cryptografische technieken aan.
Met relationele codering kunt u gecodeerde gegevens vergelijken zonder coderingssleutels te delen door identifiers en kenmerkwaarden te matchen. Op identiteit gebaseerde codering (IBE) maakt sleutelbeheer eenvoudiger in openbare sleutelsystemen door het mogelijk te maken dat platte tekst wordt gecodeerd voor een bepaalde identiteit. Op attributen gebaseerde codering (ABE) kan toegangscontrole integreren in een coderingsschema. Ten slotte is er geconvergeerde codering, die coderingssleutels gebruikt om cloudproviders te helpen dubbele gegevens te identificeren.
8. Granulaire toegangscontrole
Toegangscontrole gaat volgens de CSA over twee kernzaken: het beperken van gebruikerstoegang en het verlenen van gebruikerstoegang. De kunst is om een beleid te bouwen en te implementeren dat in elk scenario de juiste kiest. Voor het instellen van granulaire toegangscontrole heeft de CSA een aantal quick-hit tips:
Normaliseer veranderlijke elementen en denormaliseer onveranderlijke elementen,
Volg geheimhoudingsvereisten en zorg voor een correcte implementatie,
Handhaaf toegangslabels,
Track admin gegevens,
Gebruik eenmalige aanmelding (SSO) en
Gebruik een etiketteringsschema om de juiste gegevensfederatie te behouden.
9. Audit, audit, audit
Gedetailleerde controle is een must in Big Data-beveiliging, vooral na een aanval op uw systeem. De CSA beveelt organisaties aan om na elke aanval een samenhangende auditweergave te creëren en ervoor te zorgen dat ze een volledig audittraject bieden, terwijl ze ervoor zorgen dat er gemakkelijk toegang is tot die gegevens om de responstijd van incidenten te verkorten.
Auditinformatie-integriteit en vertrouwelijkheid zijn ook essentieel. Auditinformatie moet afzonderlijk worden opgeslagen en worden beveiligd met gedetailleerde toegangscontrole en regelmatige controle. Zorg ervoor dat u uw Big Data en auditgegevens gescheiden houdt en schakel alle vereiste logboekregistratie in bij het instellen van de controle (om de meest gedetailleerde informatie te verzamelen en te verwerken). Een open-source auditlaag of query-orkestrator-tool zoals ElasticSearch kan dit allemaal eenvoudiger maken.
10. Gegevensherkomst
De herkomst van gegevens kan een aantal verschillende dingen betekenen, afhankelijk van wie u het vraagt. Maar waar de CSA naar verwijst, zijn metagegevens van de herkomst die zijn gegenereerd door Big Data-toepassingen. Dit is een heel andere categorie gegevens die aanzienlijke bescherming behoeft. De CSA beveelt aan om eerst een infrastructuurverificatieprotocol te ontwikkelen dat de toegang controleert, terwijl periodieke statusupdates worden ingesteld en de gegevensintegriteit voortdurend wordt gecontroleerd met behulp van mechanismen zoals controlesommen.
Daar komt nog bij dat de rest van de CSA's best practices voor de herkomst van gegevens overeenkomt met de rest van onze lijst: implementeer dynamische en schaalbare granulaire toegangscontroles en implementeer coderingsmethoden. Er is geen geheime truc om Big Data-beveiliging in uw organisatie en elk niveau van uw infrastructuur en applicatiestack te waarborgen. Bij het verwerken van gegevensbatches die zo groot zijn, geeft alleen een uitputtend uitgebreid IT-beveiligingsschema en bedrijfsbrede gebruikersaankoop uw organisatie de beste kans om elke laatste 0 en 1 veilig te houden.