Huis Kenmerken Deze advocaten willen ervoor zorgen dat onze gegevens niet verdwijnen

Deze advocaten willen ervoor zorgen dat onze gegevens niet verdwijnen

2024

Inhoudsopgave:

Op zoek naar bibliotheken
Publiek-private samenwerking
Oude gegevens en de nieuwe
Middelen:

Video: Hoe voorkom jij dat je werkloos wordt? (November 2024)

Eind mei van dit jaar, precies vijf maanden na de inhuldiging van de 45e president van de Verenigde Staten, markeerde een groep mensen die betrokken waren bij het standpunt van de nieuwe regering ten aanzien van wetenschap en klimaatverandering haar eigen speciale verjaardag.

Niet ver van de campus van de Universiteit van Noord-Texas, op de vlakten ten noorden van Dallas, ontmoetten enkele tientallen personen elkaar op Data Rescue Denton om exemplaren van federale klimaat- en milieugegevenssets te identificeren en te downloaden. Deze hackathon-achtige bijeenkomsten kregen veel aandacht in de dagen onmiddellijk voorafgaand aan de inhuldiging; Denton was het 50e evenement sinds januari.

Aanvankelijk vanuit bezorgdheid dat de nieuwe administratie klimaat- en andere milieugegevens zou wissen of verdoezelen, leken de ergste angsten van gegevensredders uit te komen toen een van de eerste acties van het Trump White House was om klimaatveranderingspagina's van zijn website te verwijderen. Toen reageerde het Amerikaanse ministerie van Landbouw, na het verwijderen van inspectierapporten voor dierenwelzijn van zijn website, op een National Geographic Freedom of Information Act-verzoek met 1.771 pagina's volledig bewerkt materiaal.

Iedereen heeft toegang tot de meer dan 153.000 federale datasets via het open-data portaal van de centrale overheid op data.gov. Maar dat is slechts een fractie van de gegevens in de nevel van de overheidsbureaucratie, laat staan de nog kleinere fractie die zich op een server bevindt.

"Ergens is ongeveer 20 procent van de overheidsinformatie web-toegankelijk", zegt Jim Jacobs, de federale overheidsinformatiebibliothecaris van de Stanford University Library. "Dat is een vrij groot stuk dingen dat niet beschikbaar is. Hoewel bureaus hun eigen wiki's en content management systemen hebben, is de enige keer dat je erachter komt of iemand het FOIAs."

Zeker, er is inderdaad veel informatie verzameld en bevindt zich nu op niet-gouvernementele servers. Tussen Data Refuge-evenementen en projecten zoals de End-of-Term Crawl 2016 werd meer dan 200 TB aan overheidswebsites en gegevens gearchiveerd. Maar reddingsorganisatoren begonnen te beseffen dat stukjes inspanningen om volledige kopieën te maken van terabytes van wetenschappelijke gegevens van overheidsinstanties op de lange termijn niet realistisch konden worden volgehouden - het zou hetzelfde zijn als de Titanic redden met een vingerhoedje.

Dus hoewel Data Rescue Denton uiteindelijk een van de laatste georganiseerde evenementen in zijn soort was, heeft de collectieve inspanning een bredere gemeenschap aangespoord om samen te werken om meer overheidsgegevens zichtbaar, begrijpelijk en bruikbaar te maken, schreef Jacobs in een blogpost.

Op zoek naar bibliotheken

Aan de Universiteit van Pennsylvania is Bethany Wiggin de directeur van het Penn-programma in Environmental Humanities, waar ze centraal stond in de Data Refuge-beweging, de grondlegger van de Data Rescue-evenementen. De focus is nu verschoven, zei ze, naar het benutten van nationale kaders voor inspanningen op lange termijn in plaats van lokaal gebaseerde, periodieke afleveringen.

"We realiseerden ons dat de vaardigheden die op verschillende plaatsen opkwamen, reddingsdata-evenementen konden uitvoeren, " zei Wiggin, vooral in onderzoeksbibliotheken. "Maar deze inspanningen vonden allemaal plaats voordat we van start gingen. De kracht van Data Refuge is om die verbindingen te versterken; langlopende, traag lopende projecten katalyseren en een licht werpen op hoe belangrijk ze zijn."

Wiggin heeft de laatste tijd bijgedragen aan het speerpunt van Libraries + Network, een nieuw samenwerkingsverband van onderzoeksbibliotheken, bibliotheekorganisaties en open-datagroepen gekatalyseerd om de traditionele rol van bibliotheken bij het behouden van toegang tot informatie uit te breiden. Deelnemers zijn onder meer de Stanford University-onderzoeksbibliotheek, de California Digital Library en de Mozilla Foundation, met input en samenwerking van entiteiten zo breed als de National Archives en de chief data officers van verschillende federale bureaus.

Een project is bijvoorbeeld LOCKSS ("veel kopieën houden dingen veilig") dat Jacobs al enkele jaren coördineert. Het is gebaseerd op hetzelfde principe als een 200 jaar oud netwerk van bibliotheken dat bekend staat als het Federal Depository Library Program; deze bibliotheken zijn officiële repositories van publicaties van de US Government Printing Office (GPO).

LOCKSS is daarentegen een particuliere digitale versie van dit systeem, dat tot nu toe bestaat uit 36 bibliotheken die met hun medewerking publicaties van het GPO oogsten. Het is een model voor hoe digitale informatie kan worden beschermd tegen verwijdering of manipulatie door een brede fysieke verspreiding.

"Je kunt het behoud niet verzekeren tenzij je de controle hebt over de inhoud, " zei Jacobs. "Een deel van wat de depotbibliotheken de afgelopen 200 jaar belangrijk en nuttig maakte, was dat niemand in de regering een document kon bewerken zonder daadwerkelijk naar 1500 bibliotheken te gaan en te zeggen:" Ja, verander deze pagina hier."

De software LOCKSS gebruikt controles caches van inhoud op bitniveau en vergelijkt deze met de inhoud van andere bibliotheken, waarvan Jacobs zei dat het zorgt voor langetermijnbewaring door de reparatie van aangetaste bestanden.

John Chodacki, een andere medewerker van het Libraries + Network, is curator van de California Digital Library, een virtuele informatievoorziening die alle 10 campussen van het University of California-systeem bedient. Chodacki, werkzaam bij Max Ogden en Philip Ashlock, ontwikkelaar van Code for Science and Society, zegt dat hun focus ligt op het gebruik van data.gov als tweerichtingsverkeer.

Ze toonden eerst aan dat het redden van gegevens zelf veel efficiënter zou kunnen zijn door een kopie van data.gov zelf op te scheppen en op een externe site, datamirror.org, te plaatsen met controlescripts die controleren op updates. Toen begonnen Chodacki en medewerkers ook te kijken of bijgedragen datasets en metadata aan de mirror konden worden gebruikt in de bestaande data.gov-workflows van bureaus via stub-pagina's op de mirror.

Volgens het Obama-uitvoeringsbesluit van 2013 dat de publicatie van machineleesbare gegevens op data.gov verplicht stelde, zouden agentschappen nog steeds verantwoordelijk zijn voor het genereren van de records die op dat portaal worden vermeld; Het idee van Chodacki en Ogden is dat crowdsourcing-voorgestelde datasets gewoon helpen om de werklast te spreiden.

"We hoeven niet het hele ecosysteem te repliceren, " zei Chodacki. "De federale overheid en deze agentschappen werken al veel langer met gegevens dan dat het buzzworthy was om over big data te praten, op een veel robuustere manier dan wie dan ook."

Publiek-private samenwerking

De kwestie van de kosten ligt voor de hand als het gaat om hoe agentschappen in staat zijn om te identificeren welke datasets het meest waardevol zijn voor het publiek en vervolgens links naar hun metadata of feitelijke datasets via het overheidsportaal publiceren. Een rapport van het Congressional Budget Office (CBO) voor het wetsvoorstel OPEN Government Data Act in de Senaat - dat de uitvoerende orde van Obama in de wet zou codificeren - schat dat de volledige implementatie ervan tussen 2018 en 2021 $ 2 miljoen zou kosten.

In termen van overheidsgeld betekent dat in wezen geen echte toename van de uitgaven, concludeerde CBO.

Efficiëntie is echter een andere vraag, waarmee Ed Kearns van de National Oceanic and Atmospheric Administration samen met particuliere partners experimenteert, waaronder Amazon Web Services en Google. Kearns, Chief Data Officer van NOAA, zei dat het vergroten van de publieke beschikbaarheid en het gebruik van NOAA-gegevens een belangrijke doelstelling van het Big Data-project is.

Bedrijven identificeren welke datasets ze willen en NOAA geeft deze door zonder extra kosten voor het publiek. Alles wat NOAA heeft ligt op tafel, zei Kearns, maar het doel van het vijfjarig partnerschap is niet om alle NOAA-gegevens via de cloud te verspreiden - alleen strategische brokken.

Het hosten van dergelijke datasets op cloudservices van particuliere bedrijven biedt verschillende voordelen aan de FTP-achtige FTP-toegang die nog steeds standaard is voor de overdracht van grote datasets van federale agentschappen. Om te beginnen zijn de datasets van NOAA vaak enorm - het bureau bewaakt de oceanen, atmosfeer, zon en ruimteweer - en vereisen soms weken of maanden voor openbare levering.

Een voorbeeld is het NEXRAD Level-II Doppler radararchief met hoge resolutie van het bureau. Volgens een studie gepubliceerd in mei door de American Meteorological Society, zou het overbrengen van het volledige NEXRAD-archief van 270 terabyte naar een enkele klant in oktober 2015 540 dagen in beslag hebben genomen voor een bedrag van $ 203.310. Een volledig exemplaar van het archief was nog nooit beschikbaar voor externe analyse voordat NOAA samenwerkte met Amazon en Google om er een in de cloud te plaatsen.

Het experiment heeft ook enkele interessante vroege resultaten opgeleverd met gebruikstoename. De weer- en voorspellingswebpagina's van NOAA ontvangen al enkele van de hoogste niveaus van verkeer tussen overheidssites, maar nadat Google onlangs één klimaat- en weersdataset, ongeveer een gigantisch groot aantal, in zijn BigQuery-database had geïntegreerd, meldde het bedrijf 1, 2 petabytes van deze dataset te leveren van 1 januari tot 30 april - veel meer dan ooit via NOAA-servers in een vergelijkbaar tijdsbestek was benaderd.

"Google heeft het voor een heel nieuw publiek kunnen openen, " zei Kearns.

Het is niet alleen regen en seizoensgebonden temperaturen. Datasets die nu beschikbaar zijn via de Big Data-partners omvatten visserijinformatie, marien weer en een door IBM gehoste catalogus met actuele, voorspelde, historische en geospatiale datasets van NOAA-centra. Toekomstige datasets kunnen zelfs informatie bevatten over ecosystemen en genomics van de visserij.

Maar door het ontwerp kunnen partners dankzij de samenwerking kiezen wat ze het meest willen, wat het risico met zich meebrengt dat obscure, maar potentieel waardevolle datasets, niet veel daglicht zullen zien. Kearns zegt dat het te vroeg is om te zeggen wat uiteindelijk als waardevol kan worden geïdentificeerd.

"De schaal en het bereik van wat we met deze gegevens kunnen doen, is enorm", voegde hij eraan toe. "We kunnen ons niet alle mogelijke toepassingen voorstellen."

Op kleinere schaal heeft de stad Philadelphia ook samengewerkt met een particuliere entiteit voor het publiceren van datasets waarvan het publiek heeft gezegd dat deze het meest nuttig zou zijn. Hoewel de grootte van een stad hem meer dagelijkse operationele wendbaarheid geeft dan een federale entiteit, vertegenwoordigt het model van Philly één benadering voor het strategiseren van releases van nog niet gepubliceerde datasets.

Azavea, een Philly-gebaseerd softwarebedrijf dat gespecialiseerd is in datavisualisatie, werkte samen met de hoofdvoorlichter van de stad, Tim Wisniewski, om een lijst met niet-gepubliceerde datasets te ontwikkelen die non-profitorganisaties in de stad wellicht interessant vinden. Wisniewski en Azavea gebruikten zowel de online metadatacatalogus van de stad als input van stadsafdelingen om de lijst te ontwikkelen. Azavea en andere partners brachten de lijst vervolgens naar Philadelphia non-profitorganisaties en lanceerden OpenDataVote, een wedstrijd voor het publiek om te stemmen over projecten die door die non-profitorganisaties werden voorgesteld voor hoe ze hun gewenste datasets zouden gebruiken.

Een recente winnaar was een voorstel van onderwijs non-profit MicroSociety om stadsgegevens over donoren naar het Philadelphia School District te gebruiken om de impact van non-profitprogramma's op scholen te meten.

"We kunnen zeggen dat deze non-profitorganisatie geïnteresseerd is in een bepaalde dataset omdat ze er iets mee kunnen doen, en dat zoveel mensen hebben gestemd om hen te steunen, " zei Wisniewski. "Het laat ons naar de afdelingen gaan met een solide use case in de hand in plaats van te zeggen, hey, deze gegevens vrij te geven alleen omdat."

Oude gegevens en de nieuwe

Maar wat gebeurt er zelfs als er voldoende toegang is tot gegevens die er al zijn, wanneer nieuw beleid en financieringsrichtlijnen betekenen dat de gegevens zelf gewoon niet meer worden gegenereerd? Dat is een echte zorg, zei Ann Dunkin, die als chief information officer bij het Environmental Protection Agency onder president Obama diende en nu IT-directeur van Santa Clara County in Californië is.

"Mensen maken zich zorgen over de oude gegevens, maar wat mij het meest zorgen baart, is dat nieuwe gegevens niet in hetzelfde tempo als voorheen beschikbaar worden gesteld, of helemaal niet worden gegenereerd, " zei Dunkin.

In een analyse van het voorgestelde federale budget voor 2018 door het tijdschrift Science, zouden veel overheidsinstanties aanzienlijke reducties in hun onderzoeksbudgetten realiseren als het budget zoals voorgesteld wordt aangenomen. Een verlaging van ongeveer 22 procent bij de National Institutes of Health zou leiden tot betalingen aan onderzoeksuniversiteiten; het budgetverzoek van NASA zou initiatieven om de uitstoot van broeikasgassen en andere aardwetenschappelijke programma's te controleren, elimineren. Klimaatprogramma's op NOAA kunnen ook worden afgesloten met vergelijkbare bezuinigingsniveaus.

Tijdens haar ambtstermijn was de EPA bezig geweest om van het verzamelen van gegevens een hulpmiddel te maken dat iedereen kon gebruiken om de gezondheid van zijn omgeving te begrijpen, en hoe daarop te reageren. Slechte lucht dag? Ga niet naar buiten. Stroomafwaarts stromen zoals vervuild? Houd de kinderen weg.

"Mijn verwachting is dat dit achteruit zal gaan, " voegde Dunkin eraan toe. "Ik kan me vergissen, maar als je zegt dat we geen gegevens beschikbaar stellen, is de logische conclusie dat gegevenssets die het publiek kunnen helpen, ook niet beschikbaar zullen zijn of in de eerste plaats niet worden gegenereerd."

Wiggin van Data Refuge werkt aan een verhaalproject met betrekking tot deze kwestie, waarvan ze hoopt dat het meer mensen zal katalyseren om voortdurende releases van gegevens te eisen en een enorme toename van ondersteuning te creëren voor de voortzetting van bestaande programma's voor gegevensverzameling binnen de federale overheid. "Three Stories in Our Town" verhalen zullen de vaak verborgen impact van federale gegevens op onverwachte plaatsen weergeven, te beginnen eerst in Philadelphia en vervolgens op andere plaatsen in het hele land.

"Een cruciaal onderdeel van de Data Refuge-beweging, terwijl we doorgaan naar de volgende fase, is mensen helpen te begrijpen hoe veel gebruikt federaal geproduceerde gegevens in hun leven zijn", zei Wiggin. "Of je het nu klimaat of gezondheid of openbare veiligheid noemt, het zijn nog steeds federale gegevens. Het is in gemeenschappen, in het stadhuis, in politie-inspanningen, in het leger. We moeten blijven onthouden hoe belangrijk die gegevens zijn."

Middelen:

EPA Environmental Dataset Gateway: het metadataportaal van het Environmental Protection Agency.
Open Data @ DOE: het open dataportaal van het Department of Energy.
Gegevensportaal van de USDA Economic Research Service
NOAA Big Data-bronnen: links naar platformpagina's van Big Data-partners waarop door NOAA gegenereerde gegevens worden gehost.
Universiteit van Noord-Texas: Cyber Cemetery: een archief van ter ziele gegane, verouderde of gesloten overheidswebsites.
Environmental Data & Governance Initiative Projectpagina archiveren: tools, code en apps voor het ontdekken en archiveren van overheidsgegevens.
Internetarchief Wayback-machine
Internetarchief: pagina's opslaan in de Wayback-machine: zes manieren om pagina's te nomineren voor archivering.
California Digital Library: End of Term Web Archive: een verzameling websites van de Amerikaanse overheid die zijn opgeslagen vanaf End-of-Term Crawls, van 2008 tot heden.
FreeGovInfo.info: Brede inhoud met informatie over dataportals op staats- en federaal niveau, en archieven van nieuwsberichten over open datakwesties.
Climate Mirror: een verzameling van door vrijwilligers verzamelde klimaatdatasets.

Dit verhaal verscheen voor het eerst in de PC Magazine Digital Edition. Abonneer je vandaag nog op meer originele verhalen, nieuws, recensies en tips!