Gegevens (Regie op Gegevens)

Uit NORA Online
Ga naar: navigatie, zoeken
Logo van het programma Regie op Gegevens

Onderdeel van Referentiearchitectuur Regie op Gegevens.
Status: In review, versie 2021

Reviewreactie insturen

5.1 Waarde in het maatschappelijk verkeer[bewerken]

De eIDAS-verordening uit 2014 regelt, samengevat, de identificatie van een natuurlijke persoon (met erkenning van andere Europese inlogmiddelen) en de vertrouwensservices waarmee gegevens over die persoon elektronisch gewaarmerkt kunnen worden. Bij de evaluatie van deze verordening in 2020 bleek dat de spelers in de markt dit weliswaar een stap in de goede richting vonden, maar dat echte waarde van (persoons)gegevens pas gecreëerd wordt als het identificerende gegeven in relatie met de relevante gegevens over die persoon gewaarmerkt geleverd worden. Dus:

identificerende gegevens kenmerken relatie
persoon A heeft een zwemdiploma,
persoon B is rijbevoegd
persoon C vormt geen risico voor Covid19-besmetting
persoon D is houder van een gekentekend voertuig

Omdat de huidige verordening op dit punt tekort schiet, wordt deze in het (voorstel voor) amendement van 2021 aangevuld met de mogelijkheid om identificerende gegevens (blauw) te koppelen aan kenmerken (groen) middels een relatie (rood). Deze kunnen vervolgens met behulp van de vertrouwensservices (zie domein 7 van het functiemodel) gewaarmerkt worden om garanties over inhoud en bron/afzender te geven. Het is deze drie-eenheid (identificerende gegevens, kenmerken en bron) die waarde creëert.

5.2 Informatiepositie[bewerken]

Het belang hiervan komt ook tot uiting in de informatiepositie van de burger. De doelstelling van Regie op Gegevens is - geheel in lijn met de Europese Datastrategie- de burger meer inzicht te geven in de persoonsgegevens die de overheid over hem heeft vastgelegd en hem tevens de mogelijkheid te geven om deze persoonsgegevens te gebruiken in transacties buiten de overheid. Voor het (her)gebruik van die gegevens binnen de overheid geldt al het once-only-principe.

Deze persoonsgegevens worden gebruikt in overeenkomsten met dienstverleners om de gewenste informatiepositie ten behoeve van die overeenkomst in te vullen. De informatiepositie van de burger wordt hier dus gedefinieerd als een set van gegevens betreffende die burger, nodig om de overeenkomst met de dienstverlener aan te kunnen gaan. Deze set beschrijft de persoon en de relatie met objecten en andere personen, e.e.a. in de context van de overeenkomst waarin deze gebruikt wordt.

Zo zal een informatiepositie (de gewenste gegevensset) ten behoeve van het aankopen van een huis een andere zijn dan een informatiepositie van diezelfde burger ten behoeve van een behandelovereenkomst met een arts. Dezelfde persoon, echter andere relevante gegevens. Conclusie: er is altijd een relatie te leggen tussen de informatiepositie (de gevraagde gegevensset) en het doel (de context) waarvoor deze gegevens gebruikt worden.

5.3 Informatiepositie per sector[bewerken]

De gebeurtenis in het leven van een burger bepaalt dus de overeenkomst die de burger met een dienstverlener wil aangaan om een product of dienst geleverd te krijgen. Op basis van de overeenkomst is vast te stellen welke gegevens nodig zijn om tot die overeenkomst te komen. Burger en dienstverlener kunnen het gesprek over welke gegevens nodig zijn aangaan op het moment dat de burger die dienst wil gaan afnemen.

Dat zal voor de meeste burgers niet eenvoudig zijn, dus ligt het voor de hand om deskundige vertegenwoordigers van burgers (zo spreekt bijvoorbeeld de Data Governance Act in artikel 9 lid 1 onder c over gegevenscoöperaties) vooraf hierover in gesprek te laten gaan met deskundige vertegenwoordigers van dienstverleners die namens een sector afspraken maakt over (onder meer) de gegevensset die verzameld wordt op het moment dat een burger zich meldt voor het afnemen van een dienst. Afspraken hierover kan dan onderdeel uitmaken van het Vertrouwensraamwerk waar betrokken partijen zich aan conformeren.

5.4 Identificerende gegevens[bewerken]

Onderdeel van de informatiepositie vormen de identificerende gegevens (de blauwe gegevens uit paragraaf 5.1). Deze kunnen gedefinieerd worden als een unieke set persoonskenmerken dat op exact één individu betrekking heeft. Vaak is de enkele combinatie tussen achternaam en geboortedatum al voldoende om één individu uniek te identificeren. Voor die gevallen waarin dat niet toereikend is, is het toevoegen van één of enkele persoonskenmerken (bijv. voornaam, geboorteplaats) voldoende om in een populatie de anderen te uniek identificeren. Het Interoperabiliteits-kader elektronische identificatie en vertrouwensdiensten (behorend bij eIDAS 2015) maakt voor een natuurlijk persoon onderscheid in een minimale pakket persoonsidentificatiegegevens en een set van mogelijke aanvullingen:

Vereisten betreffende het minimale pakket persoonsidentificatiegegevens dat een natuurlijke persoon of rechtspersoon op unieke wijze vertegenwoordigt, als bedoelt in artikel 11. 1. Minimaal gegevenspakket voor een natuurlijke persoon. Het minimale gegevenspakket voor een natuurlijke persoon bevat al de volgende verplichte attributen:

  1. huidige familienaam of familienamen;
  2. huidige voornaam of voornamen
  3. geboortedatum;
  4. unieke identificatiecode, door de lidstaat van verzending vastgesteld volgens de technische specificatie voor grensoverschrijdende identificatie, zodanig dat deze zo lang mogelijk stabiel blijft.

Het minimale gegevenspakket voor een natuurlijke persoon kan één of meer van de volgende aanvullende attributen bevatten:

  1. voornaam of voornamen en familienaam of familienamen bij geboorte;
  2. geboorteplaats;
  3. huidig adres;
  4. geslacht.

Binnen de context van Regie op Gegevens wordt ervan uitgegaan dat de overheid de identiteit van een persoon aan de hand van identificerende gegevens vaststelt (en niet de burger zelf of een andere partij).

5.5 Overige persoonsgegevens en bronnen[bewerken]

In paragraaf 5.1 werd al gewezen op het feit dat waarde gecreëerd wordt door de combinatie van identificerende gegevens, kenmerken en bron. Hierbij wordt met kenmerk (ook wel elektronisch attribuut genoemd) bedoeld ieder gegeven dat een bewering doet over die persoon. De overheid heeft een grote hoeveelheid en diversiteit aan beweringen over personen in zijn bronnen opgenomen. Deze bronnen bij de overheid zijn allereerst de basisregistraties, die oorspronkelijk bedoeld zijn om informatieposities rondom natuurlijke personen, rechtspersonen en locaties op te bouwen voor hoofdzakelijk intern overheidsgebruik. Ook zijn er vele informatieposities opgebouwd in sectorale registraties, bedoeld voor intern overheidsgebruik.

In de NORA zijn de Basisregistratie en Sectorregistraties als bouwblokken opgenomen (een overzicht van 145 registraties op basis van een inventarisatie uit 2017). Zowel de basisregistraties als sectorregistraties bevatten persoonsgegevens die mogelijk ontsloten dienen te worden. Naast deze registraties zijn er natuurlijk vele andere bronnen binnen de overheid waarin zich persoonsgegevens bevinden die voor ontsluiting in aanmerking komen. Er is ook een overzicht van datasets die in het kader van Open Data beschikbaar worden gesteld op data.overheid.nl.

5.6 Ontwikkeling naar federatieve data infrastructuur[bewerken]

Een belangrijke ontwikkeling in het delen van gegevens in Europees verband is GAIA-X (gestart in 2020). Het Duits-Franse GAIA-X-initiatief richt zich op het realiseren van een pan-Europese ‘federatieve data infrastructuur’. Omdat die in belangrijke mate moet gaan steunen op onderling verbonden cloud diensten wordt GAIA-X ook gezien als een belangrijk vehikel om veilige Europese cloud voorzieningen te realiseren. Vanuit Nederland is Normcommissie (NEN) hierbij betrokken. In de GAIA-X architectuur (2020) en verdere uitwerking (2021) wordt het onderstaand model uitgewerkt, waarbij wordt ingezet op een Europees federatief model op de onderdelen Identity en trust, Woordenboek, Soevereine Gegevensuitwisseling en Compliance.

De visie op de doorontwikkeling van het stelsel van basisregistraties sluit naadloos op deze ontwikkeling aan:

Het hiervoor genoemde doel van onderlinge verbonden stelsels kan worden gerealiseerd door het huidige stelsel van 10 basisregistraties verder te ontwikkelen tot een stelsel waarin steeds meer partijen samenwerken om hun sectorale basisdata op de stelselmanier te ontsluiten, dus met waarborgen voor het vertrouwen bij burgers, afnemers en data aanbieders. Hiermee groeit het stelsel van basisregistraties uit tot een bredere nationale datafederatie van hoogwaardige databronnen die daartoe gerechtigde gebruikers flexibel, naar behoefte, kunnen toepassen en die op Europees niveau aansluiting biedt op soortgelijke stelsels van andere landen.

De NL-datafederatie is geen IT systeem en geen datapakhuis, maar een virtuele dataverzameling waarbij op registratieniveau of op sectorniveau het lokale aanbod volgens het principe van “data bij de bron” binnen het federatieve stelsel wordt ontsloten. Daarbij zorgt het adopteren van stelsel-afspraken, stelselstandaarden en stelselfuncties in combinatie met het toepassen van dezelfde identificerende gegevens/koppelsleutels ervoor dat individuele databronnen een datastelsel worden en dat data tussen de op het NL-datafederatie aangesloten partijen kan stromen. Van deze federatie kunnen zowel private als publieke databronnen deel uitmaken.” (Toekomstbeeld Stelsel van Basisregistraties v08c, p. 3 e.v.).

5.7 Gegevenswoordenboek[bewerken]

Gezien de omvang van het aantal mogelijk gewenste persoonsgegevens en bronnen is vindbaarheid van het juiste gegeven een uitdaging. Hiervoor bestaan al veel initiatieven waarop aangesloten kan worden. Het vinden van een gegeven begint met een eenduidige beschrijving van de betekenis van de gebruikte begrippen (waarbij bij voorkeur wordt gelinkt met de relevante wet- en regelgeving) in een gegevenswoordenboek. Daarnaast zijn aspecten als gegevenskwaliteit (juistheid, actualiteit enz.) en herkomst/bron van belang. Op Europees niveau wordt hiervoor verwezen naar EU thesauri terwijl BegrippenXL op nationaal niveau als ingang kan dienen. Daarnaast is er de bestaande (en beheerde) inventarisatie van Gegevenswoordenboeken (inmiddels meer dan 25, waaronder de Stelselcatalogus) in de NORA. Deze zijn/worden volgens de standaard JSON/Linked Data machineleesbaar en interpreteerbaar aangeboden.

5.8 Gegevensservices[bewerken]

Wat nu als de gegevens in de bron niet overeenkomen met de vraag van burger en/of dienstverlener maar dat de vraag wel af te leiden is uit de gegevens die wel beschikbaar zijn? Dan zijn bewerkingen met behulp van gegevensservices nodig. Naast de CRUD (create, read, update en delete) wordt worden de bewerkingen verzamelen, integreren en afleiden hier nader toegelicht.

5.8.1 Verzamelen[bewerken]

Gegevens worden binnen deze activiteiten gereed gemaakt voor levering (push of pull). Dit kan gebeuren tijdens het inwinnen (“doorlevering”) maar ook tijdens de opslag of bij levering. Afhankelijk van het gegeven en de manier waarop deze vanuit de bron beschikbaar is, bestaat het klaar maken voor levering uit het verzamelen van de benodigde gegevens, indien nodig filteren van de verzameling en samenstellen indien gegevens uit verschillende bronnen in één levering bijeengebracht moeten worden. Uitgangspunt bij verzamelen is dat er geen bewerking aan het gegeven zelf gedaan wordt, m.a.w. de onderdelen worden verzameld, in een doos gestopt, gewaarmerkt en aangeboden voor verzending.

5.8.2 Integreren[bewerken]

Met de functie integreren (aggregeren) worden gegevens in onderlinge samenhang gebracht op een zodanige manier dat deze verwerkt kunnen worden door de gebruiker. Waar de functie Verzamelen meer doelt op de logistiek van gegevens, doelt de functie Integreren meer op de inhoud en onderlinge samenhang van gegevens door middel van de regels in een informatiemodel (bijv. in tijd zoals bij “omzet per maand” het geval zal zijn). In deze functie kunnen nieuwe gegevens ontstaan. Een voorbeeld van een voor de gebruiker in samenhang gebrachte gegevensset is natuurlijk het Kadaster (IMKAD) en andere basisregistraties.

5.8.3Afleiden[bewerken]

Afleiden gaat nog een stap verder dan integreren: binnen deze functie worden op basis van regels (algoritmen) conclusies getrokken en nieuwe gegevens (de conclusie) gegenereerd. Afleiden speelt een belangrijke rol binnen dataminimalisatie in het kader van privacybescherming. Artikel 5 lid 1 sub c AVG stelt, als één van de ‘beginselen inzake verwerking van persoonsgegevens’, dat de gegevensverwerking toereikend is, ter zake dienend en beperkt tot wat noodzakelijk is voor de doeleinden waarvoor zij worden verwerkt. Dit laatste wordt ook het principe van data-minimalisatie genoemd en is daarmee onderdeel van de beperkende maatregelen op de inbreuk van de privacy van burgers. Ook binnen de Wet Digitale Overheid is privacy by design het uitgangspunt. Binnen de context van RoG zijn hierbij globaal drie strategieën te onderkennen:

  1. Alleen die gegevens die strikt noodzakelijk zijn voor het beantwoorden van de vraag (dataminimalisatie door filteren, hiervoor beschreven als een vorm van verzamelen)
  2. Conclusie als gegeven en niet de gegevens die leiden tot de conclusie (dataminimalisatie door delen afleiden)
  3. Cryptografisch bewijs over gegevens zonder de gegevens zelf te delen (dataminimalisatie door wiskundig bewijs, waaronder diverse Privacy Enhancing Technologies)

Transparantie naar de burger ten aanzien van het algoritme (naast de gegevens!) dat gebruikt wordt om de gewenste afleiding te doen is, één van de manieren om vertrouwen bij de burger te krijgen. Een van de manieren is de recente ontwikkeling van het Nationaal Algoritmen Register.

5.9 Eigenaarschap van gegevens[bewerken]

Uitgangspunt is dat de gegevenseigenaar (vaak de bronhouder) verantwoordelijk is voor de kwaliteit van het gegeven uit die bron. Gegevens die rechtstreeks uit de bron komen, door de eigenaar zelf gewaarmerkt worden met behulp van vertrouwensservices en aan de burger ter beschikking gesteld worden, kunnen door die gegevenseigenaar gegarandeerd worden als “overeenkomstig de bron”. Zodra dat waarmerken al door een ander dan de eigenaar wordt gedaan, dan zal die eigenaar die ander hierin al moeten vertrouwen wil die eigenaar de garantie kunnen blijven afgeven. Afspraken hierover kunnen in een vertrouwensraamwerk gemaakt worden. Dit wordt al gecompliceerder wanneer tussen de weg van bron naar burger/dienstverlener bewerkingen (gegevensservices) plaatsvinden waarbij nieuwe gegevens ontstaan. Is de eigenaar van de brongegevens nog wel in staat om de kwaliteit van dat nieuwe gegeven te garanderen of ontstaat met het creëren van dit nieuwe gegeven ook een nieuwe eigenaar die verantwoordelijk is voor de gegevenskwaliteit? Ook hierover zullen afspraken gemaakt moeten worden in een vertrouwensraamwerk.