Expertgroep gegevensmanagement bijeenkomst maart 2026
Informatiebewerken
Op donderdag 19 maart 2026 , van 10:00 tot 12:30, organiseert Expertgroep Gegevensmanagement een online bijeenkomst via: Teamslink.
- Doel
- Verdere uitwerking Thema Gegevensmanagement
- Doelgroep
- Leden en aspirant-leden van de expertgroep
- Contactpersoon
- Arjen Santema
- Gerelateerd aan
- Gegevensmanagement, Onderwerp
- Type
- Kennissessie, Vergadering, Ontmoetingsmoment.
Agenda
Concept agenda:
- 10:00 Welkom en mededelingen
- 10:05 Verslag en actiepunten
- 10:15 Stand van zaken lopende onderwerpen
- CDO Rijk (Wietske)
- Metadata (Eric)
- Semantiek (Jesse)
- Gegevensmodellering/MIM (Niels)
- Duurzame toegankelijkheid (Jasper)
- Gegevenskwaliteitsraamwerk (Danny)
- Datalineage (Danny)
- Federatief datastelsel en GDI (André, Danny)
- 10:30 Thema Anonimiseren en synthetische data - Tijdens deze presentaties nemen wij jullie mee in de begrippen anonimiseren, pseudonimiseren en synthetiseren. We lichten toe wat deze benaderingen inhouden, hoe zij zich tot elkaar verhouden en welke verschillen relevant zijn in de praktijk. Daarnaast besteden we aandacht aan de vraag wanneer welke aanpak passend is. Welke overwegingen spelen een rol bij de keuze voor anonimiseren, pseudonimiseren of synthetiseren? En wat betekent dat voor privacy, herleidbaarheid, datakwaliteit en toepasbaarheid binnen verschillende use cases? Met deze sessie willen we bijdragen aan een gedeeld begrippenkader én meer inzicht in de afwegingen die bij dataverwerking komen kijken.)
- Intro (Richard Uijen)
- Synthetische data bij de Kamer van Koophandel (Badreddine Tazrouti)
- Synthetische Data bij UWV (Charissa Kertowidjojo en Leyla el Khamlichi)
- Vragen en discussie
- 12:15 W.v.t.t.k.
- 12:30 Afsluiting
Verslagbewerken
Welkom en mededelingenbewerken
Bertram zit deze vergadering voor. Er zijn twee personele wijzigingen binnen de expertgroep:
- Boyke geeft aan dat dit zijn laatste keer is; vanwege andere verplichtingen kan hij niet langer structureel deelnemen. Zijn rol wordt overgenomen door Niels van den Berkmortel, data- en integratiearchitect bij de gemeente Eindhoven, die zich kort voorstelt.
- Frans van der Zande sluit aan als vervanger van Kees Trautwein. Kees zal Logius eind juli verlaten op weg naar een volgende opdracht.
Het verslag van de vorige bijeenkomst wordt zonder opmerkingen vastgesteld, we lopen snel door de actiepuntenlijst:
- Voor G42, G46, G47 en G49 zijn geen nieuwe ontwikkelingen.
- G50 (Plan B) vraagt aandacht: we moeten nieuwe onderwerpen plannen voor na april en nog een voorzitter voor de april-bijeenkomst bepalen.
- Voor G51 en G52 is geen nieuws.
- G53 (samenhang standaarden) is wel in beweging: er loopt een traject rond het opstellen van een informatiemodel voor een dienst (in samenwerking met UWV, in het kader van NAP09). Dit onderwerp wordt geagendeerd voor een volgende bijeenkomst.
- G56 Er is nog een week de tijd om te reageren op de geactualiseerde pagina Rollen van organisaties bij gegevensuitwisseling
- G58 en G59 kunnen niet worden besproken omdat de actiehouders niet aanwezig zijn.
Stand van zaken lopende onderwerpenbewerken
CDO Rijkbewerken
Wietske is niet aanwezig; er zijn geen updates.
Metadatabewerken
Eric geeft aan dat er weinig nieuws is, maar de Richtlijn Metagegevens Overheidsinformatie (RMO) blijft een belangrijk aandachtspunt. Jan Campschroer gaat zich bezighouden met de verdere uitwerking van een informatiemodel in dit kader.
De discussie richt zich opnieuw op de samenhang tussen verschillende metadatastandaarden. Tot nu toe benaderen we die vaak vanuit functies of toepassingen, maar Eric stelt voor het perspectief te kantelen: kijk niet primair naar gebruik, maar naar de onderliggende data en ontologieën. Door ontologieën met elkaar te vergelijken kun je mogelijk beter zicht krijgen op overlap, verschillen en samenhang.
Dit sluit aan bij eerdere discussies, onder andere rond DCAT, waar dezelfde behoefte speelt. Deze invalshoek kan helpen om concreter grip te krijgen op de samenhang tussen standaarden.
Eric werkt dit verder uit en agendeert dit onderwerp voor een volgende bijeenkomst.
Semantiekbewerken
Jesse is niet aanwezig. Er is wel een recente bijeenkomst geweest van de NL-SBB Community, verslag op: nl-sbb-community.nl.
Gegevensmodellering / MIMbewerken
Geen inhoudelijke update; dit onderwerp blijft op de agenda staan.
Duurzame toegankelijkheidbewerken
Geen nieuws.
Gegevenskwaliteitsraamwerkbewerken
Danny geeft een sneak preview van een nieuwe tool voor kwaliteitsmonitoring binnen het Federatief Datastelsel.
Met deze tool kun je als aanbieder per dataset kwaliteitsmetingen vastleggen, gekoppeld aan het raamwerk gegevenskwaliteit. Je kunt deze gegevens opslaan en jaarlijks aanleveren voor een landelijk dashboard, maar ook tussentijds gebruiken voor eigen inzicht en sturing.
Vraag: hoe verhoudt dit zich tot de Data Quality Vocabulary (DQV)? De tool sluit hierop aan: je kunt kwaliteitsinformatie vastleggen conform DQV.
Vanuit Logius komt het punt dat vergelijkbare kwaliteitsinformatie nu al apart wordt uitgevraagd voor de Stelselcatalogus. Dat leidt tot dubbele uitvraag en extra werk voor bronhouders.
De DQV-uitwerking in het Federatief Datastelsel biedt de mogelijkheid om deze informatie eenmalig vast te leggen en op meerdere plekken te hergebruiken. De wens om hierop aan te sluiten wordt breed gedeeld: hergebruik van kwaliteitsinformatie voorkomt dubbele uitvraag en maakt het proces efficiënter.
Wel is verdere afstemming nodig om dit in de praktijk ook daadwerkelijk zo in te richten.
NB: het gaat hier om een rapportagetool, niet om een validatietool. Dat onderscheid moet in de communicatie helder zijn.
Federatief Datastelsel (FDS) / GDIbewerken
André geeft een update vanuit het Federatief Datastelsel. Onder de noemer “de vrijblijvendheid voorbij” wordt actief gestuurd op het daadwerkelijk toepassen van standaarden.
Organisaties kregen de vraag met welke standaarden zij dit jaar concreet aan de slag gaan en welke ondersteuning zij daarbij nodig hebben. Het gaat onder andere om NL-SBB, DCAT, MIM en het Raamwerk Gegevenskwaliteit.
Daarbij hoort ook monitoring: de toepassing van standaarden wordt meegenomen in de Monitor Open Standaarden. Er zijn daarnaast nieuwsberichten gepubliceerd over onder andere FSC (onderdeel van Digikoppeling), NL-SBB en CloudEvents om het gebruik verder aan te jagen.
Anonimiseren en synthetische databewerken
Richard Uijen leidt het onderwerp kort in. Aanleiding is de behoefte om zorgvuldig om te gaan met persoonsgegevens (AVG), terwijl organisaties tegelijkertijd behoefte hebben aan realistische data voor testen, ontwikkeling en analyse. Dataminimalisatie alleen is daarvoor vaak niet voldoende: in test- en ontwikkelomgevingen wil je data gebruiken die qua structuur en samenhang lijkt op productiedata. Tegelijk mogen die gegevens niet herleidbaar zijn tot echte personen.
In dit blok staan drie benaderingen centraal:
- anonimiseren
- pseudonimiseren
- synthetiseren
We bespreken hoe deze zich tot elkaar verhouden en wanneer welke aanpak passend is.
Synthetische data bij de Kamer van Koophandelbewerken
De Kamer van Koophandel presenteert een aanpak waarbij synthetische data wordt gegenereerd op basis van business rules en proceslogica. Doel is om testdata te creëren die intern consistent is en voldoende lijkt op productiedata om realistische tests uit te voeren.
De aanpak richt zich nadrukkelijk op het proces van datageneratie, niet op één vaste dataset. Door business rules expliciet vast te leggen (bijvoorbeeld: een ondernemer is minimaal 18 jaar), kan per use case een passende dataset worden gegenereerd. De gegenereerde data moet voldoen aan dezelfde regels en relaties als de echte data.
De oplossing is opgebouwd rond verschillende lagen (dataservice, signalenservice en een testomgeving), waarbij synthetische datasets consistent beschikbaar zijn over de hele keten. Dit voorkomt dat per systeem afzonderlijk testdata moet worden ingericht.
NB: synthetische data is geen statisch eindproduct. De bruikbaarheid hangt sterk af van de use case en de gekozen variatie.
Belangrijke lessen uit deze aanpak:
- Focus op het proces van genereren, niet op het beheren van één dataset.
- Zonder expliciete business logica is synthetische data beperkt bruikbaar.
- Validatie blijft cruciaal: onrealistische combinaties moeten worden voorkomen.
In de discussie komt naar voren dat het genereren van volledige, samenhangende omgevingen (met relaties tussen bijvoorbeeld bedrijven en aandeelhouders) complex is. In de praktijk blijkt het vaak eenvoudiger om bestaande structuren te behouden en alleen de waarden te synthetiseren of te anonimiseren.
Ook wordt stilgestaan bij het gebruik van LLM’s. Daarbij is het belangrijk om gevoelige data niet direct te verwerken, bijvoorbeeld door te werken met placeholders en deze pas na verwerking te vervangen. Dit helpt om te voorkomen dat gegevens buiten de gecontroleerde omgeving terechtkomen.
Synthetische data bij UWVbewerken
UWV presenteert een andere benadering, gebaseerd op machine learning. Hierbij wordt een model getraind op productiedata om de onderliggende verdelingen en samenhangen te leren. Op basis daarvan genereert het model nieuwe, synthetische datasets die statistisch lijken op de originele data, maar geen directe kopieën bevatten.
UWV maakt gebruik van een combinatie van een generator en een discriminator, waarmee iteratief wordt gestuurd op kwaliteit van de gegenereerde data.
Het onderscheid tussen de verschillende vormen van datagebruik wordt expliciet gemaakt:
- Productiedata: volledig herleidbaar
- Pseudonimiseren: vervangen van identificerende gegevens
- Anonimiseren: verwijderen of versleutelen van identificerende gegevens
- Synthetiseren: volledig nieuwe, fictieve data genereren
Daarbij neemt het herleidbaarheidsrisico af van productiedata naar synthetische data.
De PoC richt zich op een complexe dataset (relationele database met tijdscomponent), zodat de aanpak ook in realistische situaties toepasbaar is. De eerste resultaten zijn veelbelovend, maar verdere opschaling en uitbreiding zijn nodig.
NB: naast technische kennis is ook businesskennis essentieel om synthetische data bruikbaar te maken en te beoordelen.
Verschillen en gedeelde inzichtenbewerken
De twee presentaties laten zien dat er meerdere routes zijn naar synthetische data:
- KvK kiest voor een rule-based en procesgerichte aanpak.
- UWV kiest voor een modelgedreven aanpak op basis van machine learning.
Beide benaderingen hebben hun eigen sterktes en beperkingen. De complexiteit neemt snel toe wanneer relaties, tijdslijnen en afhankelijkheden moeten worden meegenomen. In de praktijk ligt een combinatie van technieken voor de hand.
Een belangrijk inzicht is dat synthetische data nooit volledig los staat van productiedata: voor het trainen en valideren van modellen blijft toegang tot echte data nodig. Tegelijk brengt dit risico’s met zich mee, bijvoorbeeld dat gegenereerde data toevallig overeenkomt met echte situaties. Dit vraagt om zorgvuldige afwegingen en betrokkenheid van onder andere CISO en juridische functies.
Daarnaast komt naar voren dat synthetische data kansen biedt voor bredere toepassingen, zoals ketentesten en het beschikbaar stellen van data voor onderzoek, maar dat dit nog verdere uitwerking vraagt.
Vervolgbewerken
De derde geplande bijdrage over anonimiseren en pseudonimiseren kon niet doorgaan en wordt opnieuw geagendeerd voor een volgende bijeenkomst.
Binnen verschillende organisaties en programma’s (onder andere BZK, DUO, KvK en Belastingdienst) lopen initiatieven om ervaringen met synthetische data te bundelen en van elkaar te leren. De expertgroep ziet dit als een waardevolle ontwikkeling.
Vragen en observaties uit de discussiebewerken
De discussie na de presentaties levert een aantal vragen en observaties op die breder relevant zijn:
- Het synthetisch genereren van complete, samenhangende omgevingen (bijvoorbeeld netwerken van bedrijven, aandeelhouders en transacties) blijkt in de praktijk complex. Het genereren van losse records is goed te doen, maar het consistent modelleren van relaties, historie en afhankelijkheden vormt een grotere uitdaging.
- De vraag hoe realistisch synthetische data moet zijn om bruikbaar te zijn komt meerdere keren terug. Voor sommige toepassingen volstaat een globale overeenkomst, terwijl andere use cases hogere eisen stellen aan consistentie en detailniveau.
- Bij complexe datasets is waarschijnlijk een combinatie nodig van modelgedreven technieken en expliciete business rules. Alleen vertrouwen op machine learning of alleen op regels lijkt onvoldoende.
- Met name bij datasets met een tijdsdimensie is validatie lastig. Voor mensen is het vaak makkelijker om processen chronologisch te begrijpen dan via relationele structuren, wat gevolgen heeft voor hoe je synthetische data test en beoordeelt.
- Ook synthetische data brengt risico’s met zich mee. Er bestaat een kans dat gegenereerde data toevallig overeenkomt met echte situaties of verkeerd geïnterpreteerd wordt. Dit vraagt aandacht voor governance en gebruikscontext.
- Voor het trainen en valideren van synthetische data blijft toegang tot productiedata nodig. Dit roept vragen op over hoe je deze stap veilig organiseert.
- De verschillen tussen de aanpak van KvK en UWV worden als waardevol gezien. Het naast elkaar bestaan van meerdere benaderingen kan helpen om van elkaar te leren en tot robuustere oplossingen te komen. Binnen een opschalingstraject vanuit BZK werken onder andere DUO, KvK en Belastingdienst samen aan synthetische data, met als doel ervaringen te bundelen en van elkaar te leren.
Planning komende bijeenkomstenbewerken
In het kader van actiepunt G50 hebben we de invulling van de komende bijeenkomsten besproken.
Het onderwerp voor april wordt informatiemodellen, in aansluiting op de eerdere discussie over samenhang tussen standaarden. Eric is voorzitter.
De presentatie van Radboud over DAMA/DMBOK schuift door naar mei. Voor deze bijeenkomst zoeken we nog een voorzitter.
Voor mei of juni verkennen we een bijeenkomst over duurzame toegankelijkheid, mogelijk in combinatie met het programma Grip op Informatie. De precieze invulling en het voorzitterschap volgen. Actie G60: Marieke controleert of de vertegenwoordigers van het programma Grip op Informatie structureel worden uitgenodigd voor de bijeenkomsten, zodat de afstemming met de expertgroep goed geborgd blijft.
De derde presentatie over anonimiseren en pseudonimiseren, die deze keer niet door kon gaan, plannen we opnieuw in voor een volgende bijeenkomst.
w.v.t.t.k.bewerken
- Vraag: mogen en kunnen opnames van presentaties met externe sprekers gedeeld worden binnen ICTU-teams inrichting? Marieke zoekt dit uit.
Actie: G61 Marieke stuurt de presentaties rond zodra deze beschikbaar zijn en zoekt uit hoe de opnames gedeeld kunnen worden met de vaste deelnemers en de externe sprekers.
Openstaande actiepunten na afloop van dit overlegbewerken
- G42 – Jesse en Toine Schijvenaar onderzoeken of NL-SBB kan worden ingebracht bij EU-initiatieven.
- G46 – Inge Willemsen en Adriaan Hondelink maken, zodra zij een beter beeld hebben van het werk van de expertgroep, concrete afspraken over inhoudelijke afstemming tussen het programma Grip op Informatie (VNG) en de expertgroep.
- G47 – Iedereen maakt een NORA-account aan en vult het gebruikersprofiel.
- G49 – Arjen zet de beschrijving van het voorzitterschap op papier, inclusief motivatie en oproep.
- G50 – De groep werkt Plan B verder uit: indeling van onderwerpen per vergadering en wie deze voorbereidt (incl. voorzitterschap komende bijeenkomsten).
- G51 – Anne, Eric en Arjen kijken samen hoe het verhaal toegankelijk en praktisch bruikbaar kan worden gemaakt voor niet-architecten.
- G52 – Wietske koppelt terug hoe het Rijksbreed Gegevensdelingsbeleid landt en wat dit betekent voor de pagina Gegevensleveringsovereenkomst.
- G53 – De expertgroep brengt in kaart welke bestaande initiatieven, werkgroepen en gremia zich bezighouden met de samenhang en positionering van standaarden en informatiemodellen; leden melden relevante initiatieven bij nora@ictu.nl.
- G58 – Wietske past de pagina Gegevensleveringsovereenkomst aan met een korte aanvullende inleiding waarin de verhouding tussen GDB, FDS, GLO en GLP wordt verduidelijkt.
- G59 – Arjen verkent hoe de architectuurschets voor AI-governance breder kan worden gedeeld en koppelt dit terug in de expertgroep.
- G60 – Marieke Controleert of vertegenwoordigers van het programma Grip op Informatie structureel worden uitgenodigd voor de bijeenkomsten van de expertgroep.
- G61 – Marieke zoekt uit of opnames van presentaties met externe sprekers gedeeld mogen worden binnen ICTU-teams inrichting en koppelt dit terug.
3 april 2026 11:55:50
13 oktober 2025 14:09:41
3 april 2026 11:55:50
8
Informatief
13 oktober 2025