5 Bouwstenen voor gegevenskwaliteit
In dit hoofdstuk wordt een overzicht gegeven van bouwstenen die gebruikt kunnen worden in de context van gegevenskwaliteit. Een deel van de bouwstenen is randvoorwaardelijk om gegevenskwaliteit goed te laten werken, zoals rollen, kwaliteitsregels en kwaliteitsrapportages. Er wordt onderscheid gemaakt in verschillende soorten bouwstenen: algemene inrichting, afspraken over specifieke gegevens, controles en bewerkingen, en metagegevens.
5.1 Algemene inrichting
5.1.1 Rollen
Een belangrijk aspect van de governance is het definiëren van rollen, taken, verantwoordelijkheden en bevoegdheden. Met name het eigenaarschap en stewardship spelen een cruciale rol in de context van gegevenskwaliteit. Eigenaarschap betekent dat iemand eindverantwoordelijk is voor een specifieke set van gegevens en de kwaliteit ervan. Deze rol wordt ook wel “data-eigenaar” genoemd, maar die term vermijden we liever omdat deze ongewenste associaties oproept. Beter is om te spreken over een eindverantwoordelijke voor gegevens.
Een data steward heeft een uitvoerende rol en ondersteunt een eindverantwoordelijke voor gegevens. Dat gaat voor een belangrijk deel over uitvoerende taken rondom gegevenskwaliteit, zoals het definiëren van kwaliteitseisen, kwaliteitsregels en het coördineren van de implementatie van maatregelen.
Zowel de eindverantwoordelijkheid als de uitvoerende verantwoordelijkheid voor gegevens zou moeten zijn belegd bij organisatie-onderdelen die de primaire processen uitvoeren en niet bij ondersteunende afdelingen zoals IT.
Als onderdeel van data governance moet de verantwoordelijkheid voor gegevenskwaliteit als geheel worden belegd. Dat kan onderdeel zijn van de rol (chief) data officer, maar hiervoor kan ook een chief data steward rol worden gedefinieerd. Daarnaast is het ook belangrijk dat er ondersteunende rollen zijn, met name gericht op de meer technische aspecten van gegevenskwaliteit. Hiervoor wordt ook wel de term technische data steward of data custodian gebuikt. Denk daarbij bijvoorbeeld aan specialisten op het gebied van data-integratie, databases of business intelligence.
Merk op dat er ook in samenwerkingsketens rollen en verantwoordelijkheden m.b.t. gegevenskwaliteit bestaan. Zo is het de verantwoordelijkheid van een afnemer om eisen m.b.t. de kwaliteit van gegevens die voortvloeien uit het gebruik kenbaar te maken aan de aanbieder. Aanbieders zouden deze terugmeldingen moeten routeren naar de bronhouder. Binnen deze bronhouder-organisatie zal een uitvoerend verantwoordelijke voor gegevens de daadwerkelijke afhandeling verzorgen. Afnemers zullen gegevens die ze ontvangen ook zelf moeten valideren. Een aanbieder van gegevens heeft ook een belangrijke rol in het vastleggen van afspraken tussen bronhouders en afnemers over de kwaliteit van de gegevens die worden uitgewisseld.
5.1.2 Managementsysteem
Een managementsysteem is een reeks beleidslijnen, processen en procedures die door een organisatie worden gebruikt om ervoor te zorgen dat zij de taken kan vervullen die nodig zijn om haar doelstellingen te bereiken. Het is een managementinstrument voor sturing op en verbetering van processen. Er zijn verschillende standaarden die managementsystemen specificeren, zoals de ISO 9001 standaard voor kwaliteitsmanagement en de ISO 27001 standaard voor informatiebeveiliging. DAMA Nederland heeft een managementsysteem voor gegevenskwaliteit gedefinieerd, gebaseerd op de ISO 9001 standaard (DAMA NL, 2023). Het helpt organisaties om gegevenskwaliteit op orde te brengen en te houden. Het bevat 25 elementen waaraan organisaties aandacht zouden moeten besteden zoals leiderschap, beleid, rollen en verantwoordelijkheden, risico’s, kwaliteitseisen, competenties, bewustzijn en communicatie.
5.1.3 Volwassenheidsmeting
Gegevenskwaliteit is iets dat vooral continue verbetering vraagt. Een organisatie die daarmee begint zal andere stappen zetten dan een organisatie die er al jaren mee bezig is. Om goed in te schatten welke stappen waardevol zijn om te zetten, is het daarom belangrijk om goed te kijken naar de huidige en gewenste volwassenheid van de organisatie op het gebied van gegevenskwaliteit. De huidige volwassenheid zou je moeten meten (scoren) en daarnaast zou je een ambitie moeten bepalen voor het volwassenheidsniveau dat je zou willen bereiken.
Hoofdstuk 6 van dit document is geheel gewijd aan volwassenheid. Het verwijst in eerste instantie vooral naar de beslishulp datavolwassenheid zoals deze is opgesteld als onderdeel van de interbestuurlijke datastrategie. In algemene zin zijn er veel verschillende volwassenheidsmodellen op het gebied gegevensmanagement en gegevenskwaliteit. Ook de eerder beschreven ISO 8000 standaard biedt een volwassenheidsmodel. Er is in de context van dit document ook een vertaling gemaakt van het stappenplan gegevenskwaliteit naar de volwassenheidsniveaus zoals gehanteerd in de beslishulp datavolwassenheid. Daarmee biedt het een verdieping op de beslishulp op het onderwerp gegevenskwaliteit.
5.1.4 Kwaliteitsraamwerk
Om uitdrukking te kunnen geven aan de kwaliteit van gegevens is het nodig om afspraken te maken over de dimensies die daarbij worden gebruikt, zoals juistheid, compleetheid en actualiteit. Dit heet ook wel een kwaliteitsraamwerk. Zoals eerder beschreven zijn er allerlei standaarden waarvan gebruik kan worden gemaakt, maar is er tevens een standaard raamwerk voor gegevenskwaliteit gedefinieerd in de NORA. Het streven is dat overheidsorganisaties dit raamwerk gebruiken, in ieder geval als zij hier breed over communiceren.
Het kan nodig zijn om het raamwerk aan te passen aan de specifieke omstandigheden van de organisatie. Dat gaat dan met name over het toevoegen van kwaliteitsdimensies en kwaliteitsattributen die niet in het NORA raamwerk zitten. Er is in dat raamwerk ook specifiek gekozen om alleen aspecten van kwaliteit te benoemen die betrekking hebben op de gegevens zelf. Dat betekent dat kwaliteitsaspecten van processen, systemen of de governance daar geen deel van uitmaken. Organisaties kunnen hiervoor zelf relevante kwaliteitsdimensies en kwaliteitsattributen toevoegen.
Organisaties moeten ook zelf bepalen op welke wijze zij de verschillende kwaliteitsattributen meten. Een deel van de kwaliteitsattributen kan worden gemeten door het uitvoeren van geautomatiseerde controles. Een ander deel vraagt mogelijk steekproeven, interviews met mensen of andere vormen van controles.
5.1.5 Data-architectuur
Een data-architectuur biedt een belangrijke basis voor gegevenskwaliteit. Het beschrijft de huidige en gewenste gegevens en gegevensstromen tussen processen en/of systemen. Het bevat daartoe een globaal informatie- en/of gegevensmodel. Het gaat ook in op de systemen die nodig zijn om de gegevens en gegevensstromen te ondersteunen. Een data-architectuur geeft inzicht in de knelpunten (bijvoorbeeld op het gebied van gegevenskwaliteit) en beschrijft belangrijke maatregelen die bijdragen aan het verbeteren van gegevenskwaliteit. Het beschrijft ook principes en richtlijnen voor de gewenste inrichting.
Een data-architectuur is veelal gericht op de algemene inrichting van gegevensmanagent of gegevenskwaliteit, maar het kan ook op specifieke bedrijfsprocessen en de daarbij behorende gegevens ingaan. Data-architecturen kunnen dus op meerdere abstractieniveaus bestaan. Voor de algemene inrichting van gegevensmanagement zijn bijvoorbeeld processen en systemen ter ondersteuning van gegevensmodellering, mastergegevens, metagegevens en gegevenskwaliteit nodig. Zo zijn er bijvoorbeeld systemen beschikbaar in de markt waarin kwaliteitseisen en kwaliteitsregels kunnen worden gedefinieerd, die deze geautomatiseerd kunnen controleren en het resultaat kunnen weergeven in rapportages en dashboards. Een belangrijk soort inzicht dat data-architectuur kan creëren is inzicht in redundantie van gegevens, waardoor er problemen kunnen ontstaan met de consistentie van gegevens.
5.2 Afspraken over specifieke gegevens
5.2.1 Kwaliteitseisen
Kwaliteitseisen geven uitdrukking aan doelen die bereikt moeten worden en zijn te beschouwen als normen. Ze worden ook wel eens KPI’s of kwaliteitsdoelen genoemd. Een voorbeeld van een kwaliteitseis is “95% van de gegevens is juist”. Kwaliteitseisen moeten in kwantitatieve zin worden uitgedrukt om ze te kunnen meten. Ze kunnen worden gecontroleerd en inzichtelijk gemaakt in rapportages of dashboards. Kwaliteitseisen bestaan op verschillende niveaus. Sommige eisen kunnen voor een dataset als geheel worden gedefinieerd, terwijl anderen alleen betekenisvol zijn in de context van specifieke objecttypes of attributen.
Kwaliteitseisen zijn in veel gevallen specifiek voor een bepaalde toepassing, maar er zijn ook meer generieke kwaliteitseisen. Je zou een driedeling kunnen maken in kwaliteitseisen:
- Kwaliteitseisen die in het algemeen gelden, zoals bijvoorbeeld dat gegevens zijn voorzien van definities, metagegevens, autorisatieregels en een eindverantwoordelijke.
- Kwaliteitseisen die gelden voor specifieke gegevens, maar los van een specifiek gebruik, zoals dat 100% van de postcodes in de BAG overeen dienen te komen met de gegevens in het postcodebestand van PostNL.
- Kwaliteitseisen die nodig zijn voor een specifiek gebruik, zoals dat voor het bepalen van geluidsnormen de positionele juistheid van een weg tot op een halve meter exact dient te zijn.
De verantwoordelijkheid voor gegevens betreft in eerste instantie vooral de verantwoordelijkheid voor het identificeren, borgen en meten van de eerste twee. Een afnemer is verantwoordelijk voor het identificeren, borgen en meten van de laatste en kan afspraken maken met iemand die verantwoordelijk is voor gegevens, voor het borgen en meten ervan. Dit soort afspraken wordt in een gegevensleveringsovereenkomst vastgelegd.
Kwaliteitseisen zijn gerelateerd aan de kwaliteitsdimensies en attributen in kwaliteitsraamwerken. Denk bijvoorbeeld aan kwaliteitsdimensies zoals juistheid, compleetheid en actualiteit. Dat zijn tevens de belangrijkste dimensies om in eerste instantie naar te kijken.
In het NORA raamwerk gegevenskwaliteit zijn zinsjablonen gedefinieerd die het mogelijk maken om op een gestandaardiseerde en gestructureerde wijze te communiceren over kwaliteitseisen en de mate waarin wordt voldaan aan kwaliteitseisen. Zo is er bijvoorbeeld een zinstructuur om meer specifiek en gestandaardiseerd te spreken over de (thematische) juistheid van gegevens: “voor ATTRIBUUT: PERCENTAGE van de gegevens komt overeen met de gegevens in BRONNEN”. Voor de basisadministratie adressen en gebouwen geldt daarbij de kwaliteitseis: voor postcode: 100% van de gegevens komt overeen met de gegevens in het postcodebestand van PostNL.
5.2.2 Kwaliteitsregels
Kwaliteitsregels geven aan waar gegevens aan moeten voldoen. Ze stellen beperkingen en zijn daarmee een specifieke vorm van beperkingsregels. Dat kunnen individuele waarden zijn, maar het is ook mogelijk dat kwaliteitsregels iets zeggen over een combinatie van waarden. Denk bijvoorbeeld aan “als gegevenselement X is gevuld dan moet ook gegevenselement Y zijn gevuld”. Je kunt kwaliteitsregels ook zien als beweringen, die waar of onwaar kunnen zijn. Als ze onwaar zijn dan betekent dat een fout (of mogelijke fout) in de gegevens. Als er een gegevensmodel is opgesteld dan is de kans groot dat daar al allerlei beperkingsregels (constraints) in zijn gedefinieerd die als uitgangspunt kunnen worden genomen.
Bepaalde kwaliteitseisen zijn ook afhankelijk van kwaliteitsregels. Denk bijvoorbeeld aan een eis die stelt dat een bepaald percentage van de postcodes moet voldoen aan het postcode-formaat. Deze is afhankelijk van de kwaliteitsregel die uitdrukking geeft aan dat postcode-formaat. Kwaliteitsregels en kwaliteitseisen kunnen betrekking hebben op een bepaalde subset van de gegevens (en gelden dus niet per definitie voor alle gegevensobjecten). Zo kun je je voorstellen dat bijvoorbeeld alleen postcodes van personen die woonachtig zijn in Nederland kunnen voldoen aan het Nederlandse postcodeformaat.
Er zijn allerlei (specificatie)talen die gebruikt kunnen worden om kwaliteitsregels in uit te drukken. Als ze in machineleesbare vorm zijn uitgedrukt dan kunnen ze worden gebruikt om geautomatiseerde kwaliteitscontroles uit te voeren. Kwaliteitsregels kunnen ook op meerdere plaatsen in de keten, in verschillende talen zijn geïmplementeerd. Kwaliteitsregels worden bij voorkeur geformuleerd in een taal die begrijpelijk is voor gebruikers en eenduidig gedefinieerd is. De basis voor kwaliteitsregels zijn bedrijfsregels. Er zijn ook systemen voor gegevenskwaliteit die kunstmatige intelligentie gebruiken om natuurlijke taal om te zetten in een specifieke taal voor het specificeren van kwaliteitsregels.
|
Standaarden voor (kwaliteits)regels Voor het specificeren van bedrijfsregels, kan bijvoorbeeld gebruik worden gemaakt van de standaarden SBVR, RuleSpeak of RegelSpraak. Systemen voor gegevenskwaliteit hebben vaak een eigen taal voor het specificeren van kwaliteitsregels. Zo ondersteunt bijvoorbeeld het systeem Soda (waarvan ook een open source versie bestaat) de Soda Checks Language (SodaCL). Je kunt natuurlijk ook gewoon gebruik maken van SQL. De SHACL standaard is specifiek gericht op het uitdrukken van gegevens die zijn beschreven als linkeddata. Aanvullend op deze standaard kan ook de SPARQL standaard worden gebruikt, waarmee zoekvragen kunnen worden gesteld aan linkeddata. De Schematron taal is specifiek gericht op gegevens die zijn beschreven in XML formaat. Standaarden zoals XML Schema en JSON Schema kunnen ook gebruikt worden om bepaalde basisregels mee te beschrijven en te controleren, zoals de aanwezigheid van verplichte gegevenselementen of beschrijvingen van toegestane waarden. Formaten van gegevens zijn ook te zien als kwaliteitsregels en daarvoor wordt vaak gebruik gemaakt van reguliere expressies. |
5.2.3 Kritieke gegevenselementen
Het is niet reëel om voor alle gegevenselementen in een bepaalde registratie in te gaan op de eisen en regels die daaraan zouden moeten worden gesteld. De nadruk zou moeten liggen op de belangrijkste gegevenselementen. Dat zijn de gegevenselementen waarvan het essentieel is dat ze goed zijn voor de succesvolle uitvoering van processen in de organisatie.
Er zijn geen harde criteria die bepalen of een gegevenselement kritiek is, maar de volgende kenmerken geven daarvoor wel een belangrijke indicatie. Het betreft gegevens die:
- zijn vereist vanuit wet- en regelgeving;
- belangrijk zijn voor besluitvorming;
- worden gebruikt in key performance indicatoren;
- impact hebben op het operationele proces en de kwaliteit van producten/diensten;
- gevoelig zijn;
- worden gebruikt voor externe rapportages;
- verwijzen naar mastergegevens.
5.2.4 Gegevensleveringsovereenkomsten
Het is belangrijk dat rechten, plichten en aansprakelijkheden tussen aanbieders en afnemers van gegevens goed zijn geborgd. Een gegevensleveringsovereenkomst (ook wel: GLO) is een verzameling afspraken tussen een aanbieder en een afnemer van gegevens. In een GLO leggen partijen vast welke gegevens worden gedeeld, onder welke voorwaarden, en wie verantwoordelijk is. Onderdeel van een GLO zijn ook de kwaliteitseisen die zijn afgesproken en die daarom bij de uitvoering van de overeenkomst moeten worden geborgd, gecontroleerd en gemonitord. Het is ook mogelijk om meer gedetailleerde afspraken in een GLO vast te leggen zoals de afgesproken kwaliteitsregels, het gebruikte gegevensmodel en/of de gebruikte formaten. Daarmee is een gegevensleveringsovereenkomst ook een maatregel in het kader van gegevenskwaliteit.
Er wordt ook wel onderscheid gemaakt tussen algemene afspraken en specificaties op operationeel niveau. In het voorgestelde Rijksbreed gegevensdelingsbeleid worden deze respectievelijk een gegevensleveringsprotocol (GLP) en een gegevensleversetspecificatie (GLS) genoemd. Vanuit de AVG is het belangrijk dat een verwerkingsverantwoordelijke duidelijke afspraken maakt met de verwerkers d.m.v. verwerkersovereenkomsten. Een dergelijke verwerkersovereenkomst kan ook als een gegevensleveringsovereenkomst worden gezien en gebruikt. Het is ook mogelijk om afspraken over gegevens en gegevenskwaliteit in machineleesbare vorm vast te leggen en zelfs geautomatiseerd te controleren.
5.2.5 Aanwijzen bronnen
Dezelfde soort gegevens kunnen in meerdere bronnen (applicaties, databases of bestanden) worden opgeslagen. Dat heeft het risico dat gegevens inconsistent raken bij wijzigingen doordat deze wijzigingen niet in alle registraties worden doorgevoerd. Om dit soort problemen te voorkomen is het belangrijk om bronnen aan te wijzen en ervoor te zorgen dat gegevens altijd in deze bron worden beheerd en gecorrigeerd, en vanuit deze bron worden ontsloten.
De belangrijkste soorten gegevens waarvoor het belangrijk is om deze slechts op één plaats te administreren zijn mastergegevens en referentiegegevens. Dit zijn beiden relatief stabiele vormen van gegevens die in allerlei systemen worden gebruikt. Mastergegevens zijn gegevens over objecten met een eigen levenscyclus zoals personen, producten en plaatsen. Referentiegegevens zijn waardelijsten: gegevens die een bepaalde waarde representeren die een bepaald gegevenselement kan aannemen.
Voor zowel mastergegevens als referentiegegevens is het belangrijk om bronnen aan te wijzen. Daarnaast is specifieke aandacht nodig voor de kritieke gegevenselementen, zodat duidelijk is wat hiervoor de leidende bronnen zijn. Vervolgens dienen er mechanismen te worden ingericht om ervoor te zorgen dat deze bronnen ook echt als bron worden gebruikt. Dit vraagt het inrichten van gegevensuitwisselingen tussen systemen. Daarbij kan het toch nodig zijn om bepaalde gegevens te repliceren.
Een data-architectuur kan een eerste inzicht geven in de bronnen die voor gegevensobjecten zijn aangewezen. Voor een meer gedetailleerd inzicht is een administratie van metagegevens op het niveau van individuele gegevenselementen nodig.
5.3 Controles en bewerkingen
5.3.1 Duplicaatdetectie
Een veelvoorkomende categorie van problemen met gegevenskwaliteit is dat bepaalde gegevens meervoudig aanwezig zijn. Denk bijvoorbeeld aan een klantenadministratie, waarin klanten meervoudig aanwezig kunnen zijn. Gebruikers weten dan niet welk gegeven ze voor waar kunnen aannemen.
Een belangrijke functionaliteit is het herkennen (ook wel: matching) en opschonen van duplicaten. Dat kan onderdeel zijn van een schoningsproces, maar idealiter wordt bij het invoeren van gegevens al gecontroleerd of objecten reeds vastgelegd zijn. Duplicaatdetectie gaat vaak verder dan een eenvoudige vergelijking van gegevenselementen. Het werkt op basis van combinaties van attribuutwaarden, patronen en regels.
5.3.2 Schoning
Het kan zijn dat gegevens onvoldoende passen bij de kwaliteitseisen en/of kwaliteitsregels en dat het helpt om de gegevens op te schonen. Daarbij dient wel rekening te worden gehouden met bewaartermijnen. Een bekende trigger hiervoor is als een systeem gemigreerd wordt naar een nieuw systeem. Dat is een logisch moment om bestaande gegevens op te schonen en te transformeren naar de vorm die nodig is voor het nieuwe systeem. Het is echter beter als schoning een periodiek proces is.
Bij schoning kunnen gegevens handmatig, interactief of geautomatiseerd worden verbeterd. Daarbij kunnen bijvoorbeeld foutieve of duplicate gegevensobjecten worden verwijderd, lege gegevenselementen worden voorzien van standaardwaardes of gegevens worden omgezet naar een standaard formaat.
Het is ook mogelijk om bij het schonen gegevens te verrijken met gegevens uit andere, meer betrouwbare (externe) bronnen. De focus van schoning ligt op het verbeteren van de validiteit en consistentie van gegevens. Het verbeteren van de juistheid, compleetheid of actualiteit van de gegevens is met schoning slechts heel beperkt mogelijk.
De wijzigingen die in het kader van schoning worden aangebracht moeten traceerbaar zijn. Daarnaast is het belangrijk om de oorzaken die ten grondslag liggen aan de fouten die geschoond worden ook worden opgelost.
5.3.3 Validaties
Validaties zijn specifieke controles van kwaliteitsregels die gericht zijn op de validiteit van gegevens en deels ook op de consistentie van gegevens. Validiteit is de mate waarin gegevens voldoen aan de verwachte structuur en opslagvorm. Het gaat over of gegevens voldoen aan het afgesproken formaat en syntactisch correct zijn (formaatvaliditeit) en of geldige waardes worden gebruikt (domeinvaliditeit). Onderdeel van een validatie kan ook zijn dat er een controle plaatsvindt op logische consistentie. Daarbij wordt gecontroleerd of gegevens voldoen aan kwaliteitsregels die iets zeggen over de relatie tussen gegevenselementen.
Karakteristiek voor al dit soort controles is dat ze meestal leiden tot een afwijzing van de gegevens als ze hier niet aan voldoen. Ze zijn dus randvoorwaardelijk voor het kunnen accepteren van gegevens. Dat betekent dat ze al bij het invoeren van gegevens moeten worden gecontroleerd, in de gebruikersinterface (inputvalidaties), zodat gebruikers ze direct kunnen corrigeren. Daarnaast zijn validaties essentieel in ketens (ketenvalidaties), om ervoor te zorgen dat gegevens die worden uitgewisseld een bepaalde basiskwaliteit hebben.
Dit soort controles wordt ondersteund door gebruik te maken van schema’s zoals XML Schema’s. Ze zijn veelal gebaseerd op een gegevensmodel, waaruit ze kunnen worden gegenereerd. Het is wenselijk om deze controles ook los te kunnen aanroepen, zodat in een testfase voorafgaand aan het conform afspraak leveren van gegevens aan systemen partijen kunnen controleren of hun gegevens aan de validiteitsregels voldoen.
5.3.4 Data profiling
Data profiling geeft inzicht in gegevenskwaliteit door de structuur, inhoud en relaties tussen gegevens te analyseren. Daarvoor kan gebruik worden gemaakt van specifieke data profiling tools, maar ook bijvoorbeeld van zelfgedefinieerde database queries. Deze laatste zijn arbeidsintensiever en vragen meer diepgaande database- en technische kennis.
Een data profiling tool kan voor elke kolom in een tabel de frequentie van waarden bepalen waarmee inzicht ontstaat in het type en gebruik van elke kolom. Daarnaast kan het inzicht geven in een aantal kernkarakteristieken zoals minimum, maximum en gemiddelde waarde. Over kolommen heen kunnen afhankelijkheden tussen gegevens inzichtelijk worden gemaakt. Over tabellen heen kunnen overlappende waarden inzichtelijk worden gemaakt en daarmee waarschijnlijke verwijzingen (foreign keys). Over de tabellen heen kunnen ook vergelijkingen met waarnemingen met dezelfde periodes van voorgaande jaren onverklaarbare afwijkingen tonen, wat kan duiden op een gegevenskwaliteitsprobleem.
Er kan ook gebruik worden gemaakt van kunstmatige intelligentie om onregelmatigheden te ontdekken in gegevens. Op deze manier kan data profiling inzicht geven in afwijkingen, waarbij veel tools dieper kunnen inzoomen op specifieke aandachtsgebieden in de gegevens zelf. Omdat een volledige profilering van een grote dataset veel tijd kan en geld kan kosten, kun je ervoor kiezen om deze alleen voor bepaalde tabellen en kolommen uit te voeren. Bijvoorbeeld alleen voor de kritieke gegevenselementen.
5.3.5 Data observability
Een nieuw perspectief op gegevenskwaliteit is “data observability“ (Moses, 2024). Het kernidee is dat gegevens gewoon met de juiste kwaliteit beschikbaar moeten zijn, en dat afwijkingen pro-actief moeten worden gesignaleerd en opgelost. De kwaliteit van de gegevens moet continu worden gemeten en de “data downtime” moet worden geminimaliseerd. Daarbij is er specifiek aandacht voor versheid, compleetheid, validiteit, consistentie, waarschijnlijkheid en herleidbaarheid van gegevens.
Door zicht te hebben op de herkomst van gegevens, kunnen problemen zoveel mogelijk bij de bron worden opgelost. Data observability tools zijn direct verbonden aan geautomatiseerde pipelines om geautomatiseerd afwijkingen te constateren en waar mogelijk ook direct op te lossen. Ze maken daarbij mogelijk ook gebruik van kunstmatige-intelligentietechnieken om afwijkingen te detecteren.
5.3.6 Kwaliteitsrapportages en -dashboards
Het is belangrijk om het resultaat van kwaliteitscontroles inzichtelijk te maken, zodat gebruikers weten wat de kwaliteit is en verbeteringen in gang kunnen worden gezet. In kwaliteitsrapportages kunnen de individuele gegevens die (potentieel) fout zijn inzichtelijk worden gemaakt. Het rapport is te gebruiken als een werklijst voor het onderzoeken en corrigeren van de fouten. In kwaliteitsdashboards kan een meer geaggregeerd overzicht worden gegeven. Daarmee ontstaat een kwantitatief inzicht in de mate waarin aan kwaliteitseisen wordt voldaan.
Er bestaan specialistische systemen voor gegevenskwaliteit waarin kwaliteitseisen en kwaliteitsregels kunnen worden gedefinieerd, die controles uitvoeren en het resultaat weergeven in rapportages en/of dashboards. Er kan echter ook gebruik worden gemaakt van generieke (business intelligence) tools om dit soort informatieproducten te definiëren en visualiseren.
5.3.7 Audits
Los van de controles en rapportages die praktisch kunnen worden uitgevoerd ter ondersteuning van gegevenskwaliteit is het ook mogelijk om interne of externe audits uit te voeren. In dat geval zijn er andere afdelingen of organisaties die vanuit een meer onafhankelijk perspectief controles uitvoeren. Zij geven een onafhankelijk advies aan management en bestuursorganen over de toereikendheid en effectiviteit van governance en risicomanagement om het realiseren van doelstellingen te ondersteunen en continue verbetering te bevorderen en te faciliteren. De resultaten kunnen uiteraard ook gebruikt worden voor het verbeteren van de kwaliteit van de gegevens zelf.
5.3.8 Terugmeldingen
Terugmeldingen van gebruikers zijn een belangrijke bron voor het signaleren van problemen met gegevenskwaliteit. Ze zorgen ervoor dat er een feedback loop is vanuit het gebruik naar het beheer van de gegevens. Het kunnen faciliteren van terugmelding is een plicht in de context van de basisregistraties, maar is in meer algemene zin dus een best-practice.
Terugmeldingen zijn idealiter niet beperkt tot ambtenaren; ook burgers en bedrijven zouden gerede twijfel over de juistheid van gegevens moeten kunnen terugmelden. Dergelijke meldingen hebben uiteraard wel een andere status en het is afhankelijk van wet- en regelgeving hoe dergelijke meldingen dienen te verlopen.
In meer algemene zin wordt ook wel gesproken over issue management. Het is de verantwoordelijkheid van aanbieders van gegevens om terugmeldingen mogelijk te maken. Minimaal kunnen deze via email worden gemeld, maar beter is het als er een online formulier beschikbaar is hiervoor. Hierdoor kan de gebruiker geholpen worden bij het doen van een melding die valide, consistent en compleet genoeg is om afgehandeld te kunnen worden.
5.4 Metagegevens
5.4.1 Begrippen
Het is belangrijk om de werkelijkheid van de organisatie goed te begrijpen voordat je deze in gegevens probeert te verpakken. Dat is met name relevant op het moment dat er onvoldoende organisatiebreed inzicht is in data en wat deze precies betekent. Zonder een dergelijke betekenis kun je niet spreken over de kwaliteit van gegevens.
Er moeten dus woorden worden gegeven aan de dingen in de organisatie-werkelijkheid en deze woorden moeten worden gedefinieerd. Dat zijn definities op een taalniveau die nog niets te maken hebben met gegevens. Een belangrijke bron voor begrippen is wet- en regelgeving. Middels wetsanalyse worden begrippen hierin expliciet gemaakt. De resulterende begrippen moeten worden vastgelegd in een begrippenkader. Dat kan gewoonweg een lijst van begrippen zijn of een thesaurus waarin ook de globale onderlinge relaties tussen de begrippen zijn beschreven.
Er is een Nederlandse Standaard voor het beschrijven van begrippen: NL-SBB. Deze standaard is gebaseerd op de internationale SKOS standaard en zorgt voor meer uniformiteit in de beschrijving van begrippen.
Deze begrippen kunnen worden gekoppeld aan datasets of informatieproducten om ze beter vindbaar te maken en/of de betekenis van de gegevens erin te duiden. Daarbij kunnen specifieke gegevens ook meer specifieke begrippen vragen, die een specialisatie zijn van organisatiebrede begrippen.
5.4.2 Informatie- en gegevensmodellen
Een informatie- of gegevensmodel beschrijft gegevens. Het helpt bij het begrijpen van een domein en de gegevens die daarbij worden uitgewisseld. Er is een onderscheid tussen conceptuele en logische modellen. Conceptuele modellen worden ook wel informatiemodellen genoemd en zijn bedoeld om de werkelijkheid te beschrijven (voor zover we deze kennen). Logische modellen beschrijven de structuur van gegevens die relevant is voor een specifiek gebruik.
Als gegevens worden uitgewisseld zonder dat hiervoor een informatie- of gegevensmodel is gedefinieerd dan zijn de gegevens slecht bruikbaar. Daarmee zijn informatie- en gegevensmodellen een belangrijke bouwsteen voor gegevenskwaliteit. Daarnaast beschrijven gegevensmodellen ook beperkingsregels die ook kunnen worden gebruikt als kwaliteitsregels. Ze zijn de basis voor controles, rapportages en dashboards voor gegevenskwaliteit.
Belangrijke standaarden voor het beschrijven van informatie- en gegevensmodellen zijn de Nederlandse standaard Metamodel Informatie Modellering (MIM) en de internationale standaarden RDFS, OWL en SHACL.
5.4.3 Datalineage
Er is toenemend behoefte aan informatie over de herkomst van gegevens. Dit is een kernaspect van gegevenskwaliteit. De basis hiervoor is dat gegevens over de herkomst worden vastgelegd. Denk daarbij aan gegevens over wie, op welk moment, op welke locatie, welke activiteit met welk doel heeft uitgevoerd. Er wordt ook wel onderscheid gemaakt tussen datalineage en dataprovenance (Bargh, 2024). Datalineage is daarbij het brede overzicht van hoe gegevens door processen en systemen heen bewegen en worden getransformeerd. Dataprovenance is een beschrijving van de actoren, bronnen en activiteiten die ten grondslag liggen aan een specifieke set aan gegevens.
Voor gegevenselementen die zijn gebaseerd op gegevens in andere systemen is het relevant om te weten welke systemen en gegevens eraan ten grondslag liggen en wat de eventuele afleidingsregels waren die zijn gebruikt. Er ontstaat zo een audit trail bij gegevens waarin de gehele totstandkoming inzichtelijk wordt en die idealiter ook aan de gebruiker kan worden getoond om deze meer vertrouwen te geven in de gegevens.
Voor een deel kan datalineage handmatig worden gedefinieerd, maar voor het in kaart brengen van meer fijnmazige gegevensstromen kan dit eigenlijk alleen op een geautomatiseerde manier. De transformaties om te komen tot het datawarehouse, datamarts en rapporten moeten hiervoor geautomatiseerd worden omgezet naar de relevante metagegevens. Een globale beschrijving van de datalineage kan ook al zijn opgenomen in een data-architectuur.
Er wordt ook wel onderscheid gemaakt tussen horizontale en verticale datalineage, waarbij voorgaande wordt beschouwd als horizontale lineage. Verticale data lineage betekent dat gegevens ook kunnen worden gerelateerd aan de informatie- en gegevensmodellen en begrippen die eraan ten grondslag liggen. Het maakt het mogelijk dat gebruikers bij gegevens in rapportages en dashboards ook kunnen zien wat de verschillende gegevenselementen precies betekenen.
Belangrijke standaarden op het gebied van datalineage zijn PROV en ISO 15836-1 (ook wel bekend als Dublin Core). Er is inmiddels een handreiking beschikbaar op het gebied van datalineage (Greefhorst, 2025).
5.4.4 Metagegevens over gegevenskwaliteit
Er zouden metagegevens moeten zijn die iets zeggen over de kwaliteit van gegevens, zodat gebruikers kunnen bepalen of de kwaliteit van gegevens aansluit bij hun beoogd gebruik. Dit soort metagegevens kunnen op het niveau van datasets worden vastgelegd en metadata standaarden daarvoor zoals DCAT en DQV bieden daarvoor ondersteuning.
Los daarvan is het gewenst om in de beschrijving van een dataset ook in tekstuele vorm aan te geven wat de kwaliteitseisen en de gemeten kwaliteit is. Daarvoor kan gebruik worden gemaakt van de zinsjablonen bij het NORA raamwerk gegevenskwaliteit. Je zou ook het resultaat van data profiling of andere kwaliteitscontroles geautomatiseerd kunnen vastleggen als metagegevens.
5.4.5 Kwaliteitslabels
Er kunnen kwaliteitslabels aan datasets of informatieproducten worden toegekend, die gebruikers een snelle indicatie geven van de kwaliteit van de gegevens. Een label van een dataset zegt daarbij minder over de kwaliteit in een specifieke gebruikscontext dan een label van een informatieproduct. In de context van het federatief datastelsel (FDS) wordt ook aan een kwaliteitslabel gewerkt.
|
De gemeente Rotterdam heeft een betrouwbaarheidslabel ontwikkeld voor informatieproducten (Teuben & Jansen, 2023). Dat label geeft informatie over de totstandkoming van een informatieproduct en helpt de afnemer bewust te kiezen om het wel of niet te gebruiken. Het zorgt voor transparantie. Het toekennen van een betrouwbaarheidslabel bouwt op bestaande processen voor het hergebruiken van gegevens en het opstellen van gegevensleveringsovereenkomsten. Het label is bewust breder dan gegevenskwaliteit. Zo besteedt het expliciet aandacht aan compliancy en informatieproductkenmerken. Vanuit compliancy is er expliciet aandacht voor privacy, beveiliging, algoritme, ethiek, informatiebeheer en eigenaarschap. Het bouwt op adviezen van privacy officers, security officers, ethiekadviseurs en specialisten informatiebeheer. Voor de informatieproductkenmerken wordt gekeken naar definities, specificaties, datalineage en acceptatie (test). De scores worden bepaald door te kijken of documentatie aanwezig is van deze aspecten en of daarbij het proces is gevolgd. De elf onderdelen samen bepalen de waarde van het label, die varieert van A tot E. Bij de hoogste score (label A) zijn de risico’s bij het gebruik van het product tot een minimum beperkt. Bij risico’s kun je denken aan fouten in data of verkeerde interpretatie door ontbrekende definities, of het nemen van beslissingen over discriminerende algoritmes. We spreken over een zeer betrouwbaar informatieproduct. De laagste score E betekent dat de risico’s van het product zeer hoog zijn. Het product is onbetrouwbaar. Advies is om het product alleen te gebruiken als de producteigenaar de risico's aanvaardbaar vindt. |
5.4.6 Metagegevens repositories
Er kunnen in specifiek daarvoor bedoelde systemen (repositories) metagegevens worden vastgelegd over de gegevens die aanwezig zijn in systemen en registraties. In dergelijke systemen kunnen alle eigenschappen van individuele gegevenselementen worden vastgelegd. Denk daarbij aan definities, datatypes, veldlengtes en of ze wel of niet kritiek zijn.
Ook de datalineage kan vaak in dit soort systemen worden vastgelegd, waardoor inzicht ontstaat in de totstandkoming van gegevens. Het is ook mogelijk om het resultaat van kwaliteitscontroles toe te voegen bij de metagegevens van een dataset in een metagegevens repository.
Met metagegevens repositories wordt documentatie van bestaande gegevens en gegevensstromen gecreëerd. Dit in tegenstelling tot begrippen, informatie-en gegevensmodellen die meer bedoeld zijn als documentatie vooraf.
5.4.7 Actieve metagegevens
Een nieuw perspectief op metagegevens is “active metadata”, een term die bedacht is door Gartner. Het kernidee is dat de hoeveelheid gegevens zo sterk groeit, en dat veel metagegevens te snel veranderen om handmatig vast te leggen. Ze moeten actief en continu worden verzameld en inzichtelijk worden gemaakt. Denk bijvoorbeeld aan datastructuren, logs, foutmeldingen en gebruiksgegevens.
Deze metagegevens kun je dan ook actief en geautomatiseerd ophalen, om zo een zo actueel mogelijk beeld te geven van de gegevens. Ze kunnen worden gebruikt om gegevens beter vindbaar en herbruikbaar te maken. Ze kunnen ook worden gebruikt om gebruikers, ontwikkelaars en beheerders meer gepersonaliseerde aanbevelingen te kunnen geven over wat voor hen nog meer interessant kan zijn of wat zij nog meer kunnen doen met deze gegevens.
Op basis van actuele inzichten kunnen ook automatisch aanbevelingen worden gedaan en kan sneller en deels geautomatiseerd worden gehandeld. Geautomatiseerde pipelines kunnen continu en pro-actief worden gemonitord en zo worden bijgestuurd. Er kunnen automatisch notificaties worden gestuurd over zaken waar mensen naar moeten kijken. Kunstmatige intelligentie kan worden gebruikt om afwijkingen van verwachte situaties te signaleren.
Volgende hoofdstuk: Hoofdstuk 6 - Volwassenheid
23 december 2025 14:55:19
14 mei 2025 08:58:04
23 december 2025 14:55:19
32
Informatief
20 mei 2025