Raamwerk gegevenskwaliteit: verschil tussen versies

Uit NORA Online
Naar navigatie springen Naar zoeken springen
(alle kolommen na toelichting verwijderd uit tabel kwaliteitsattributen)
(links, consistent {{pijl}} ipv bulletpoints)
 
(27 tussenliggende versies door 3 gebruikers niet weergegeven)
Regel 1: Regel 1:
<noinclude>{{Gegevensmanagement|auteurs=Gijsbert Kruithof (Nationaal Archief), Wim Stolk (Gemeentelijke Expertgroep Gegevensmanagement), Roland Kaijen (SVB), Robert van Wessel (ICTU)|status=eerste concept| feedback=Gijsbert.kruithof@nationaalarchief.nl
{{Raamwerk gegevenskwaliteit}}
}}</noinclude>{{Placeholder gegevensmanagement}}
Beste lezer,
{Voor je ligt de eerste gereviewde opzet* om gegevenskwaliteit vanuit de NORA expertgroep gegevensmanagement vorm te geven.
==Leeswijzer==
Deze opzet bouwt heel bewust door op een aantal (inter)nationale normen waar al veel denkwerk in is verricht, namelijk de ISO-standaarden 25010 en 25012 .
Daarnaast hebben we gebruik gemaakt van kennis uit het project gegevenskwaliteit in de omgevingswet, Rijkswaterstaat en DUO.


Als omschrijving van gegevenskwaliteit zijn we van het volgende uitgegaan :
==Voorgeschiedenis==
Als we spreken over de kwaliteit van gegevens , dan spreken we over "De mate waarin een geheel van eigenschappen en kenmerken van één of meer gegevens voldoet aan eisen". NB we hebben bij deze omschrijving gebruik gemaakt van de definitie uit ISO-9000.
Voor je ligt het resultaat van de openbare consultatie van het eerste kwartaal 2021 voor het raamwerk gegevenskwaliteit. In deze openbare consultatie hebben tientallen professionals van binnen en buiten de overheid gereageerd op het raamwerk gegevenskwaliteit. Reacties kwamen binnen vanuit gemeenten, ministeries, DAMA NL, het stelsel van Basisregistraties en bijvoorbeeld een juridisch adviesbureau.


Er zijn 3 tabbladen te vinden: kwaliteitsdimensies, kwaliteitsattributen en voorbeelden.
De consultatie volgde op de eerste versie van het raamwerk en heeft ook geleid tot enkele bijstellingen, aanscherpingen en aanvullingen op definitie en omschrijving. Deze reviews waren positief van aard en veel reacties dat er nu een basis ligt om een eenduidige interpretatie van het begrip gegevenskwaliteit en de daaronder liggende dimensies en attributen te onderkennen.  
* Kwaliteitsdimensies
* Kwaliteitsattributen
* Voorbeelden


NB: Deze opzet is opgesteld en bijgewerkt na de review door Danny Greefhorst (ArchiXL), Kasper Kisjes (Rijkswaterstaat), Jaap van den Berg en Gerald Groot Roessink (DUO) en Wim Stolk (Voorzitter Expertgroep Gegevensmanagement/Berenschot) met hulp van Rien Schep (Berenschot).
&nbsp;* Deze opzet is opgesteld en bijgewerkt na de review door Danny Greefhorst (ArchiXL), Kasper Kisjes (Rijkswaterstaat) Jaap van den Berg (DUO) en Gerald Groot Roessink (DUO) en Wim Stolk (Voorzitter Expertgroep Gegevensmanagement/Berenschot) met hulp van Tim Vrieling (Berenschot).
==Dimensies==
{| class="wikitable sortable"
! Juistheid !! De mate waarin gegevens de echte waarde goed weergeven.
|-
| Compleetheid || De mate waarin gegevens aanwezig zijn.
|-
| Validiteit || De mate waarin gegevens voldoen aan de verwachte structuur en opslagvorm.
|-
| Consistentie || De mate waarin gegevens niet in tegenspraak zijn met andere gegevens.
|-
| Actualiteit || De mate waarin gegevens recent genoeg zijn.
|-
| Precisie || De mate waarin gegevens exact of onderscheidend genoeg zijn.
|-
| Plausibiliteit || De mate waarin gegevens worden beschouwd als waar en geloofwaardig door gebruikers.
|-
| Traceerbaarheid || De mate waarin de totstandkoming en het gebruik van gegevens zijn vastgelegd.
|-
| Begrijpelijkheid || De mate waarin gegevens eenvoudig gelezen en geïnterpreteerd kunnen worden door gebruikers.
|}
==Kwaliteitsattributen==
{| class="wikitable sortable"
! Dimensie !! Kwaliteitsattribuut !! Basis of extensie !! Concept !! Definitie kwaliteitsattribuut !! Toelichting
|-
| Juistheid || Thematische juistheid || Basis || gegevensobject,waarde || De mate waarin kwalitatief beschrijvende gegevens overeenkomen met de werkelijkheid || Dit gaat vooral over of gegevens inhoudelijk kloppen. Idealiter is dat of ze overeenkomen met de werkelijkheid, maar in de praktijk is dat of ze overeenkomen met een registratie die dichter bij de werkelijkheid ligt of meer betrouwbaar is.
|-
| Juistheid || Classificatie juistheid || Basis || gegevensobject || De mate waarin gegevensobjecten zijn geïdentificeerd als het juiste logische objecttype. || Dit gaat over of gegevens wel of niet vallen onder de definitie van het objecttype. Als dat niet het geval is dan zou het kunnen beteken dat de definitie niet duidelijk genoeg is en dus aangescherpt moet worden.
|-
| Juistheid || Positionele juistheid || Geografie || waarde || De mate waarin locatiegegevens overeenkomen met de werkelijkheid. || Dit gaat over attributen die betrekking hebben op een locatie. Deze gegevens moeten zoveel mogelijk overeenkomen met de daadwerkelijke locatie.
|-
| Juistheid || Kwantitatieve juistheid || Statistiek || waarde || De mate waarin kwantitatieve gegevens overeenkomen met de werkelijkheid. || Dit specifiek in op attributen die uitgedrukt worden in een getal. Deze moeten zoveel mogelijk overeenkomen met het juiste getal. Als hier statistisch naar wordt gekeken dan wordt ook wel gesproken over systematische afwijking.
|-
| Compleetheid || Dataset compleetheid || Basis || dataset || De mate waarin objecten waarvan het bestaan bekend is aanwezig zijn. || Dit gaat over of alle gegevensobjecten aanwezig zijn in de dataset. Om dit te kunnen bepalen moet ook duidelijk zijn wat het geheel is. Daarnaast kunnen er altijd bepaalde objecten in de werkelijkheid zijn die we nog niet kennen en die we dus ook niet beschouwen als onderdeel van het geheel.
|-
| Compleetheid || Object compleetheid || Basis || gegevensobject || De mate waarin waarden bij gegevensobjecten aanwezig zijn. || Dit gaat over of er waarden voor alle relevante attributen zijn geregistreerd. Er zijn in een informatiemodel typisch een aantal attributen als verplicht gemarkeerd. Dat zou overeen moeten komen met een minimum kwaliteitsniveau.
|-
| Compleetheid || Overcompleetheid || Basis || gegevensobject || De mate waarin gegevensobjecten niet onterecht aanwezig zijn. || Dit gaat over gegevens die onderdeel zijn van de dataset, maar daarin eigenlijk niet thuishoren omdat zij niet passen bij de overeengekomen scope van de dataset, zij een duplicaat zijn van een ander informatieobject of onterecht zijn geïdentificeerd als behorend bij een specifiek objecttype (classificatie correctheid). Die laatste is ook een losse indicator.
|-
| Compleetheid || Historie compleetheid || Basis || dataset || De mate waarin historische gegevens aanwezig en temporeel dekkend zijn. || Dit heeft betrekking op dat gegevens op elk moment waarover een dataset uitspraken doet een geldige waarde moeten hebben. Er mogen als het ware geen gaten in de tijd ontstaan. Elke relevante toestandsverandering van een object zou zijn weerslag moeten vinden in de registratie.
|-
| Compleetheid || Metadata compleetheid || Basis || dataset,gegevensobject,waarde || De mate waarin metadata aanwezig zijn. || Dit gaat over de mate waarin beschrijvende gegevens aanwezig zijn over een dataset, gegevensobject of waarde. Dit gaat alleen over eigenschappen die direct gerelateerd zijn aan de gegevens zelf, zoals de definitie, het datatype, het formaat, toegekende klassen (in meest generieke zin), trefwoorden, kardinaliteit en verantwoordelijken.
|-
| Compleetheid || Ruimtelijke dekking || Geografie || dataset || De mate waarin de gegevens ruimtelijk dekkend zijn. || Dit gaat erover dat voor een bepaald gebied er gegevens aanwezig zijn voor alle deelgebieden en dat er dus geen "gaten" bestaan.
|-
| Validiteit || Formaatvaliditeit || Basis || dataset,gegevensobject,waarde || De mate waarin gegevens syntactisch correct zijn. || Dit gaat over of de gegevens voldoen aan het afgesproken formaat; of ze syntactisch correct zijn. Zijn alle symbolen overeenkomstig het verwachte formaat?
|-
| Validiteit || Domeinvaliditeit || Basis || waarde || De mate waarin de inhoud van waarden consistent zijn met hun domein. || Dit gaat over de mate waarin een waarde een geldige waarde is. Een domein is een type (zoals getal of tekst of opsomming) en kan ook een lijst van toegestane waarden beschrijven (waardelijst).
|-
| Validiteit || Geometrische validiteit || Geografie || waarde || De mate waarin iedere geometrie voldoet aan geometrische regels. || Dit gaat over attributen die een geometrie bevatten. De verzameling punten die onderdeel uitmaken van deze geometrie moeten aan specifieke voorwaarden voldoen. Zo mogen zij bijvoorbeeld niet in een incorrecte ringvolgorde zitten, geen dubbele punten bevatten, het juiste aantal punten bevatten en geen onnodig korte lijnen.
|-
| Consistentie || Logische consistentie || Basis || gegevensobject,waarde || De mate waarin de combinaties van waarden logisch samenhangend zijn. || Dit gaat over de relatie tussen verschillende attributen; dat een waarde voor een specifiek attribuut invloed heeft op de toegestane waarde voor een ander attribuut. Dergelijke relaties worden vastgelegd in kwaliteitsregels. In de context van het controleren hiervan wordt ook wel gesproken over verbandscontroles. Hiervoor wordt ook wel de term integriteit gebruikt.
|-
| Consistentie || Referentiële integriteit || Basis || waarde || De mate waarin verwijzingen in gegevens verwijzen naar bestaande gegevens. || Referentiële integriteit gaat over of verwijzingen tussen gegevens kloppen. Dergelijke verwijzingen zitten in database definities typisch in foreign key constraints. De waarde van een attribuut dat een dergelijke constraint kent moet dan verwijzen naar de primaire sleutel van een ander informatieobject.
|-
| Consistentie || Identificeerbaarheid || Basis || dataset,gegevensobject || De mate waarin gegevens zijn voorzien van een unieke en stabiele identificatie die ook buiten de directe gebruikscontext betekenis heeft. || Dit gaat over identifiers die relevant zijn om naar te verwijzen vanuit andere datasets. Dergelijke identifiers zijn de basis om datasets op een betrouwbare manier aan elkaar te kunnen koppelen.
|-
| Consistentie || Homogeniteit || Basis || dataset,gegevensobject || De mate waarin de gegevens in een dataset gelijksoortig zijn. || Dit gaat over specifieke attributen in een dataset en de mate waarin deze op een soortgelijk detailniveau zijn gevuld voor de gehele dataset. Er wordt bij homogeniteit ook wel gesproken over de mate van variatie van kwaliteit. Het meest sprekend is als je denkt over een geografische dataset, waarbij voor bepaalde gebieden in de dataset veel meer detail in het kaartbeeld aanwezig is dan voor andere gebieden.
|-
| Consistentie || Topologische consistentie || Geografie || waarde || De mate waarin ruimtelijke gegevens zich op de juiste wijze tot elkaar verhouden. || Dit gaat over de relatie die verschillende geometrieën met elkaar hebben. Deze vlakken kunnen onderdeel zijn van dezelfde geometrie (één attribuutwaarde) of van verschillende geometrieën (meerdere attribuutwaarden). Denk bijvoorbeeld aan overlap en aansluiting van vlakken.
|-
| Actualiteit || Updatefrequentie || Basis || dataset || De snelheid waarmee gegevens worden vernieuwd. || Dit heeft betrekking op hoe vaak gegevens of delen ervan worden bijgewerkt in een registratie. Dat wordt typisch uitgedrukt in termen van periodes zoals dagelijks, wekelijks, maandelijks of jaarlijks.
|-
| Actualiteit || Versheid || Basis || dataset,gegevensobject || De mate waarin gegevens tijdig zijn geactualiseerd. || Dit heeft betrekking op hoe oud gegevens zijn. Gegevens moeten periodiek opnieuw worden gemeten of er moet worden gecontroleerd of ze nog correct zijn.
|-
| Precisie || Opslagprecisie || Basis || attribuut,waarde || De mate waarin gegevens zijn geregistreerd. || Dit gaat vooral over het detailniveau van gegevens; het detailniveau van inwinning, het detailniveau door herhaalde metingen en het detailniveau waarmee data worden opgeslagen. Onderdeel van precisie is ondermeer het aantal significante cijfers.
|-
| Precisie || Geometrische precisie || Geografie || attribuut,waarde || De mate van detail waarmee ruimtelijke gegevens worden ingewonnen. || Dit gaat over onder meer de gridgrootte en aantal decimalen van coördinaten. Er wordt in de context van rasterdata ook wel gesproken over resolutie; het scheidend vermogen van een optisch apparaat.
|-
| Precisie || Statistische precisie || Statistiek || attribuut,waarde || De mate waarin metingen of berekeningen bij herhaling dezelfde waarde opleveren. || Dit gaat over de reproduceerbaarheid van metingen. Hoe groter de precisie hoe kleiner de toevallige fout. Statistische precisie ook wel uitgedrukt in de standaardafwijking. De standaardafwijking geeft de mate van spreiding van getallen rondom het gemiddelde van deze getallen.
|-
| Plausibiliteit || Authenticiteit || Basis || dataset,gegevensobject || De mate waarin de authenticiteit van de bron van de gegevens aantoonbaar is.  || Dit gaat erover of gegevens echt afkomstig zijn van de bron die je verwacht. Authenticiteit kan bijvoorbeeld worden aangetoond door de bewerker of verzender een digitale handtekening toe te laten voegen aan een gegeven. Niet te verwarren met authenticiteit in de betekenis dat ze een wettelijk verplicht gebruik kennen.
|-
| Plausibiliteit || Reputatie || Basis || dataset,gegevensobject || De mate waarin de gegevens worden vertrouwd vanwege de bron. || Dit gaat over de partij die de gegevens heeft aangeleverd. Vertrouwen kan op allerlei manieren worden opgebouwd, met name door eerdere ervaringen met een partij.
|-
| Plausibiliteit || Bewijsbaarheid || Basis || attribuut,waarde || De mate waarin de juistheid van een gegeven kan worden aangetoond || Dit gaat over de objectiviteit van een waarde; zijn er bewijzen aanwezig die onderbouwen dat deze waarde echt klopt? De kans is anders groot dat de waarde vooral gebaseerd is op wat één persoon denkt.
|-
| Plausibiliteit || Representativiteit || Statistiek || dataset || De mate waarin een dataset een goede weergave geeft van het geheel. || Dit gaat over de dataset als geheel en hoe deze zich verhoudt tot andere datasets in een groter geheel. Een dataset is representatief als de inhoud ervan statistisch gezien lijkt op die van andere datasets in het geheel.
|-
| Traceerbaarheid || Herleidbaarheid || Basis || attribuut,gegevensobject || De mate waarin is vastgelegd wie of wat het gegeven waar, wanneer en op welke manier heeft ingewonnen of bewerkt. || Dit gaat vooral over het beschikbaar zijn van informatie over de herkomst van gegevens en het pad dat zij hebben gevolgd. Dit is onderdeel van 'data lineage'. Het vraagt een audit trail waarin dergelijke gegevens beschikbaar zijn. In tegenstelling tot een meer algemene audit trail is deze onderdeel van de gegevens zelf. Het detailniveau van de audit trail is op het niveau van handelingen van subjecten.
|-
| Traceerbaarheid || Reproduceerbaarheid || Basis || attribuut || De mate waarin de transformatieregels die zijn gebruikt om tot de gegevens te komen bekend zijn. || Dit gaat over regels die gebruikt worden om gegevens om te vormen. Als deze regels gedocumenteerd zijn dan is het mogelijk om een set van uitvoergegevens te reproduceren met deze regels.
|-
| Traceerbaarheid || Gebruiksinzicht || Basis || dataset,gegevensobject || De mate waarin er inzicht is in de gebruikers en hun gebruik. || Dit gaat zowel over de groepen die de gegevens gebruiken als over hun precieze gebruik (de doelen waarvoor de gegevens worden gebruikt). De laatste vraagt het loggen van het gebruik en het inzichtelijk maken van deze logging in de vorm van statistieken.
|-
| Begrijpelijkheid || Leesbaarheid || Basis || waarde || De mate waarin teksten voor de doelgroep begrijpelijk zijn geformuleerd. || Dit gaat er vooral over dat teksten kunnen worden begrepen door de lezer. Het is dan met name relevant om de gebruikte woorden te beperken tot een subset waarvan ondersteld mag worden dat de doelgroep deze begrijpt. In die context wordt ook wel gesproken over een B1 taalniveau, wat een niveau is wat het merendeel van de bevolking begrijpt.
|}
==Voorbeelden==
===Dimensie: VALIDITEIT===
====Formaatconsistentie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Map X aanwezig in dataset || Schema-validatie ||  ||  ||  ||
|-
| Dataset heeft X kolommen ||  veld ||  ||  ||  ||
|-
| Bestand is UTF-8 gecodeerd ||  record ||  ||  ||  ||
|-
| Regel voor datum/tijdnotatie ||  dataset ||  Attribuutwaarde binnen toegestaan gegevenstype (kerntype)  || Datum diploma voldoet aan formatspecificaties zoals in iso8601 ||  || Datum binnen een record van een diplomaregistratie.
|-
| Bestandsextensie ||  ||  ||  ||  ||
|}
====Domeinconsistentie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
|  Waarde is groter/kleiner dan X, tussen X en Y || Schema-validatie ||  ||  ||  ||
|-
|  Waarde komt voor in domeinlijst X ||  Waarde past bij het datatype ||  Attribuutwaarde binnen toegestaan gegevenstype (minmaxwaarde)  || Examencijfer in de range 1 tot 10 ||  Gegevenstype te algemeen (bijv. string ipv iso8601) || Register Instellingen en Opleidingen, bronhouder DUO, erkend door Min van OCW, modeleigenaar EDU standaard.
|-
| Waarde voldoet aan een patroon ||  Waarde komt voor in domeinlijst ||  Attribuutwaarde binnen toegestaan gegevenstype (enumeratie)  || Diploma vermeldt NLQF-niveau aanduiding ||  Gegevenstype te groot (bijv. double ipv integer) ||
|-
| Waarde bevat geen verboden karakters, bijv. (non-)alfabetisch ||  Waarde komt voor in referentielijst ||  Attribuutwaarde binnen toegestaan gegevenstype (patroon)  || Naam van gediplomeerde voldoet aan schrijfregels BRP ||  Gegevenstype te lang  of onbepaalde lengte ||
|-
| Aantal karakters is niet groter dan X ||  ||  Attribuutwaarde binnen toegestaan gegevenstype (kerntype)  || BSN van gediplomeerde is numeriek ||  ||
|-
|  ||  ||  Attribuutwaarde binnen toegestaan gegevenstype (minmaxlengte)  || De schoolnaam is maximaal 80 karakters ||  ||
|}
====Geometrische correctheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Lijnen snijden zichzelf niet; lijnen vormen geen ‘P’ of ‘T” || niet in een incorrecte ringvolgorde ||  ||  ||  ||
|-
| Features hebben geen dubbele coördinaten; features vormen geen donut || dubbele punten bevatten ||  ||  ||  ||
|-
| Features hebben ten minste X coördinaten (bijv X=2 bij een lijn) || het juiste aantal punten bevatten ||  ||  ||  ||
|-
| Polygoon binnen polygoon heeft tegengestelde richting || geen onnodig korte lijnen ||  ||  ||  ||
|-
| Feature is niet samengesteld (dus geen MultiLine/MultiPolygon etc) || juiste geometrietypes (iso 19107) ||  ||  ||  ||
|-
| Geldige positie binnen het coördinatenreferentiestelsel ||  ||  ||  ||  ||
|}
===Dimensie: CONSISTENTIE===
====Logische consistentie
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Waarde in veld X is groter dan waarde in veld Y || verbandscontroles/kwaliteitsregels (OCL) || checkconstraints/business rules (SBVR) ||  ||  ||
|-
| Als Type gelijk is aan X, dan moet Codering beginnen met Y ||  ||  ||  ||  ||
|-
| Het object waar dit objectonderdeel aan is gekoppeld heeft status ‘actief’ ||  ||  ||  ||  ||
|-
| De waarden in veld X mogen opgeteld niet groter zijn dan Y ||  ||  ||  ||  ||
|-
| De waarden in veld X moeten strikt oplopend zijn over de tijd ||  ||  ||  ||  ||
|}
====Homogeniteit====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
|  || variatie van detail in verschillende gebiedsdelen || Variatie in detail schoolorganisatie || inschrijving per bestuur, hoofdvestiging, nevenvestiging of locatie ||  ||
|-
|
|}
====Referentiële integriteit====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Komt de (sleutel)waarde uit veld X voor in veld Y van tabel Z? ||  Foreign key moet bestaan ||  Foreign key moet bestaan || Diploma heeft betrekking op bestaande opleiding en aanbieder ||  ||
|-
|  ||  ||  Gegeven van het type URI moet resolvable zijn || Onderwijslocatie verwijst naar bestaand BAG Verblijfsobject ||  ||
|-
|  ||  ||  Gedenormaliseerde data moet actueel zijn || Lokaal vastgelegd woonadres leerling moet overeenkomen met BRP registratie ||  ||
|}
====Topologische consistentie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Geen overlap tussen objecten van featureClass A en B || Faulty point-curve connections ||  ||  ||  || Voorbeeld uit de GEO: Wegvak en groenstrook, deze dienen naast elkaar en niet over elkaar getekend te worden.
|-
| Elke lijn sluit aan op een andere lijn || Missing connections due to undershoots ||  ||  ||  ||
|-
| De gekoppelde objecten uit dataset X en Y zijn maximaal x meter verwijderd || Missing connections due to overshoots ||  ||  ||  ||
|-
| Ieder object uit featureClass A grenst aan een object uit featureClass B || Invalid slivers ||  ||  ||  ||
|-
|  || Invalid self-intersect errors ||  ||  ||  ||
|}
===Dimensie: COMPLEETHEID===
====Dataset  compleetheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Alle objectnamen uit referentieset X komen voor in veld Y || Is voor alle dagen een urendeclaratie ingevuld ||  Klopt de objectboekhouding: begin+in-uit=eind || Klopt het aantal inschrijvingen met de accountantscontrole ||  ||
|-
| Het totaal aantal records is gelijk aan X ||  ||  ||  ||  ||
|}
====Historie compleetheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Veld X bevat tenminste Y waarden in iedere maand sinds januari 2012 || Zijn alle statusovergangen gelogd? || Materiële historie patroon compleet || Zijn er ontbrekende perioden van een woonadres ||  ||
|-
| De dataset bevat een record voor ieder jaar sinds 1970 ||  || Formele historie patroon compleet || Kan een levering uit het verleden gereproduceerd worden? ||  ||
|-
| Bevat een meting voor elk tienminutenvak van de afgelopen dag ||  ||  ||  ||  ||
|-
|  ||  ||  ||  ||
|}
====Metadata compleetheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| De mate waarin metadata aanwezig zijn. ||  ||  ||  ||  ||
|}
====Object compleetheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Attribuut X is niet leeg, ‘null’ of anderszins ontbrekend || Zijn alle verplichte attributen aanwezig? ||  Attribuutvoorkomens binnen gestelde multipliciteit (min en max)  || Datum afgifte diploma moet ingevuld zijn.  ||  ||
|-
| Van attributen A-E is er ten minste één voorzien van een waarde ||  ||  ||  ||  ||
|}
====(Over)compleetheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| De waarden in veld X zijn uniek || overlappende urendeclaraties || Object hoort er niet bij  || Zijn er dubbele inschrijvingen ||  ||
|-
| Er komen geen gedeelde identifiers voor tussen tabellen X, Y en Z ||  ||  ||  ||  ||
|}
====Ruimtelijke dekking====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| De objecten van featureClass X vormen een aaneengesloten geheel zonder gaten ||  || Onderwijs per land verschillend  || Onderwijsaanbod (learning opportunities) niet gelijkmatig verdeeld in EU ||  ||
|-
| De objecten van featureClasses A-E dekken samen gebied X volledig af ||  ||  ||  ||  ||
|-
| Minstens 1 waarneming in elke gridcel / sector / … van een geometrisch object ||  ||  ||  ||  ||
|}
===Dimensie: JUISTHEID===
====Thematische juistheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| <> ||  Max afwijking gedigitaliseerde kaart || Zijn personen effectief geïdentificeerd? || Gelijkenis naam leerling meer dan 95% ||  ||
|}
====Classificatie juistheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| <> ||  Objectenhandboek Pand ||  ||  ||  ||
|}
====Positionele juistheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| <> ||  Max afwijking gedigitaliseerde luchtfoto's ||  ||  ||  ||
|}
===Dimensie: PRECISIE===
====Opslagprecisie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| Aantal significante decimalen is gelijk aan X ||  ||  Attribuutwaarde binnen toegestaan gegevenstype (fractiondigits)  || Examencijfer met (verplicht) een cijfer achter de komma ||  ||
|}
====Geometrische precisie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
|  || absoluut/relatief aantal pixels (resolutie) ||  ||  ||  ||
|}
====Statistische precisie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
|  || standaardafwijking ||  ||  ||  ||
|}
===Dimensie: ACTUALITEIT===
====Updatefrequentie====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
|  || Dagelijkse update ruimtelijke plannen. ||  ||  ||  ||
|}
====Versheid====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
| <> || Kaart niet ouder dan 2 jaar. ||  ||  ||  ||
|}
====Authenticiteit====
{| class="wikitable sortable"
! Rijkswaterstaat toelichting !! DSO toelichting !! DUO-abstract !! DUO-concreet !! DUO-modelkwaliteit !! Case voorbeeld
|-
|  || aantoonbaar met document of register ||  || Is mijn Duitse ingenieursdiploma echt? ||  ||
|}
====Reputatie====


====Representativiteit====
__TOC__
==Vervolgtraject, planning==
Met deze eerste versie zijn we nog niet klaar met de omschrijving en uitwerking van gegevenskwaliteit. In 2021 staat nog een verdere detaillering van het raamwerk gepland en om het draagvlak verder te verbreden.
• Vervolgtraject
o Ambitie / planning
o Mogelijkheden om mee te doen
o Oproep (wat hebben jullie nog nodig? Bijvoorbeeld feedback sturen als je in de praktijk raamwerk gebruikt wat er goed ging en wat niet)


===Dimensie: PLAUSIBILITEIT===
==Doel & uitgangspunten raamwerk gegevenskwaliteit==
====Herleidbaarheid====
Het doel van het raamwerk gegevenskwaliteit was om te komen tot een gemeenschappelijke definitie en inzicht in hoe gegevenskwaliteit moet worden omschreven en gewaardeerd. Als de gegevenskwaliteit voor de Nederlandse overheid niet eenduidig is gedefinieerd dan wordt het lastig om gegevens met elkaar te vergelijken, toe te passen of eisen te stellen aan een verbeterde gegevenskwaliteit.


====Reproduceerbaarheid====
Stel je nu eens voor dat er sprake is van één omschrijving van gegevenskwaliteit en een breed toepasbare set van dimensies en onderliggende attributen, dan is het minimaal mogelijk om een gemeenschappelijke referentiekader te formuleren waarlangs elk gegeven kan worden gelegd. Dan is het niet eens nodig om nu direct elk gegevensset om te gooien volgens nieuwe gegevenskwaliteitsdefinities, maar kunnen we wél direct aan de slag met een gemeenschappelijke referentiekader.
====Gebruiksinzicht====


===Dimensie: BEGRIJPELIJKHEID===
Overigens ligt hierbij de focus op praktische toepasbaarheid en daarmee op meetbaarheid van de kwaliteitsattributen. Daarmee benoemen we dus vooral de praktisch meest waardevolle dingen en streven we geen volledigheid na vanuit theoretisch perspectief.
====Leesbaarheid====
 
==Scope==
Uitgangspunt bij het vaststellen van het raamwerk was om gebruik te maken van (inter)nationale onafhankelijke standaarden. We wilden dus niet het wiel opnieuw uitvinden maar standaarden die aansluiten bij gebruik voor de Nederlandse overheid selecteren en waar nodig vertalen van het Engels naar Nederlands.
 
Het raamwerk gegevenskwaliteit focust nu op de inherente gegevenskwaliteit. Inherente datakwaliteit verwijst naar de mate waarin kwaliteitskenmerken van gegevens het intrinsieke potentieel hebben om aan de gestelde en impliciete behoeften te voldoen wanneer gegevens onder gespecificeerde omstandigheden worden gebruikt. Dus er wordt niet gesproken over systeem-afhankelijk- of proces- afhankelijke gegevenskwaliteit.
 
Deze systeem-afhankelijke of proces gegevenskwaliteit kunnen we in latere versies nog onderzoeken.
 
==Voor wie is het raamwerk bedoeld?==
Het raamwerk gegevenskwaliteit is bedoeld voor iedereen die met overheidsgegevens werkt. Dat is bijvoorbeeld van toepassing op basisregistraties of de SUWI-keten of gemeentelijke gegevens in het sociale domein. Het gaat zowel van applicatiebeheerders tot aan afdelingsmanagers en informatiearchitecten of datascientisten. Ook kan een CIO of CDO dit raamwerk toepassen in het vaststellen van het gewenste gegevenskwaliteitsproces of interpretatie van attributen.
 
==Toepassen van het raamwerk==
Het raamwerk is op diverse manieren inzetbaar:
* Referentie naar onderdelen van gegevenskwaliteit, dimensies of attributen
* Bij het opzetten van een nieuwe registratie het kunnen inzetten van eenduidige gegevenskwaliteitseisen
* Bij het vergelijken van gegevenssets een hanteerbare lijst van gegevenskwaliteitseisen die ontdaan zijn proces-gerelateerde eisen
* Bij een gegevenskwaliteitsproject om de gegevenskwaliteit te verbeteren met eenduidige door NORA opgestelde gegevenskwaliteitseisen
 
===Definities gegevens & kwaliteit van gegevens===
Als we spreken over de kwaliteit van gegevens , dan spreken we over "De mate waarin een geheel van eigenschappen en kenmerken van één of meer gegevens voldoet aan eisen". NB we hebben bij deze omschrijving gebruik gemaakt van de definitie uit [[https://www.nen.nl/nen-en-iso-9000-2015-en-nl-211925 NEN-ISO 9000].
En daarnaast maken we gebruik van de definitie gegevens zoals deze in de NORA in gebruik is: Een formeel vastgelegd feit, begrip of aanwijzing.
 
{{Pijl|[[Begrippen Gegevenskwaliteit]]}}
<!-- begrippenkader is nu geen semantische informatie, omdat het op punten conflicteert met het begrippenkader van NORA -->
 
===Onderdelen van het raamwerk===
Het raamwerk bestaat uit vier onderdelen: een begrippenlijst, de 9 kwaliteitsdimensies, de 32 kwaliteitsattributen en voorbeelden van de attributen.
 
====Begrippenlijst====
In de [[Begrippen Gegevenskwaliteit|begrippenlijst]] is een overzicht te vinden van veelgebruikte begrippen binnen het raamwerk gegevenskwaliteit. Gegevenskwaliteit is een thema met veel begrippen en een eigen context, daarmee is een begrippenlijst wel nodig.
 
====Dimensies en attributen====
Het raamwerk gegevenskwaliteit is vervolgens verdeeld in 9 dimensies en beschrijft de betekenis van deze dimensies en hoe of wanneer, waarom of voor wie deze relevant is.
Dimensies  zijn onderverdelingen van gegevenskwaliteit in niet overlappende categorieën. Attributen  zijn kenmerken of eigenschappen van de eerder genoemde dimensies.
 
Per dimensie geeft het raamwerk de belangrijkste attributen die van belang zijn. Dat zijn over het algemeen geen nieuwe notaties of ideeën, maar een herschikking van bestaande kennis in één logisch raamwerk.
 
{{Pijl|[[Raamwerk gegevenskwaliteit/Kwaliteitsdimensies tabel|Kwaliteitsdimensies]]}}
{{Pijl|[[Raamwerk gegevenskwaliteit/Kwaliteitsattributen|Kwaliteitsattributen]]}} (in raamwerk en tabel)
{{Pijl|[[Raamwerk gegevenskwaliteit/Visualisatie toepassingsniveau's|Visualisatie toepassingsniveau's]]}}
 
====Mapping attributen====
Zoals al eerder gesteld hebben we veel hergebruikt van bestaande raamwerken. Voor wie al werkte met bestaande gegevensraamwerken geven we daarom ook een verwijzing/mapping per attribuut. Bronnen zijn: de ISO/IEC 25024, de NEN-ISO 19157,  de ISO 5725, het DAMA-NL raamwerk en het Kwaliteitsraamwerk Omgevingswet.
 
====Voorbeelden====
De lijst met voorbeelden  is nog niet compleet, deze worden in 2021 verder aangevuld en uitgewerkt. De huidige set voorbeelden beschrijven de dimensies, bijbehorende attributen en voorbeelden zoals deze binnen Rijkswaterstaat, het Digitaal Stelsel Omgevingswet en DUO zijn toegepast. Nogmaals: deze voorbeelden zijn nog niet compleet en zullen komend jaar verder ontwikkelen.
 
{{Pijl|[[Voorbeelden Raamwerk Gegevenskwaliteit]]}}
 
== Bronnen ==
* ISO-standaarden 25010 en 25012
* DAMA / Dataquality
* Gegevenskwaliteit in de omgevingswet
* Dataquality framework Rijkswaterstaat
* DUO Gegevenskwaliteit
 
==Feedback==
De NORA expertgroep gegevensmanagement staat altijd open voor feedback op het raamwerk of de toepassing van het raamwerk. Via de gegevens in het colofon (boven rechts) kunt u een bericht achterlaten.
 
<!-- beschrijving nog toe te voegen-->
 
{{DisplayReferences}}

Huidige versie van 24 jun 2021 om 13:01


Onderdeel van
Thema's
Contact
Wim Stolk
Wim.Stolk@minbzk.nl
Status
Actueel
Auteurs

Danny Greefhorst (ArchiXL), Kasper Kisjes (Rijkswaterstaat), Jaap van den Berg en Gerald Groot Roessink (DUO) en Wim Stolk (Min BZK) met hulp van Rien Schep (Berenschot)

Beste lezer,

Voorgeschiedenis[bewerken]

Voor je ligt het resultaat van de openbare consultatie van het eerste kwartaal 2021 voor het raamwerk gegevenskwaliteit. In deze openbare consultatie hebben tientallen professionals van binnen en buiten de overheid gereageerd op het raamwerk gegevenskwaliteit. Reacties kwamen binnen vanuit gemeenten, ministeries, DAMA NL, het stelsel van Basisregistraties en bijvoorbeeld een juridisch adviesbureau.

De consultatie volgde op de eerste versie van het raamwerk en heeft ook geleid tot enkele bijstellingen, aanscherpingen en aanvullingen op definitie en omschrijving. Deze reviews waren positief van aard en veel reacties dat er nu een basis ligt om een eenduidige interpretatie van het begrip gegevenskwaliteit en de daaronder liggende dimensies en attributen te onderkennen.

 * Deze opzet is opgesteld en bijgewerkt na de review door Danny Greefhorst (ArchiXL), Kasper Kisjes (Rijkswaterstaat) Jaap van den Berg (DUO) en Gerald Groot Roessink (DUO) en Wim Stolk (Voorzitter Expertgroep Gegevensmanagement/Berenschot) met hulp van Tim Vrieling (Berenschot).

Vervolgtraject, planning[bewerken]

Met deze eerste versie zijn we nog niet klaar met de omschrijving en uitwerking van gegevenskwaliteit. In 2021 staat nog een verdere detaillering van het raamwerk gepland en om het draagvlak verder te verbreden. • Vervolgtraject o Ambitie / planning o Mogelijkheden om mee te doen o Oproep (wat hebben jullie nog nodig? Bijvoorbeeld feedback sturen als je in de praktijk raamwerk gebruikt wat er goed ging en wat niet)

Doel & uitgangspunten raamwerk gegevenskwaliteit[bewerken]

Het doel van het raamwerk gegevenskwaliteit was om te komen tot een gemeenschappelijke definitie en inzicht in hoe gegevenskwaliteit moet worden omschreven en gewaardeerd. Als de gegevenskwaliteit voor de Nederlandse overheid niet eenduidig is gedefinieerd dan wordt het lastig om gegevens met elkaar te vergelijken, toe te passen of eisen te stellen aan een verbeterde gegevenskwaliteit.

Stel je nu eens voor dat er sprake is van één omschrijving van gegevenskwaliteit en een breed toepasbare set van dimensies en onderliggende attributen, dan is het minimaal mogelijk om een gemeenschappelijke referentiekader te formuleren waarlangs elk gegeven kan worden gelegd. Dan is het niet eens nodig om nu direct elk gegevensset om te gooien volgens nieuwe gegevenskwaliteitsdefinities, maar kunnen we wél direct aan de slag met een gemeenschappelijke referentiekader.

Overigens ligt hierbij de focus op praktische toepasbaarheid en daarmee op meetbaarheid van de kwaliteitsattributen. Daarmee benoemen we dus vooral de praktisch meest waardevolle dingen en streven we geen volledigheid na vanuit theoretisch perspectief.

Scope[bewerken]

Uitgangspunt bij het vaststellen van het raamwerk was om gebruik te maken van (inter)nationale onafhankelijke standaarden. We wilden dus niet het wiel opnieuw uitvinden maar standaarden die aansluiten bij gebruik voor de Nederlandse overheid selecteren en waar nodig vertalen van het Engels naar Nederlands.

Het raamwerk gegevenskwaliteit focust nu op de inherente gegevenskwaliteit. Inherente datakwaliteit verwijst naar de mate waarin kwaliteitskenmerken van gegevens het intrinsieke potentieel hebben om aan de gestelde en impliciete behoeften te voldoen wanneer gegevens onder gespecificeerde omstandigheden worden gebruikt. Dus er wordt niet gesproken over systeem-afhankelijk- of proces- afhankelijke gegevenskwaliteit.

Deze systeem-afhankelijke of proces gegevenskwaliteit kunnen we in latere versies nog onderzoeken.

Voor wie is het raamwerk bedoeld?[bewerken]

Het raamwerk gegevenskwaliteit is bedoeld voor iedereen die met overheidsgegevens werkt. Dat is bijvoorbeeld van toepassing op basisregistraties of de SUWI-keten of gemeentelijke gegevens in het sociale domein. Het gaat zowel van applicatiebeheerders tot aan afdelingsmanagers en informatiearchitecten of datascientisten. Ook kan een CIO of CDO dit raamwerk toepassen in het vaststellen van het gewenste gegevenskwaliteitsproces of interpretatie van attributen.

Toepassen van het raamwerk[bewerken]

Het raamwerk is op diverse manieren inzetbaar:

  • Referentie naar onderdelen van gegevenskwaliteit, dimensies of attributen
  • Bij het opzetten van een nieuwe registratie het kunnen inzetten van eenduidige gegevenskwaliteitseisen
  • Bij het vergelijken van gegevenssets een hanteerbare lijst van gegevenskwaliteitseisen die ontdaan zijn proces-gerelateerde eisen
  • Bij een gegevenskwaliteitsproject om de gegevenskwaliteit te verbeteren met eenduidige door NORA opgestelde gegevenskwaliteitseisen

Definities gegevens & kwaliteit van gegevens[bewerken]

Als we spreken over de kwaliteit van gegevens , dan spreken we over "De mate waarin een geheel van eigenschappen en kenmerken van één of meer gegevens voldoet aan eisen". NB we hebben bij deze omschrijving gebruik gemaakt van de definitie uit [NEN-ISO 9000. En daarnaast maken we gebruik van de definitie gegevens zoals deze in de NORA in gebruik is: Een formeel vastgelegd feit, begrip of aanwijzing.

Onderdelen van het raamwerk[bewerken]

Het raamwerk bestaat uit vier onderdelen: een begrippenlijst, de 9 kwaliteitsdimensies, de 32 kwaliteitsattributen en voorbeelden van de attributen.

Begrippenlijst[bewerken]

In de begrippenlijst is een overzicht te vinden van veelgebruikte begrippen binnen het raamwerk gegevenskwaliteit. Gegevenskwaliteit is een thema met veel begrippen en een eigen context, daarmee is een begrippenlijst wel nodig.

Dimensies en attributen[bewerken]

Het raamwerk gegevenskwaliteit is vervolgens verdeeld in 9 dimensies en beschrijft de betekenis van deze dimensies en hoe of wanneer, waarom of voor wie deze relevant is. Dimensies zijn onderverdelingen van gegevenskwaliteit in niet overlappende categorieën. Attributen zijn kenmerken of eigenschappen van de eerder genoemde dimensies.

Per dimensie geeft het raamwerk de belangrijkste attributen die van belang zijn. Dat zijn over het algemeen geen nieuwe notaties of ideeën, maar een herschikking van bestaande kennis in één logisch raamwerk.

(in raamwerk en tabel)

Mapping attributen[bewerken]

Zoals al eerder gesteld hebben we veel hergebruikt van bestaande raamwerken. Voor wie al werkte met bestaande gegevensraamwerken geven we daarom ook een verwijzing/mapping per attribuut. Bronnen zijn: de ISO/IEC 25024, de NEN-ISO 19157, de ISO 5725, het DAMA-NL raamwerk en het Kwaliteitsraamwerk Omgevingswet.

Voorbeelden[bewerken]

De lijst met voorbeelden is nog niet compleet, deze worden in 2021 verder aangevuld en uitgewerkt. De huidige set voorbeelden beschrijven de dimensies, bijbehorende attributen en voorbeelden zoals deze binnen Rijkswaterstaat, het Digitaal Stelsel Omgevingswet en DUO zijn toegepast. Nogmaals: deze voorbeelden zijn nog niet compleet en zullen komend jaar verder ontwikkelen.

Bronnen[bewerken]

  • ISO-standaarden 25010 en 25012
  • DAMA / Dataquality
  • Gegevenskwaliteit in de omgevingswet
  • Dataquality framework Rijkswaterstaat
  • DUO Gegevenskwaliteit

Feedback[bewerken]

De NORA expertgroep gegevensmanagement staat altijd open voor feedback op het raamwerk of de toepassing van het raamwerk. Via de gegevens in het colofon (boven rechts) kunt u een bericht achterlaten.