Raamwerk gegevenskwaliteit

Uit NORA Online
Versie door M.M.Vos (overleg | bijdragen) op 15 jan 2021 om 12:04 (afbeeldingen iets groter)
Naar navigatie springen Naar zoeken springen

Review

Voor je ligt de eerste gereviewde opzet om een framework gegevenskwaliteit vanuit de NORA expertgroep gegevensmanagement vorm te geven. Deze opzet willen we nu gedurende 2 maanden in een openbare review via NORA door-ontwikkelen. Je kunt direct voorstellen doen in de wiki (even een account aanmaken) of per mail naar Wim Stolk met de link w.stolk@berenschot.nl Rond 1 maart 2021 worden alle reacties verzameld, beoordeeld en waar nodig verwerkt in een nieuwere versie van dit framework. Het zal vanaf die datum integraal onderdeel worden van het NORA thema Gegevensmanagement.


Onderdeel van
Thema's
Contact
Arjen Santema
w.stolk@berenschot.nl
Status
Actueel
Auteurs

Danny Greefhorst (ArchiXL), Kasper Kisjes (Rijkswaterstaat), Jaap van den Berg en Gerald Groot Roessink (DUO) en Wim Stolk (Voorzitter Expertgroep Gegevensmanagement/Berenschot) met hulp van Rien Schep (Berenschot)

Leeswijzer[bewerken]

Deze opzet bouwt heel bewust door op een aantal (inter)nationale normen waar al veel denkwerk in is verricht, namelijk de ISO-standaarden 25010 en 25012. Daarnaast hebben we gebruik gemaakt van kennis uit het project gegevenskwaliteit in de omgevingswet, Rijkswaterstaat en DUO.

Als omschrijving van gegevenskwaliteit zijn we van het volgende uitgegaan: Als we spreken over de kwaliteit van gegevens, dan spreken we over "De mate waarin een geheel van eigenschappen en kenmerken van één of meer gegevens voldoet aan eisen". NB: We hebben deze beschrijving gemaakt op basis van de definitie uit de NEN-ISO 9000.

Er zijn 3 onderdelen te vinden: kwaliteitsdimensies, kwaliteitsattributen en voorbeelden.

NB: Deze opzet is opgesteld en bijgewerkt na de review door Danny Greefhorst (ArchiXL), Kasper Kisjes (Rijkswaterstaat), Jaap van den Berg en Gerald Groot Roessink (DUO) en Wim Stolk (Voorzitter Expertgroep Gegevensmanagement/Berenschot) met hulp van Rien Schep (Berenschot).

Bronnen[bewerken]

  • ISO-standaarden 25010 en 25012
  • DAMA / Dataquality
  • Gegevenskwaliteit in de omgevingswet
  • Dataquality framework Rijkswaterstaat
  • DUO Gegevenskwaliteit

Dimensies[bewerken]

Juistheid De mate waarin gegevens de echte waarde goed weergeven.
Compleetheid De mate waarin gegevens aanwezig zijn.
Validiteit De mate waarin gegevens voldoen aan de verwachte structuur en opslagvorm.
Consistentie De mate waarin gegevens niet in tegenspraak zijn met andere gegevens.
Actualiteit De mate waarin gegevens recent genoeg zijn.
Precisie De mate waarin gegevens exact of onderscheidend genoeg zijn.
Plausibiliteit De mate waarin gegevens worden beschouwd als waar en geloofwaardig door gebruikers.
Traceerbaarheid De mate waarin de totstandkoming en het gebruik van gegevens zijn vastgelegd.
Begrijpelijkheid De mate waarin gegevens eenvoudig gelezen en geïnterpreteerd kunnen worden door gebruikers.

Kwaliteitsattributen[bewerken]

Hoofdattributen en twee extensies: Geografie en Statistiek[bewerken]

Weergave van de 9 dimensies van het raamwerk met per dimensie de bijbehorende attributen zoals die ook in de tabel onder de kop Kwaliteitsattributen vermeld zijn.
De hoofdattributen van het kwaliteitsraamwerk
Weergave van de 9 dimensies van het raamwerk met de extra attributen die horen bij geografisch gebruik van data en statistisch gebruik. In de tabel hieronder staan de attributen van deze beide extensies ook vermeld, met in kolom drie de markering geografie of statistiek.
Attributen uit de twee extensies van het kwaliteitsraamwerk.

Tabel met alle attributen[bewerken]

Dimensie Kwaliteitsattribuut Basis of extensie Concept Definitie kwaliteitsattribuut Toelichting
Juistheid Thematische juistheid Basis gegevensobject,waarde De mate waarin kwalitatief beschrijvende gegevens overeenkomen met de werkelijkheid Dit gaat vooral over of gegevens inhoudelijk kloppen. Idealiter is dat of ze overeenkomen met de werkelijkheid, maar in de praktijk is dat of ze overeenkomen met een registratie die dichter bij de werkelijkheid ligt of meer betrouwbaar is.
Juistheid Classificatie juistheid Basis gegevensobject De mate waarin gegevensobjecten zijn geïdentificeerd als het juiste logische objecttype. Dit gaat over of gegevens wel of niet vallen onder de definitie van het objecttype. Als dat niet het geval is dan zou het kunnen beteken dat de definitie niet duidelijk genoeg is en dus aangescherpt moet worden.
Juistheid Positionele juistheid Geografie waarde De mate waarin locatiegegevens overeenkomen met de werkelijkheid. Dit gaat over attributen die betrekking hebben op een locatie. Deze gegevens moeten zoveel mogelijk overeenkomen met de daadwerkelijke locatie.
Juistheid Kwantitatieve juistheid Statistiek waarde De mate waarin kwantitatieve gegevens overeenkomen met de werkelijkheid. Dit specifiek in op attributen die uitgedrukt worden in een getal. Deze moeten zoveel mogelijk overeenkomen met het juiste getal. Als hier statistisch naar wordt gekeken dan wordt ook wel gesproken over systematische afwijking.
Compleetheid Dataset compleetheid Basis dataset De mate waarin objecten waarvan het bestaan bekend is aanwezig zijn. Dit gaat over of alle gegevensobjecten aanwezig zijn in de dataset. Om dit te kunnen bepalen moet ook duidelijk zijn wat het geheel is. Daarnaast kunnen er altijd bepaalde objecten in de werkelijkheid zijn die we nog niet kennen en die we dus ook niet beschouwen als onderdeel van het geheel.
Compleetheid Object compleetheid Basis gegevensobject De mate waarin waarden bij gegevensobjecten aanwezig zijn. Dit gaat over of er waarden voor alle relevante attributen zijn geregistreerd. Er zijn in een informatiemodel typisch een aantal attributen als verplicht gemarkeerd. Dat zou overeen moeten komen met een minimum kwaliteitsniveau.
Compleetheid Overcompleetheid Basis gegevensobject De mate waarin gegevensobjecten niet onterecht aanwezig zijn. Dit gaat over gegevens die onderdeel zijn van de dataset, maar daarin eigenlijk niet thuishoren omdat zij niet passen bij de overeengekomen scope van de dataset, zij een duplicaat zijn van een ander informatieobject of onterecht zijn geïdentificeerd als behorend bij een specifiek objecttype (classificatie correctheid). Die laatste is ook een losse indicator.
Compleetheid Historie compleetheid Basis dataset De mate waarin historische gegevens aanwezig en temporeel dekkend zijn. Dit heeft betrekking op dat gegevens op elk moment waarover een dataset uitspraken doet een geldige waarde moeten hebben. Er mogen als het ware geen gaten in de tijd ontstaan. Elke relevante toestandsverandering van een object zou zijn weerslag moeten vinden in de registratie.
Compleetheid Metadata compleetheid Basis dataset,gegevensobject,waarde De mate waarin metadata aanwezig zijn. Dit gaat over de mate waarin beschrijvende gegevens aanwezig zijn over een dataset, gegevensobject of waarde. Dit gaat alleen over eigenschappen die direct gerelateerd zijn aan de gegevens zelf, zoals de definitie, het datatype, het formaat, toegekende klassen (in meest generieke zin), trefwoorden, kardinaliteit en verantwoordelijken.
Compleetheid Ruimtelijke dekking Geografie dataset De mate waarin de gegevens ruimtelijk dekkend zijn. Dit gaat erover dat voor een bepaald gebied er gegevens aanwezig zijn voor alle deelgebieden en dat er dus geen "gaten" bestaan.
Validiteit Formaatvaliditeit Basis dataset,gegevensobject,waarde De mate waarin gegevens syntactisch correct zijn. Dit gaat over of de gegevens voldoen aan het afgesproken formaat; of ze syntactisch correct zijn. Zijn alle symbolen overeenkomstig het verwachte formaat?
Validiteit Domeinvaliditeit Basis waarde De mate waarin de inhoud van waarden consistent zijn met hun domein. Dit gaat over de mate waarin een waarde een geldige waarde is. Een domein is een type (zoals getal of tekst of opsomming) en kan ook een lijst van toegestane waarden beschrijven (waardelijst).
Validiteit Geometrische validiteit Geografie waarde De mate waarin iedere geometrie voldoet aan geometrische regels. Dit gaat over attributen die een geometrie bevatten. De verzameling punten die onderdeel uitmaken van deze geometrie moeten aan specifieke voorwaarden voldoen. Zo mogen zij bijvoorbeeld niet in een incorrecte ringvolgorde zitten, geen dubbele punten bevatten, het juiste aantal punten bevatten en geen onnodig korte lijnen.
Consistentie Logische consistentie Basis gegevensobject,waarde De mate waarin de combinaties van waarden logisch samenhangend zijn. Dit gaat over de relatie tussen verschillende attributen; dat een waarde voor een specifiek attribuut invloed heeft op de toegestane waarde voor een ander attribuut. Dergelijke relaties worden vastgelegd in kwaliteitsregels. In de context van het controleren hiervan wordt ook wel gesproken over verbandscontroles. Hiervoor wordt ook wel de term integriteit gebruikt.
Consistentie Referentiële integriteit Basis waarde De mate waarin verwijzingen in gegevens verwijzen naar bestaande gegevens. Referentiële integriteit gaat over of verwijzingen tussen gegevens kloppen. Dergelijke verwijzingen zitten in database definities typisch in foreign key constraints. De waarde van een attribuut dat een dergelijke constraint kent moet dan verwijzen naar de primaire sleutel van een ander informatieobject.
Consistentie Identificeerbaarheid Basis dataset,gegevensobject De mate waarin gegevens zijn voorzien van een unieke en stabiele identificatie die ook buiten de directe gebruikscontext betekenis heeft. Dit gaat over identifiers die relevant zijn om naar te verwijzen vanuit andere datasets. Dergelijke identifiers zijn de basis om datasets op een betrouwbare manier aan elkaar te kunnen koppelen.
Consistentie Homogeniteit Basis dataset,gegevensobject De mate waarin de gegevens in een dataset gelijksoortig zijn. Dit gaat over specifieke attributen in een dataset en de mate waarin deze op een soortgelijk detailniveau zijn gevuld voor de gehele dataset. Er wordt bij homogeniteit ook wel gesproken over de mate van variatie van kwaliteit. Het meest sprekend is als je denkt over een geografische dataset, waarbij voor bepaalde gebieden in de dataset veel meer detail in het kaartbeeld aanwezig is dan voor andere gebieden.
Consistentie Topologische consistentie Geografie waarde De mate waarin ruimtelijke gegevens zich op de juiste wijze tot elkaar verhouden. Dit gaat over de relatie die verschillende geometrieën met elkaar hebben. Deze vlakken kunnen onderdeel zijn van dezelfde geometrie (één attribuutwaarde) of van verschillende geometrieën (meerdere attribuutwaarden). Denk bijvoorbeeld aan overlap en aansluiting van vlakken.
Actualiteit Updatefrequentie Basis dataset De snelheid waarmee gegevens worden vernieuwd. Dit heeft betrekking op hoe vaak gegevens of delen ervan worden bijgewerkt in een registratie. Dat wordt typisch uitgedrukt in termen van periodes zoals dagelijks, wekelijks, maandelijks of jaarlijks.
Actualiteit Versheid Basis dataset,gegevensobject, waarde De mate waarin gegevens tijdig zijn geactualiseerd. Dit heeft betrekking op hoe oud gegevens zijn. Gegevens moeten periodiek opnieuw worden gemeten of er moet worden gecontroleerd of ze nog correct zijn.
Precisie Opslagprecisie Basis attribuut,waarde De mate waarin gegevens zijn geregistreerd. Dit gaat vooral over het detailniveau van gegevens; het detailniveau van inwinning, het detailniveau door herhaalde metingen en het detailniveau waarmee data worden opgeslagen. Onderdeel van precisie is ondermeer het aantal significante cijfers.
Precisie Geometrische precisie Geografie attribuut,waarde De mate van detail waarmee ruimtelijke gegevens worden ingewonnen. Dit gaat over onder meer de gridgrootte en aantal decimalen van coördinaten. Er wordt in de context van rasterdata ook wel gesproken over resolutie; het scheidend vermogen van een optisch apparaat.
Precisie Statistische precisie Statistiek attribuut,waarde De mate waarin metingen of berekeningen bij herhaling dezelfde waarde opleveren. Dit gaat over de reproduceerbaarheid van metingen. Hoe groter de precisie hoe kleiner de toevallige fout. Statistische precisie ook wel uitgedrukt in de standaardafwijking. De standaardafwijking geeft de mate van spreiding van getallen rondom het gemiddelde van deze getallen.
Plausibiliteit Authenticiteit Basis dataset,gegevensobject De mate waarin de authenticiteit van de bron van de gegevens aantoonbaar is. Dit gaat erover of gegevens echt afkomstig zijn van de bron die je verwacht. Authenticiteit kan bijvoorbeeld worden aangetoond door de bewerker of verzender een digitale handtekening toe te laten voegen aan een gegeven. Niet te verwarren met authenticiteit in de betekenis dat ze een wettelijk verplicht gebruik kennen.
Plausibiliteit Reputatie Basis dataset,gegevensobject De mate waarin de gegevens worden vertrouwd vanwege de bron. Dit gaat over de partij die de gegevens heeft aangeleverd. Vertrouwen kan op allerlei manieren worden opgebouwd, met name door eerdere ervaringen met een partij.
Plausibiliteit Bewijsbaarheid Basis attribuut,waarde De mate waarin de juistheid van een gegeven kan worden aangetoond Dit gaat over de objectiviteit van een waarde; zijn er bewijzen aanwezig die onderbouwen dat deze waarde echt klopt? De kans is anders groot dat de waarde vooral gebaseerd is op wat één persoon denkt.
Plausibiliteit Representativiteit Statistiek dataset De mate waarin een dataset een goede weergave geeft van het geheel. Dit gaat over de dataset als geheel en hoe deze zich verhoudt tot andere datasets in een groter geheel. Een dataset is representatief als de inhoud ervan statistisch gezien lijkt op die van andere datasets in het geheel.
Traceerbaarheid Herleidbaarheid Basis attribuut,gegevensobject De mate waarin is vastgelegd wie of wat het gegeven waar, wanneer en op welke manier heeft ingewonnen of bewerkt. Dit gaat vooral over het beschikbaar zijn van informatie over de herkomst van gegevens en het pad dat zij hebben gevolgd. Dit is onderdeel van 'data lineage'. Het vraagt een audit trail waarin dergelijke gegevens beschikbaar zijn. In tegenstelling tot een meer algemene audit trail is deze onderdeel van de gegevens zelf. Het detailniveau van de audit trail is op het niveau van handelingen van subjecten.
Traceerbaarheid Reproduceerbaarheid Basis attribuut De mate waarin de transformatieregels die zijn gebruikt om tot de gegevens te komen bekend zijn. Dit gaat over regels die gebruikt worden om gegevens om te vormen. Als deze regels gedocumenteerd zijn dan is het mogelijk om een set van uitvoergegevens te reproduceren met deze regels.
Traceerbaarheid Gebruiksinzicht Basis dataset,gegevensobject De mate waarin er inzicht is in de gebruikers en hun gebruik. Dit gaat zowel over de groepen die de gegevens gebruiken als over hun precieze gebruik (de doelen waarvoor de gegevens worden gebruikt). De laatste vraagt het loggen van het gebruik en het inzichtelijk maken van deze logging in de vorm van statistieken.
Begrijpelijkheid Leesbaarheid Basis waarde De mate waarin teksten voor de doelgroep begrijpelijk zijn geformuleerd. Dit gaat er vooral over dat teksten kunnen worden begrepen door de lezer. Het is dan met name relevant om de gebruikte woorden te beperken tot een subset waarvan ondersteld mag worden dat de doelgroep deze begrijpt. In die context wordt ook wel gesproken over een B1 taalniveau, wat een niveau is wat het merendeel van de bevolking begrijpt.