Het belang van goed ingerichte gegevenswoordenboeken

Uit NORA Online
Ga naar: navigatie, zoeken
Logo van het subthema gegevensmanagement,de tekst Gegevensmanagement met een serie nulletjes en eentjes die op verschillende manieren zijn gegroepeerd en gearceerd. Plus in de onderhoek het logo van Data op het web, een spinneweb met nulletjes en eentjes er in en de tekst Data op het web.

Onderdeel van Gegevensmanagement.
Status: 1.0 - eerste publieke versie
Auteurs: Werkgroep gegevenswoordenboeken
Feedback pagina: H.Nijstad@kennisnet.nl

→ Naar leeswijzer

Grondslagen en begrippen:

Het doel van gegevensmanagement
Begrippenkader gegevensmanagement
Principes van gegevensmanagement
Wettelijke kaders en regelgeving gegevensmanagement

GegevensmanagementGegevensmanagement betreft het integraal en beheerst verwerken van gegevens in een organisatie zowel op strategisch tactisch als operationeel niveau met als doel de gewenste kwaliteit en beschikbaarheid te realiseren. organiseren binnen organisatie/keten:

Besturing en governance gegevensmanagement
Hoe stel ik een visie voor gegevensmanagement op in mijn organisatie?
Gegevensleveringsovereenkomst
Rollen binnen gegevensmanagement

Over gegevenswoordenboeken:

Gegevenswoordenboeken binnen het thema gegevensmanagement
Wat is een gegevenswoordenboek?
Het belang van goed ingerichte gegevenswoordenboeken
Governance van gegevenswoordenboeken
Beheer van gegevenswoordenboeken
Alle gegevenswoordenboeken binnen NORA

Gegevensmodellering:

Modellering van gegevens
MIM (Metamodel voor informatiemodellen)
MIM conceptueel framework

Applicatielaag: Technische keuzes

Publicatie gegevenswoordenboeken

Colofon:

Expertgroep Gegevensmanagement
Status Thema Gegevensmanagement


Het belang hangt af van hoe je naar een gegevenswoordenboek kijkt

Het belang van gegevenswoordenboeken is niet voor iedereen gelijk duidelijk, omdat het afhankelijk is van verschillende lagen en perspectieven:

  • Het gezichtspunt: voor de beleidsmaker gelden andere afwegingen dan voor de technisch ontwikkelaar of informatieanalist. De technisch applicatiebouwer heeft bij wijze van spreken vooral de ‘overzichtelijke’ XML nodig voor zijn specifieke toepassing, terwijl degene die verantwoordelijk is voor de samenhang tussen de verschillende contexten waarin het model wordt gebruikt en de samenhang tussen conceptueel en technisch perspectief, andere eisen stelt.
  • De manier waarop een gegevenswoordenboek wordt gedefinieerd: vanuit verschillende gezichtspunten ziet de één lijst met begrippen en definities, de ander een conceptueel model, weer een ander een technische XML voor een specifieke uitwisseling, et cetera.
  • De reikwijdte, de scope, waarvoor men het gegevenswoordenboek wil gebruiken: vaak wordt gestart met een specifieke toepassing voor een relatief eenvoudige uitwisseling binnen een bepaald domein. Maar als hetzelfde gegevenswoordenboek later ook voor andere toepassingen of contexten gebruikt gaat worden, dan neemt de complexiteit snel toe. Bijvoorbeeld: het vergt vaak enige aanpassingen voor de nieuwe context, de dynamiek van het model is anders of er raken andere stakeholders bij betrokken.

Met name het laatstgenoemde, het hergebruiken van een gegevenswoordenboek in een nieuwe context, roept de vraag op wie de samenhang en integriteit van het model bewaakt. Het wordt dus steeds crucialer om het belang scherp te hebben met als doel de governance en de praktische uitvoering goed in te richten. Het Nationaal Semantisch Vlak helpt hierbij.

De relatie tussen gegevenswoordenboeken en het Nationaal Semantisch Vlak

Het Nationaal Semantisch Vlak (NSV) geeft een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORANederlandse Overheid Referentie Architectuur en stelt daarbij het fenomeen gegevenswoordenboek centraal. Het Nationaal Semantisch Vlak is de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishoudingHet totaal aan regels en voorzieningen gericht op de informatiestromen en –opslag of archivering ter ondersteuning van de primaire processen. van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd. Het Nationaal Semantisch Vlak is de verzamelterm voor al deze gecombineerde informatie.

Het hoeft dus niet één allesomvattend systeem of gegevenswoordenboek te zijn. Het kan een samenhangend stelsel van systemen en indexen e.d. zijn, dat zich gedraagt als één geheel en dat zo inzicht geeft in de relevante begrippen, relaties en context.

Casussen die de complexiteit van het belang duidelijk maken

Onderstaande casussen geven aan hoe belangrijk gegevenswoordenboeken zijn om (keten-)uitwisselingen snel en met kwaliteit te realiseren, niet alleen op de korte termijn, maar ook middellange en lange termijn. Overal om ons heen zien we dat data en de achterliggende modellen voor steeds meer verschillende processen worden gebruikt, processen die deels al wel maar vaak ook nog niet in beeld waren bij de ontwikkeling van de begrippenkader. Er raken dus meer verschillende stakeholders met verschillende belangen en een verschillende dynamiek betrokken. Burgers en bedrijfsleven verwachten ook dat data - uiteraard volgens de wettelijke (privacy)richtlijnen - steeds meer naadloos en realtime beschikbaar zijn voor verschillende doeleinden. En om dit te realiseren zijn goed ontwikkelde en beheerde gegevenswoordenboeken essentieel.

Casus: Vreemdelingenketen levert gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Het betreft hier alle vormen van gegevens, zowel data uit informatiesystemen als records en documenten, in alle vormen zoals gestructureerd als ongestructureerd aan de Tweede Kamer

In de Vreemdelingenketen moet met regelmaat worden gerapporteerd aan de Tweede Kamer, maar de Tweede Kamer ontvangt meerdere rapportages vanuit verschillende toeleveranciers. Hierbij wordt uit verschillende bronnen geput met nét afwijkende definities, begripskenmerken en relaties. Echter, de rapportages vertonen overlap en met een scherpe analyse zouden discrepanties kunnen worden opgemerkt. Daarnaast leiden begripswijzigingen in de loop van de tijd tot onduidelijkheid, wat niet acceptabel is voor de Tweede Kamer. Dus vindt er bij elke oplevering een extra analyseslag plaats om te zorgen dat de rapportages correct zijn en ook op elkaar aansluiten. Het kost dus elke keer weer extra tijd en expertise.

Casus: Hergebruiken van eenzelfde informatiemodel binnen onderwijsketen

Tientallen jaren wordt in het onderwijs voor de bekostiging van scholen eenzelfde model gebruikt dat prima voldoet. Wel kenden scholen in de loop van de tijd meer varianten en afwijkingen, maar die konden binnen het model met enige extra effort noodverbanden opgelost worden. Echter, datzelfde model met onderliggende data is zo belangrijk en compleet dat ook andere ketenprocessen zoals leveringen van leermaterialen, inspectieprocessen, fysieke veiligheidsprocessen etc. ‘leentjebuur’ gingen spelen. Dat levert kopieën op van het model waaraan extra entiteiten en relaties worden toegevoegd, extra gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Het betreft hier alle vormen van gegevens, zowel data uit informatiesystemen als records en documenten, in alle vormen zoals gestructureerd als ongestructureerd van bijv. fysieke locaties van scholen die door andere partijen wordt bijgehouden. Dat leidt tot een niet te onderhouden situatie: hoe bijvoorbeeld om te gaan met wijzigingen in de bron-data richting de afgeleide data? Inmiddels is er een grootschalig, meerjarig traject om samenhang vanuit diverse contexten te modelleren en zo de onderliggende data ook te structureren: Registratie Instellingen en Opleidingen, het wie-wat-waar in het onderwijs. (RIO)

schematische weergave van de complexiteit van het belang en de governance voor het Register voor Instellingen en Opleidingen, waarop te zien is welke elementen meespelen, zoals bekostiging, verantwoording en inspectie, en waarop de twee verschillende werkelijkheden worden genoemd: juridische en onderwijskundige werkelijkheid
Opmerking: Het Gegevenswoordenboek DUO wordt niet gebruikt voor de bekostiging van scholen, het berekenen en betalen. Het wordt gebruikt voor het uitwisselen van inschrijvingen, behaalde diploma’s en dergelijke tussen scholen en DUO. Het model, opgelegd door het register BRIN, dat de juridische werkelijkheid van erkenningen en toestemmingen weergeeft, is niet opgenomen in het Gegevenswoordenboek van DUO. Het model dat voor RIO is ontworpen is deels opgenomen in het Gegevenswoordenboek. Daarbij is ook de behoefte ontstaan om naast het geïmplementeerde model, een canoniek, of implementatieloos model te creëren maar dat is nog heel recent. Verwijzingen uit het Gegevenswoordenboek DUO naar wet en regelgeving zijn nog mondjesmaat.

Casus: Begrippen met meerdere betekenissen binnen wetgeving

Bij nieuwe wetgeving ontwikkelen beleidsmakers soms nieuwe begrippen om zaken goed te duiden - bijvoorbeeld voor een nieuwe context of in een nieuwe situatie. Vaak wordt daarbij niet gekeken of er al bestaande begrippen zijn in dat domein die eventueel - met enige aanpassingen of uitbreidingen - ook bruikbaar zijn. Gevolg is dat er meerdere, niet aan elkaar gerelateerde begrippen ontstaan voor vergelijkbare instanties of personen. Dat hoeft niet erg te zijn als ze gebruikt worden in wetgeving en processen die strikt van elkaar gescheiden zijn. Maar in het huidige tijdperk waarin steeds meer data wordt gecombineerd, kan het tot onduidelijkheid leiden. Het zou dus beter zijn als ook bij nieuwe wetgeving de kaders en richtlijnen van bestaande semantiek wordt meegenomen. Anders gezegd: niet gebruik maken van bestaande begrippen en relaties uit lopende processen door beleidsmakers creëert een semantische schuld die elders in ketens kosten met zich meebrengt, zoals veel meer discussietijd om semantiek af te stemmen of complexere technische oplossingen ter compensatie.

Casus: Verband curriculum havo 5 en curriculum vwo 6

Het curriculum van havo 5 en vwo 6 eindexamens lijkt voor bepaalde vakken identiek te zijn wat betreft de te behandelen stof. Daarom leek er geen bezwaar te zijn om hiervoor dezelfde begrippen te gebruiken. Echter, het havo 5 eindexamen werd gewijzigd en de geldigheid van begrippen diende te worden gewijzigd. Dat bleek niet mogelijk zonder ook (ongewenste) aanpassingen voor vwo te doen. Voortschrijdend inzicht leidde ertoe dat uiteindelijk toch beide curricula uit elkaar zijn gehaald en elk eigen URI’s (unieke identifiers) kregen.

Casus: Linked Data als oplossing voor hergebruiken data

In toenemende mate wordt data vanuit een primaire bron in verschillende toepassingen hergebruikt. Door bij de gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Het betreft hier alle vormen van gegevens, zowel data uit informatiesystemen als records en documenten, in alle vormen zoals gestructureerd als ongestructureerd de definitie van de begrippen waarop de data betrekking heeft mee te leveren, kan het risico worden verkleind dat gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Het betreft hier alle vormen van gegevens, zowel data uit informatiesystemen als records en documenten, in alle vormen zoals gestructureerd als ongestructureerd verkeerd worden hergebruikt. Dit kan in de context van Linked Data vrij eenvoudig. Een voorbeeld hiervan is bag.basisregistraties.overheid.nl, dat zowel de BAG-data bevat als de definities van de gehanteerde begrippen.

Casus: Interpretatieverschillen binnen de Omgevingswet

Bij het aanvragen van een vergunning voor bijvoorbeeld een aanlegsteiger is het mogelijk dat er verwarring ontstaat over het aangeven van de omvang. Neem je namelijk lengte x breedte of breedte x lengte?

Casus: Zaakgericht werken

Zaakgericht werken - één van de noodzakelijke bouwblokken is dat de informatiemodellen en gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Het betreft hier alle vormen van gegevens, zowel data uit informatiesystemen als records en documenten, in alle vormen zoals gestructureerd als ongestructureerd tussen verschillende domeinen aan elkaar zijn gerelateerd: semantische relatering <<nader uit te werken>>