Het belang van goed ingerichte gegevenswoordenboeken
- Onderdeel van
- Thema's
- Contact
- Henk Nijstad
- H.Nijstad@kennisnet.nl
- Status
- Actueel
- Auteurs
Werkgroep gegevenswoordenboeken
Het belang hangt af van hoe je naar een gegevenswoordenboek kijkt[bewerken]
Het belang van gegevenswoordenboeken is niet voor iedereen gelijk duidelijk, omdat het afhankelijk is van verschillende lagen en perspectieven:
- Het gezichtspunt: voor de beleidsmaker gelden andere afwegingen dan voor de technisch ontwikkelaar of informatieanalist. De technisch applicatiebouwer heeft bij wijze van spreken vooral de ‘overzichtelijke’ XML nodig voor zijn specifieke toepassing, terwijl degene die verantwoordelijk is voor de samenhang tussen de verschillende contexten waarin het model wordt gebruikt en de samenhang tussen conceptueel en technisch perspectief, andere eisen stelt.
- De manier waarop een gegevenswoordenboek wordt gedefinieerd: vanuit verschillende gezichtspunten ziet de één een lijst met begrippen en definities, de ander een conceptueel model, weer een ander een technische XML voor een specifieke uitwisseling, et cetera.
- De reikwijdte, de scope, waarvoor men het gegevenswoordenboek wil gebruiken: vaak wordt gestart met een specifieke toepassing voor een relatief eenvoudige uitwisseling binnen een bepaald domein. Maar als hetzelfde gegevenswoordenboek later ook voor andere toepassingen of contexten gebruikt gaat worden, dan neemt de complexiteit snel toe. Bijvoorbeeld: het vergt vaak enige aanpassingen voor de nieuwe context, de dynamiek van het model is anders of er raken andere stakeholders bij betrokken.
Met name het laatstgenoemde, het hergebruiken van een gegevenswoordenboek in een nieuwe context, roept de vraag op wie de samenhang en integriteit van het model bewaakt. Het wordt dus steeds crucialer om het belang scherp te hebben met als doel de governance en de praktische uitvoering goed in te richten. Het Nationaal Semantisch Vlak helpt hierbij.
De relatie tussen gegevenswoordenboeken en het Nationaal Semantisch Vlak[bewerken]
Het Nationaal Semantisch Vlak (NSV) geeft een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA en stelt daarbij het fenomeen gegevenswoordenboek centraal. Het Nationaal Semantisch Vlak is de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd. Het Nationaal Semantisch Vlak is de verzamelterm voor al deze gecombineerde informatie.
Het hoeft dus niet één allesomvattend systeem of gegevenswoordenboek te zijn. Het kan een samenhangend stelsel van systemen en indexen e.d. zijn, dat zich gedraagt als één geheel en dat zo inzicht geeft in de relevante begrippen, relaties en context.
Casussen die de complexiteit van het belang duidelijk maken[bewerken]
Onderstaande casussen geven aan hoe belangrijk gegevenswoordenboeken zijn om (keten-)uitwisselingen snel en met kwaliteit te realiseren, niet alleen op de korte termijn, maar ook middellange en lange termijn. Overal om ons heen zien we dat data en de achterliggende modellen voor steeds meer verschillende processen worden gebruikt, processen die deels al wel maar vaak ook nog niet in beeld waren bij de ontwikkeling van de begrippenkaders. Er raken dus meer verschillende stakeholders met verschillende belangen en een verschillende dynamiek betrokken. Burgers en bedrijfsleven verwachten ook dat data - uiteraard volgens de wettelijke (privacy)richtlijnen - steeds meer naadloos en realtime beschikbaar zijn voor verschillende doeleinden. En om dit te realiseren zijn goed ontwikkelde en beheerde gegevenswoordenboeken essentieel.
Casus: Migratieketen levert gegevens aan de Tweede Kamer[bewerken]
In de Migratieketen moet met regelmaat worden gerapporteerd aan de Tweede Kamer, maar de Tweede Kamer ontvangt meerdere rapportages vanuit verschillende toeleveranciers. Hierbij wordt uit verschillende bronnen geput met nét afwijkende definities, begripskenmerken en relaties. Echter, de rapportages vertonen overlap en met een scherpe analyse zouden discrepanties kunnen worden opgemerkt. Daarnaast leiden begripswijzigingen in de loop van de tijd tot onduidelijkheid, wat niet acceptabel is voor de Tweede Kamer. Dus vindt er bij elke oplevering een extra analyseslag plaats om te zorgen dat de rapportages correct zijn en ook op elkaar aansluiten. Het kost dus elke keer weer extra tijd en expertise.
Casus: Hergebruiken van eenzelfde informatiemodel binnen onderwijsketen[bewerken]
Tientallen jaren wordt in het onderwijs voor de bekostiging van scholen eenzelfde model gebruikt dat prima voldoet. Wel kenden scholen in de loop van de tijd meer varianten en afwijkingen, maar die konden binnen het model met enige extra effort via noodverbanden opgelost worden. Echter, datzelfde model met onderliggende data is zo belangrijk en compleet dat ook andere ketenprocessen zoals leveringen van leermaterialen, inspectieprocessen, fysieke veiligheidsprocessen etc. ‘leentjebuur’ gingen spelen. Dat levert kopieën op van het model waaraan extra entiteiten en relaties worden toegevoegd, extra gegevens van bijvoorbeeld fysieke locaties van scholen die door andere partijen wordt bijgehouden. Dat leidt tot een niet te onderhouden situatie: hoe bijvoorbeeld om te gaan met wijzigingen in de bron-data richting de afgeleide data? Inmiddels is er een grootschalig, meerjarig traject om samenhang vanuit diverse contexten te modelleren en zo de onderliggende data ook te structureren: Registratie Instellingen en Opleidingen, het wie-wat-waar in het onderwijs. (RIO)
Casus: Begrippen met meerdere betekenissen binnen wetgeving[bewerken]
Bij nieuwe wetgeving ontwikkelen beleidsmakers soms nieuwe begrippen om zaken goed te duiden - bijvoorbeeld voor een nieuwe context of in een nieuwe situatie. Vaak wordt daarbij niet gekeken of er al bestaande begrippen zijn in dat domein die eventueel - met enige aanpassingen of uitbreidingen - ook bruikbaar zijn. Gevolg is dat er meerdere, niet aan elkaar gerelateerde begrippen ontstaan voor vergelijkbare instanties of personen. Dat hoeft niet erg te zijn als ze gebruikt worden in wetgeving en processen die strikt van elkaar gescheiden zijn. Maar in het huidige tijdperk waarin steeds meer data wordt gecombineerd, kan het tot onduidelijkheid leiden. Het zou dus beter zijn als ook bij nieuwe wetgeving de kaders en richtlijnen van bestaande semantiek wordt meegenomen. Anders gezegd: niet gebruik maken van bestaande begrippen en relaties uit lopende processen door beleidsmakers creëert een semantische schuld die elders in ketens kosten met zich meebrengt, zoals veel meer discussietijd om semantiek af te stemmen of complexere technische oplossingen ter compensatie.
Casus: Verband curriculum havo 5 en curriculum vwo 6[bewerken]
Het curriculum van havo 5 en vwo 6 eindexamens lijkt voor bepaalde vakken identiek te zijn wat betreft de te behandelen stof. Daarom leek er geen bezwaar te zijn om hiervoor dezelfde begrippen te gebruiken. Echter, het havo 5 eindexamen werd gewijzigd en de geldigheid van begrippen diende te worden gewijzigd. Dat bleek niet mogelijk zonder ook (ongewenste) aanpassingen voor vwo te doen. Voortschrijdend inzicht leidde ertoe dat uiteindelijk toch beide curricula uit elkaar zijn gehaald en elk eigen URI’s (unieke identifiers) kregen.
Casus: Linked Data als oplossing voor hergebruiken data[bewerken]
In toenemende mate wordt data vanuit een primaire bron in verschillende toepassingen hergebruikt. Door bij de gegevens de definitie van de begrippen waarop de data betrekking heeft mee te leveren, kan het risico worden verkleind dat gegevens verkeerd worden hergebruikt. Dit kan in de context van Linked Data vrij eenvoudig. Een voorbeeld hiervan is bag.basisregistraties.overheid.nl, dat zowel de BAG-data bevat als de definities van de gehanteerde begrippen.
Casus: Interpretatieverschillen binnen de Omgevingswet[bewerken]
Bij het aanvragen van een vergunning voor bijvoorbeeld een aanlegsteiger is het mogelijk dat er verwarring ontstaat over het aangeven van de omvang. Neem je namelijk lengte x breedte of breedte x lengte?
Casus: Zaakgericht werken[bewerken]
Zaakgericht werken - één van de noodzakelijke bouwblokken is dat de informatiemodellen en gegevens tussen verschillende domeinen aan elkaar zijn gerelateerd: semantische relatering <<nader uit te werken>>