Het belang van goed ingerichte gegevenswoordenboeken: verschil tussen versies

Uit NORA Online
Naar navigatie springen Naar zoeken springen
(placeholder met sjabloon)
 
(aangemaakt op basis van document)
Regel 1: Regel 1:
{{Gegevensmanagement|auteurs=Nog in te vullen|status=DISCUSSIEVERSIE|feedback=persoon@organisatie.nl}}[[Categorie:Placeholder]]
{{Gegevensmanagement|auteurs=Nog in te vullen. Robert van Wessel, Ellen Roeper|status=DISCUSSIEVERSIE|feedback=persoon@organisatie.nl}}[[Categorie:Placeholder]]
=Het belang van goed ingerichte gegevenswoordenboeken (GDES01)=
==Inleiding: wat zijn gegevenswoordenboeken==
In de informatielaag van het Nationaal Semantisch Vlak is het niveau van de gegevenswoordenboeken: de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd.
Het Nationaal Semantisch Vlak is de verzamelterm voor al deze gecombineerde informatie. Het hoeft dus niet één allesomvattend systeem of gegevenswoordenboek te zijn. Het kan een samenhangend stelsel van systemen en indexen e.d. zijn, dat zich gedraagt als één geheel en dat zo inzicht geeft in de relevante begrippen, relaties en context.
==Het belang van gegevenswoordenboeken is diffuus, want het is afhankelijk van het perspectief==
Het lijkt triviaal, het belang van begrippen en hun definities, kenmerken, relaties, en de ermee samenhangende conceptuele en technische informatiemodellen. Toch is het expliciet maken van het belang vaak een stuk complexer, het kent vaak meerdere lagen en perspectieven. En daarom is het belang niet voor iedereen gelijk duidelijk, terwijl dit wel essentieel is voor de juiste positionering en het juiste gewicht binnen organisatie en ketenuitwisselingen. Zo hangt het belang af van het gezichtspunt: voor de beleidsmaker gelden andere afwegingen dan voor de technisch ontwikkelaar, of informatieanalist die verantwoordelijk is voor het conceptueel model; of voor gebruikers zoals app-bouwers of ketenpartijen die voor verschillende doeleinden moeten uitwisselen. De technisch applicatiebouwer heeft bij wijze van spreken vooral de ‘overzichtelijke’ XML nodig voor zijn specifieke toepassing, terwijl degene die verantwoordelijk is voor de samenhang tussen de verschillende contexten waarin het model wordt gebruikt én de samenhang tussen conceptueel en technisch perspectief hele andere eisen stelt.
 
Daarnaast hangt het belang sterk samen met wat precies als gegevenswoordenboek wordt verstaan, en dat is niet eenduidig. Vanuit verschillende gezichtspunten ziet de één lijst met begrippen en definities, de ander een conceptueel model, een technische XML voor een specifieke uitwisseling, etc. Tot slot hangt het belang sterk samen met de reikwijdte, de scope waarvoor men het gegevenswoordenboek wil gebruiken. Vaak wordt gestart met een specifieke toepassing voor een relatief eenvoudige uitwisseling binnen een bepaald domein. Maar als hetzelfde gegevenswoordenboek later ook voor andere toepassingen of contexten gebruikt gaat worden, dan neemt de complexiteit snel toe. Bijv. vergt het vaak enige aanpassingen voor de nieuwe context, is de dynamiek van het model anders of raken er andere stakeholders bij betrokken. Wie bewaakt dan de samenhang en integriteit van het model? En wordt het dus steeds belangrijker om het belang scherp te hebben om de governance en de praktische uitvoering goed in te richten.
==Voorbeelden van het belang en de complexiteit die hiermee samenhangt==
Daarom volgen nu enkele voorbeelden die dit duidelijk kunnen maken:
 
: ''Casus 1:'' In de Vreemdelingenketen moet met regelmaat worden gerapporteerd aan de Tweede Kamer. Deze ontvangt meerdere rapportages vanuit verschillende toeleveranciers. Hierbij wordt uit verschillende bronnen geput met op het niveau van GWB nét afwijkende definities, begripskenmerken en relaties. Echter, de rapportages vertonen overlap en met een scherpe analyse zouden discrepanties kunnen worden opgemerkt. Daarnaast leiden begripswijzigingen in de loop van de tijd tot onduidelijkheid. En dat is niet acceptabel voor de Tweede Kamer. Dus vindt er bij elke oplevering een extra analyseslag plaats om te zorgen dat de rapportages correct zijn en ook op elkaar aansluiten. Het kost dus (elke keer weer) extra tijd en expertise.
: ''Casus 2:'' Tientallen jaren wordt in het onderwijs voor de bekostiging van scholen eenzelfde model gebruikt dat prima voldoet. Wel kenden scholen in de loop van de tijd meer varianten en afwijkingen, maar die konden binnen het model met enige extra effort noodverbanden opgelost worden. Echter, datzelfde model met onderliggende data is zo belangrijk en compleet dat ook andere ketenprocessen zoals leveringen van leermaterialen, inspectieprocessen, fysieke veiligheidsprocessen etc  ‘leentjebuur’ gingen spelen. Dat levert kopieën op van het model waaraan extra entiteiten en relaties worden toegevoegd, extra gegevens van bijv. fysieke locaties van scholen die door andere partijen wordt bijgehouden. Dat leidt tot een niet te onderhouden situatie; hoe bijvoorbeeld om te gaan met wijzigingen in de bron-data richting de afgeleide data? Inmiddels is er een grootschalig, meerjarig traject om samenhang vanuit diverse contexten te modelleren en zo de onderliggende data ook te structureren: Registratie Instellingen en Opleidingen, het wie wat waar in het onderwijs. (RIO).
{{Metakader|Als achtergrondinformatie wordt nog toegevoegd:
Het Gegevenswoordenboek DUO wordt niet gebruikt voor de bekostiging van scholen, het berekenen en betalen. Het wordt gebruikt voor het uitwisselen van inschrijvingen, behaalde diploma’s en dergelijk tussen scholen en DUO.
Het model, opgelegd door het register BRIN, dat de juridische werkelijkheid van erkenningen en toestemmingen weergeeft, is niet opgenomen in het Gegevenswoordenboek van DUO. Het model dat voor RIO is ontworpen is deels opgenomen in het Gegevenswoordenboek. Daarbij is ook de behoefte ontstaan om naast het geïmplementeerde model, een canoniek, of implementatieloos model te creëren maar dat is nog heel recent.
Verwijzingen uit het Gegevenswoordenboek DUO naar wet en regelgeving zijn nog mondjesmaat.
}}
[[Afbeelding:complexiteit van belang en governance voor register voor instellingen en opleidingen.png|thumb|none|700px|alt=NADER IN TE VULLEN!!!]]
: ''Casus 3:'' Bij nieuwe wetgeving ontwikkelen beleidsmakers soms nieuwe begrippen om zaken goed te duiden - bijv. Voor een nieuwe context of in een nieuwe situatie. Vaak wordt daarbij niet gekeken of er al bestaande begrippen zijn in dat domein die eventueel - met enige aanpassingen of uitbreidingen - ook bruikbaar zijn. Gevolg is dat er meerdere, niet aan elkaar gerelateerde begrippen ontstaan voor vergelijkbare instanties of personen. Dat hoeft niet erg te zijn als ze gebruikt wordt in wetgeving en processen die strikt van elkaar gescheiden zijn. Maar in het huidige tijdperk waarin steeds meer data wordt gecombineerd, kan het tot onduidelijkheid leiden. Het zou dus beter zijn als ook bij nieuwe wetgeving de kaders en richtlijnen van bestaande semantiek wordt meegenomen. Anders gezegd: niet gebruik maken van bestaande begrippen en relaties uit lopende processen door beleidsmakers creëert een semantische schuld die elders in ketens kosten met zich meebrengt zoals veel meer discussietijd om semantiek af te stemmen of complexere technische oplossingen ter compensatie.
: ''Casus 4:'' Het curriculum van havo 5 en vwo 6 eindexamens lijkt voor bepaalde vakken identiek te zijn vwb. de te behandelen stof. Daarom leek er geen bezwaar te zijn om hiervoor dezelfde begrippen te gebruiken. Echter, het havo 5 eindexamen werd gewijzigd en de geldigheid van begrippen diende te worden gewijzigd. Dat bleek niet mogelijk zonder ook (ongewenste) aanpassingen voor vwo te doen. Voortschrijdend inzicht leidde ertoe dat uiteindelijk toch beide curricula uit elkaar zijn gehaald en elk eigen URI’s (unieke identifiers) kregen.
: ''Casus 5:'' Omgevingswet:  neem je lengte x breedte, of breedte lengte? Rijkswaterstaat, welk perspectief kies je. is een brug open vanuit de auto, of vanuit de boot? Rijksdienst voor ondernemende NL: er zijn 30 verschillende termen voor een big (klein varkentje), elk toepasselijk voor de eigen context.
: ''casus 6:'' In toenemende mate wordt data vanuit een primaire bron in verschillende toepassingen hergebruikt. Door bij de gegevens de definitie van de begrippen waarop de data betrekking heeft mee te leveren, kan het risico worden verkleind dat gegevens verkeerd worden hergebruikt. Dit kan in de context van linked-data vrij eenvoudig. Een voorbeeld hiervan is [https://bag.basisregistraties.overheid.nl bag.basisregistraties.overheid.nl], dat zowel de BAG-data bevat als de definities van de gehanteerde begrippen. Op deze pagina (in chrome browser of vergelijkbaar) zijn ook de labels klikbaar waarna de definitie getoond wordt.
 
: ''Casus 7:'' Zaakgericht werken - 1 van de noodzakelijke bouwblokken is dat de informatiemodellen en gegevens tussen verschillende domeinen aan elkaar zijn gerelateerd: semantische relatering <<nader uit te werken>>
 
Bovenstaande voorbeelden geven aan hoe belangrijk gegevenswoordenboeken zijn om (keten-)uitwisselingen snel en met kwaliteit te realiseren, niet alleen op de korte termijn, maar ook middellange en lange termijn. Op de korte termijn voor specifieke processen is het vaak nog wel beheersbaar. Maar overal om ons heen zien we dat data en de achterliggende modellen voor steeds meer verschillende processen worden gebruikt, processen die deels al wel maar vaak ook nog niet in beeld waren bij de ontwikkeling van de begrippenkader. Er raken dus meer verschillende stakeholders met verschillende belangen en een verschillende dynamiek betrokken. En burgers en bedrijfsleven verwachten ook dat data  - uiteraard volgens de wettelijke (privacy) richtlijnen - steeds meer naadloos en realtime beschikbaar zijn voor verschillende doeleinden. En om dit te realiseren zijn goed ontwikkelde en beheerde gegevenswoordenboeken essentieel.

Versie van 3 dec 2018 16:33


Onderdeel van
Thema's
Contact
Arjen Santema
persoon@organisatie.nl
Status
Actueel
Auteurs

Nog in te vullen. Robert van Wessel, Ellen Roeper

Het belang van goed ingerichte gegevenswoordenboeken (GDES01)[bewerken]

Inleiding: wat zijn gegevenswoordenboeken[bewerken]

In de informatielaag van het Nationaal Semantisch Vlak is het niveau van de gegevenswoordenboeken: de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd. Het Nationaal Semantisch Vlak is de verzamelterm voor al deze gecombineerde informatie. Het hoeft dus niet één allesomvattend systeem of gegevenswoordenboek te zijn. Het kan een samenhangend stelsel van systemen en indexen e.d. zijn, dat zich gedraagt als één geheel en dat zo inzicht geeft in de relevante begrippen, relaties en context.

Het belang van gegevenswoordenboeken is diffuus, want het is afhankelijk van het perspectief[bewerken]

Het lijkt triviaal, het belang van begrippen en hun definities, kenmerken, relaties, en de ermee samenhangende conceptuele en technische informatiemodellen. Toch is het expliciet maken van het belang vaak een stuk complexer, het kent vaak meerdere lagen en perspectieven. En daarom is het belang niet voor iedereen gelijk duidelijk, terwijl dit wel essentieel is voor de juiste positionering en het juiste gewicht binnen organisatie en ketenuitwisselingen. Zo hangt het belang af van het gezichtspunt: voor de beleidsmaker gelden andere afwegingen dan voor de technisch ontwikkelaar, of informatieanalist die verantwoordelijk is voor het conceptueel model; of voor gebruikers zoals app-bouwers of ketenpartijen die voor verschillende doeleinden moeten uitwisselen. De technisch applicatiebouwer heeft bij wijze van spreken vooral de ‘overzichtelijke’ XML nodig voor zijn specifieke toepassing, terwijl degene die verantwoordelijk is voor de samenhang tussen de verschillende contexten waarin het model wordt gebruikt én de samenhang tussen conceptueel en technisch perspectief hele andere eisen stelt.

Daarnaast hangt het belang sterk samen met wat precies als gegevenswoordenboek wordt verstaan, en dat is niet eenduidig. Vanuit verschillende gezichtspunten ziet de één lijst met begrippen en definities, de ander een conceptueel model, een technische XML voor een specifieke uitwisseling, etc. Tot slot hangt het belang sterk samen met de reikwijdte, de scope waarvoor men het gegevenswoordenboek wil gebruiken. Vaak wordt gestart met een specifieke toepassing voor een relatief eenvoudige uitwisseling binnen een bepaald domein. Maar als hetzelfde gegevenswoordenboek later ook voor andere toepassingen of contexten gebruikt gaat worden, dan neemt de complexiteit snel toe. Bijv. vergt het vaak enige aanpassingen voor de nieuwe context, is de dynamiek van het model anders of raken er andere stakeholders bij betrokken. Wie bewaakt dan de samenhang en integriteit van het model? En wordt het dus steeds belangrijker om het belang scherp te hebben om de governance en de praktische uitvoering goed in te richten.

Voorbeelden van het belang en de complexiteit die hiermee samenhangt[bewerken]

Daarom volgen nu enkele voorbeelden die dit duidelijk kunnen maken:

Casus 1: In de Vreemdelingenketen moet met regelmaat worden gerapporteerd aan de Tweede Kamer. Deze ontvangt meerdere rapportages vanuit verschillende toeleveranciers. Hierbij wordt uit verschillende bronnen geput met op het niveau van GWB nét afwijkende definities, begripskenmerken en relaties. Echter, de rapportages vertonen overlap en met een scherpe analyse zouden discrepanties kunnen worden opgemerkt. Daarnaast leiden begripswijzigingen in de loop van de tijd tot onduidelijkheid. En dat is niet acceptabel voor de Tweede Kamer. Dus vindt er bij elke oplevering een extra analyseslag plaats om te zorgen dat de rapportages correct zijn en ook op elkaar aansluiten. Het kost dus (elke keer weer) extra tijd en expertise.
Casus 2: Tientallen jaren wordt in het onderwijs voor de bekostiging van scholen eenzelfde model gebruikt dat prima voldoet. Wel kenden scholen in de loop van de tijd meer varianten en afwijkingen, maar die konden binnen het model met enige extra effort noodverbanden opgelost worden. Echter, datzelfde model met onderliggende data is zo belangrijk en compleet dat ook andere ketenprocessen zoals leveringen van leermaterialen, inspectieprocessen, fysieke veiligheidsprocessen etc ‘leentjebuur’ gingen spelen. Dat levert kopieën op van het model waaraan extra entiteiten en relaties worden toegevoegd, extra gegevens van bijv. fysieke locaties van scholen die door andere partijen wordt bijgehouden. Dat leidt tot een niet te onderhouden situatie; hoe bijvoorbeeld om te gaan met wijzigingen in de bron-data richting de afgeleide data? Inmiddels is er een grootschalig, meerjarig traject om samenhang vanuit diverse contexten te modelleren en zo de onderliggende data ook te structureren: Registratie Instellingen en Opleidingen, het wie wat waar in het onderwijs. (RIO).

Als achtergrondinformatie wordt nog toegevoegd: Het Gegevenswoordenboek DUO wordt niet gebruikt voor de bekostiging van scholen, het berekenen en betalen. Het wordt gebruikt voor het uitwisselen van inschrijvingen, behaalde diploma’s en dergelijk tussen scholen en DUO. Het model, opgelegd door het register BRIN, dat de juridische werkelijkheid van erkenningen en toestemmingen weergeeft, is niet opgenomen in het Gegevenswoordenboek van DUO. Het model dat voor RIO is ontworpen is deels opgenomen in het Gegevenswoordenboek. Daarbij is ook de behoefte ontstaan om naast het geïmplementeerde model, een canoniek, of implementatieloos model te creëren maar dat is nog heel recent. Verwijzingen uit het Gegevenswoordenboek DUO naar wet en regelgeving zijn nog mondjesmaat.

NADER IN TE VULLEN!!!
Casus 3: Bij nieuwe wetgeving ontwikkelen beleidsmakers soms nieuwe begrippen om zaken goed te duiden - bijv. Voor een nieuwe context of in een nieuwe situatie. Vaak wordt daarbij niet gekeken of er al bestaande begrippen zijn in dat domein die eventueel - met enige aanpassingen of uitbreidingen - ook bruikbaar zijn. Gevolg is dat er meerdere, niet aan elkaar gerelateerde begrippen ontstaan voor vergelijkbare instanties of personen. Dat hoeft niet erg te zijn als ze gebruikt wordt in wetgeving en processen die strikt van elkaar gescheiden zijn. Maar in het huidige tijdperk waarin steeds meer data wordt gecombineerd, kan het tot onduidelijkheid leiden. Het zou dus beter zijn als ook bij nieuwe wetgeving de kaders en richtlijnen van bestaande semantiek wordt meegenomen. Anders gezegd: niet gebruik maken van bestaande begrippen en relaties uit lopende processen door beleidsmakers creëert een semantische schuld die elders in ketens kosten met zich meebrengt zoals veel meer discussietijd om semantiek af te stemmen of complexere technische oplossingen ter compensatie.
Casus 4: Het curriculum van havo 5 en vwo 6 eindexamens lijkt voor bepaalde vakken identiek te zijn vwb. de te behandelen stof. Daarom leek er geen bezwaar te zijn om hiervoor dezelfde begrippen te gebruiken. Echter, het havo 5 eindexamen werd gewijzigd en de geldigheid van begrippen diende te worden gewijzigd. Dat bleek niet mogelijk zonder ook (ongewenste) aanpassingen voor vwo te doen. Voortschrijdend inzicht leidde ertoe dat uiteindelijk toch beide curricula uit elkaar zijn gehaald en elk eigen URI’s (unieke identifiers) kregen.
Casus 5: Omgevingswet: neem je lengte x breedte, of breedte lengte? Rijkswaterstaat, welk perspectief kies je. is een brug open vanuit de auto, of vanuit de boot? Rijksdienst voor ondernemende NL: er zijn 30 verschillende termen voor een big (klein varkentje), elk toepasselijk voor de eigen context.
casus 6: In toenemende mate wordt data vanuit een primaire bron in verschillende toepassingen hergebruikt. Door bij de gegevens de definitie van de begrippen waarop de data betrekking heeft mee te leveren, kan het risico worden verkleind dat gegevens verkeerd worden hergebruikt. Dit kan in de context van linked-data vrij eenvoudig. Een voorbeeld hiervan is bag.basisregistraties.overheid.nl, dat zowel de BAG-data bevat als de definities van de gehanteerde begrippen. Op deze pagina (in chrome browser of vergelijkbaar) zijn ook de labels klikbaar waarna de definitie getoond wordt.
Casus 7: Zaakgericht werken - 1 van de noodzakelijke bouwblokken is dat de informatiemodellen en gegevens tussen verschillende domeinen aan elkaar zijn gerelateerd: semantische relatering <<nader uit te werken>>

Bovenstaande voorbeelden geven aan hoe belangrijk gegevenswoordenboeken zijn om (keten-)uitwisselingen snel en met kwaliteit te realiseren, niet alleen op de korte termijn, maar ook middellange en lange termijn. Op de korte termijn voor specifieke processen is het vaak nog wel beheersbaar. Maar overal om ons heen zien we dat data en de achterliggende modellen voor steeds meer verschillende processen worden gebruikt, processen die deels al wel maar vaak ook nog niet in beeld waren bij de ontwikkeling van de begrippenkader. Er raken dus meer verschillende stakeholders met verschillende belangen en een verschillende dynamiek betrokken. En burgers en bedrijfsleven verwachten ook dat data - uiteraard volgens de wettelijke (privacy) richtlijnen - steeds meer naadloos en realtime beschikbaar zijn voor verschillende doeleinden. En om dit te realiseren zijn goed ontwikkelde en beheerde gegevenswoordenboeken essentieel.