Wat is een gegevenswoordenboek?: verschil tussen versies

Uit NORA Online
Naar navigatie springen Naar zoeken springen
(Prijktijkvoorbeelden opgesplits, ieder voorbeeld heeft nu een eigen pagina)
(Contactpersoon toegevoegd)
 
(14 tussenliggende versies door 4 gebruikers niet weergegeven)
Regel 1: Regel 1:
{{Gegevensmanagement|auteurs=Marcia van Oploo, Martijn van Wisse, Jacob Molenaar
<noinclude>{{Gegevensmanagement|auteurs=Werkgroep gegevenswoordenboeken |contactpersoon=Henk Nijstad
|status=DISCUSSIEVERSIE|feedback=jacob@jacobmolenaar.nl}}[[Categorie:Placeholders]]
|status=DISCUSSIEVERSIE|feedback=}}[[Categorie:Over Gegevenswoordenboeken]]</noinclude>
==Inleiding==
==Simpele beeldspraak, complexe en diverse werkelijkheid==
In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt om te komen tot eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd.
In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt over eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd. De term gegevenswoordenboek is makkelijk in het gebruik omdat het meteen een beeld bij je oproept van netjes geordende spellingen en beschrijvingen. In zijn eenvoud kan het je echter het idee geven dat gegevenswoordenboeken veel op elkaar lijken, terwijl er in de praktijk grote verschillen bestaan.  
De bij de ontwikkeling van gegevenswoordenboeken betrokken beheerders en experts geven overigens aan dat er, gezien de oorsprong vanuit de wet- en regelgeving, grote verschillen bestaan in de aanpak van gegevenswoordenboeken. Er is ook sprake van grote verscheidenheid in terminologie. Er wordt gesproken van gegevenswoordenboeken, informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, onthologieën en registers. Soms wordt met deze termen over domeinen heen hetzelfde bedoeld, soms heel verschillende dingen. Het is niet te verwachten dat op korte termijn (en wellicht ooit) al deze gegevenswoordenboeken op elkaar zullen zijn afgestemd en geharmoniseerd qua begrippen. Er is zelfs veel discussie of daar naar gestreefd moet worden.


Maar hoe voorkomen we dan begripsverwarring op dit terrein en hoe kan een informatiearchitect of -analist het beste te werk gaan wanneer hij binnen een bepaald domein of over verschillende domeinen heen geacht wordt de informatie-uitwisseling tussen systemen te stroomlijnen?
Dat komt doordat elk gegevenswoordenboek voortkomt uit andere wet- en regelgeving en ingebed is in een ander ecosysteem van organisaties en ketens, zonder dat er regels bestaan die weergeven hoe je het beschrijven van gegevens aanpakt. Als je informatie probeert uit te wisselen tussen twee domeinen of ketens gaan die verschillen opeens een rol spelen: je noemt iets hetzelfde, maar verwacht er allebei iets anders van. Datzelfde probleem speelt bij een heel scala aan termen die soms als synoniem worden gebruikt voor [[gegevenswoordenboeken]]: informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, ontologieën en registers.


Het architectonische [[Vijflaagsmodel]] van de NORA, basis van het [[Nationaal Semantisch Vlak]] en het [[MIM (Metamodel voor informatiemodellen)|Metamodel voor Informatiemodellen (MIM)]] van VNG Realisatie, het Kadaster en GeoNovum bieden echter een conceptueel framework om het fenomeen van gegevenswoordenboeken beter te kunnen beschrijven en begrijpen. Hieronder een poging daartoe. Overigens zonder de ambitie om een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te geven. Daarvoor zijn er teveel verschijningsvormen van in de praktijk. Het gaat er hier om een aantal concepten te definiëren waarmee die verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, waardoor verschillen en overeenkomsten inzichtelijk worden en er geen begripsverwarring tussen sectoren en domeinen meer hoeft te bestaan.
Die verschillen kunnen in de praktijk betekenen dat we elkaar niet begrijpen, zonder dat we dat in eerste instantie doorhebben. En als we er eenmaal achter zijn is een veelgehoorde reactie dat we het eerst eens moeten worden over de definities, voor we informatie uit kunnen wisselen. Maar omdat we met steeds meer organisaties verbonden worden en informatie uitwisselen is dat geen haalbaar standpunt - we zouden jaren bezig zijn met het harmoniseren van alleen al de term gegevenswoordenboek in de hele publieke sector en het is sterk de vraag of dat opweegt tegen de baten.
==Het Vijflaagsmodel en het Nationaal Semantisch Vlak==
Het hebben van een gegevenswoordenboek, wat het dan in uitwerking ook precies mag zijn, is voor een publieke of private sector geen doel op zich. Een gegevenswoordenboek is een instrument om te komen tot iets anders. Meestal ligt dat doel op het vlak van interoperabiliteit: de gestructureerde uitwisseling van informatie tussen informatiesystemen. Gegevenswoordenboeken functioneren in een omgeving waarin enerzijds overkoepelende kaders van wet- en regelgeving en ketenprocessen een rol spelen en anderzijds de technische wereld van informatiesystemen, koppelvlakken en webservices. De gegevenswoordenboeken vervullen een centrale schakelfunctie hierin: ze beschrijven ketenprocessen en -semantiek in kaders en richtlijnen voor de ontwikkeling van informatie- en communicatie-technologische systemen. Deze centrale middenpositie wordt goed weergegeven in het zogenoemde [[Vijflaagsmodel]] van de NORA:
[[Afbeelding:Nationaal Semantisch Vlak.png|none|thumb|500px|alt=Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.|Semantisch Vlak als onderdeel van het [[Vijflaagsmodel]]]]
In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de Informatielaag. De NORA beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Deze formulering geeft aan dat gegevenswoordenboeken en gegevensmodellen verschillende dingen zijn.


Het Nationaal Semantisch Vlak (NSV) geeft een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA en stelt daarbij het fenomeen gegevenswoordenboek centraal. Het NSV is de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook in voorkomende gevallen is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd.
Hoe kunnen we dan als informatieanalist of -architect het beste te werk gaan bij het stroomlijnen van de informatie-uitwisseling over de organisatiegrenzen heen, zodat we niet langs elkaar heen praten?
==Gedeelde taal om te beschrijven wat je gegevenswoordenboek wel en niet is==
We hebben een gedeelde taal nodig om duidelijk te maken wat we bedoelen als we het hebben over een specifiek gegevenswoordenboek (of thesaurus, informatiemodel et cetera): wat staat er wel in, wat niet? Voor welk doel is het samengesteld, op welk detailniveau en wat kunnen we er dus wel en niet mee?


Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuur van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.
De [[Expertgroep Gegevensmanagement]] van NORA doet een voorzet hoe die gedeelde taal er uit zou kunnen zien. Niet om straks een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te hebben, maar om ons eigen woordenboek zo te beschrijven dat het voor anderen helder is wat ze er wel en niet van kunnen verwachten. Als iedereen dat doet is het probleem van begripsverwarring immers opgelost.
==Het Metamodel voor Informatiemodellen (MIM)==
In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet maar het is blijkens het voorwoord van de ontwikkelaars duidelijk hun ambitie om het model niet alleen een standaard voor geo-informatie te laten zijn maar om het veel breder toepasbaar te maken. Het metamodel is daarom heel generiek opgezet.
In het kader van de discussie over gegevenswoordenboeken bevat het MIM echter ook een heel interessant conceptueel framework dat begrepen kan worden als een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA en een uitwerking van wat de NORA ‘gegevenswoordenboeken en gegevensmodellen’ noemt. In paragraaf 1.5 van het MIM wordt het framework van het MIM beknopt beschreven. Het bestaat uit vier onderdelen:
# Model van begrippen
# Conceptueel informatiemodel
# Logisch informatie- of gegevensmodel
# Fysiek of technisch gegevens- of datamodel.
Daarnaast wijst het MIM ook het bestaan van zogenoemde registraties aan, informatiesystemen waarin met behulp van het fysiek of technisch gegevens- of datamodel, domeingegevens worden opgeslagen en ontsloten t.b.v. interoperabiliteit.
Registraties bevatten beschrijvingen van instanties van concepten en maken geen onderdeel van het metamodel van het MIM uit. Omdat we echter in de werkelijkheid van de gegevenswoordenboeken ook veelvuldig van dit soort registraties aantreffen, nemen we het fenomeen mee in onze analyse.


De verschillende onderdelen van het metamodel van het MIM worden als volgt beschreven:
==De grondslagen van die gedeelde taal==
===Model van begrippen===
We bouwen hiervoor voort op twee bestaande organisatie-overstijgende frameworks in de publieke sector: NORA, in het bijzonder het  [[Vijflaagsmodel]] en het [[Nationaal Semantisch Vlak]], en het [[MIM (Metamodel voor informatiemodellen)]], dat VNG Realisatie, Kadaster en Geonovum hebben gemaakt als methodiek voor het maken en beschrijven van informatiemodellen. Op basis van die twee kaders proberen we een aantal concepten te definiëren waarmee de verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, zodat verschillen en overeenkomsten inzichtelijk worden.
Beschrijft de werkelijkheid binnen het beschouwde domein (de ‘universe of discourse’) d.m.v. de daarin gehanteerde begrippen en hun relaties tot elkaar. Doel is dat de actoren daarbinnen elkaar begrijpen en één taal spreken. Een model van begrippen wordt opgesteld voor gebruik door mensen, met name uit ‘de business’. De begrippen worden beschreven in een formele taal, een vocabulaire. Een vocabulaire is geen informatiemodel. Begrippen kunnen in meerdere informatiemodellen gebruikt worden.
===Gegevenswoordenboeken binnen het Vijflaagsmodel en het Nationaal Semantisch Vlak===
Zoals we in [[Gegevenswoordenboeken binnen gegevensmanagement]] beschrijven is het hebben van een gegevenswoordenboek, van welke aard ook, geen doel op zich voor een domein of keten. Het is een instrument om iets anders mogelijk te maken, bijvoorbeeld de gestructureerde uitwisseling van informatie tussen informatiesystemen. Het bevordert dus interoperabiliteit binnen de publieke sector en waar nodig met de private sector, een belangrijke doelstelling van de NORA. Het ligt dus voor de hand om gegevenswoordenboeken te beschrijven binnen de bredere architectuur van de NORA en de publieke sector.


===Conceptueel informatiemodel===
Binnen die architectuur vervullen gegevenswoordenboeken een centrale schakelfunctie tussen de wereld van de overheid (wet- en regelgeving, processen en organisaties) en de wereld van de techniek (informatiesystemen, koppelvlakken en webservices). De inhoud van het gegevenswoordenboek wordt bepaald op basis van de definities en mogelijkheden die de wet- en regelgeving bieden. Dat bepalen gebeurt in de betrokken organisaties, met het oog op de (keten-) processen die nodig zijn om burgers en bedrijven te bedienen met diensten en producten. Vervolgens geeft het gegevenswoordenboek richting aan de ontwikkeling van applicaties om gegevens uit te wisselen, die de processen goed ondersteunen. Deze centrale middenpositie zie je terug als je gegevenswoordenboeken weergeeft in het [[Vijflaagsmodel]] van de NORA:
Modellering van de werkelijkheid binnen het beschouwde domein, v.w.b. informatie daarvan, onafhankelijk van ontwerp van en implementatie in systemen. Het geeft een zo getrouw mogelijke beschrijving van die werkelijkheid en is in natuurlijke taal geformuleerd. Een dergelijk model definieert het ‘wat’: welke ‘concepten’ (‘dingen’) worden onderscheiden (in de beschouwde werkelijkheid), wat betekenen zij, hoe verhouden ze zich tot elkaar en welke informatie (eigenschappen) is daarvan relevant. Het dient als taal waarmee domeinexperts kunnen communiceren met informatie-analisten en verschaft een eenduidige interpretatie van die werkelijkheid ten behoeve van deze communicatie. Een conceptueel informatiemodel wordt dan ook opgesteld voor gebruik door mensen, zodat ‘de business’ en de ICT-specialisten elkaar makkelijker kunnen begrijpen.


===Logisch informatie- of gegevensmodel===
<imagemap>
Beschrijft hoe de, in het conceptuele model onderscheiden, concepten gebruikt worden bij de interactie tussen systemen en hun gebruikers en tussen systemen onderling. Anders gezegd, een model van de representatie van informatie over de werkelijkheid in digitale registraties en in de uitwisseling daartussen. Het gaat hierbij, in tegenstelling tot een conceptueel model, dus veel meer om het ‘hoe’. Het slaat de brug tussen werkelijkheid en systemen maar beschrijft nog niet de implementatie in die systemen. Een dergelijk model wordt in een formele taal beschreven en wordt waar mogelijk gegenereerd vanuit het conceptueel model. Het logisch model wordt opgesteld voor ICT-interoperabiliteit, voor gebruik door met name de ontwerpers, bouwers en beheerders van ICT-voorzieningen.
Bestand:Nationaal_Semantisch_Vlak.png|left|thumb|450px|alt=Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.|Semantisch Vlak als onderdeel van het [[Vijflaagsmodel]]


===Fysiek of technisch gegevens- of datamodel===
rect 76 31 571 134 [[Grondslagenlaag]]
Specificeert de structuur en eigenschappen van de technologie waarin de informatie wordt vastgelegd of uitgewisseld. Dit is sterk afhankelijk van de gebruikte opslagtechnologie zoals een specifieke database of de servicetechnologie zoals XML, GML, SOAP, REST, (Geo)JSON, LinkedData e.d. Het kan tevens informatie bevatten over de manier waarop berichten ‘verpakt’ worden, het (internet)protocol en de logistiek van het berichtenverkeer. De technische specificaties worden over het algemeen zoveel als mogelijk gegenereerd uit het logisch informatiemodel. Deze specificaties worden opgesteld voor ‘machines’, te gebruiken door software-ontwikkelaars.
rect 77 161 571 265 [[Organisatorische laag]]
rect 30 283 991 598 [[Nationaal Semantisch Vlak]]
rect 71 616 571 729 [[Applicatielaag]]
rect 74 747 580 860 [[Netwerklaag]]
default [[Bestand:Nationaal Semantisch Vlak.png]]
desc bottom-left
</imagemap>
In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de [[Informatielaag]], onder de [[grondslagenlaag]] (wet- en regelgeving) en de [[organisatorische laag]] (processen en organisaties), maar boven de [[applicatielaag|applicatie-]] en [[netwerklaag|netwerklagen]]. De NORA beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Een paar jaar geleden is een toekomstvisie geschetst voor de informatielaag: het [[Nationaal Semantisch Vlak]].


===Registraties===
Het doel van het Het Nationaal Semantisch Vlak (NSV) is om het gemakkelijk te maken voor ontwerpers van nieuwe diensten (of doorontwikkelaars) om te achterhalen welke gegevens al beschikbaar zijn binnen de publieke sector en of deze geschikt zijn voor hergebruik in hun dienst. Het NSV is dus de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook in voorkomende gevallen is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd.
Dit zijn systematische en meestal in een informatiesysteem opgeslagen beschrijvingen van instanties van concepten.  Registraties vormen een bijzonder fenomeen. Ze komen technisch voor op de vierde laag van het Vijflaagsmodel van de NORA, de Applicatielaag, maar ze hebben ook een informatiekundige tegenhanger op de derde laag, de Informatielaag. Zo kan een bepaalde referentietabel voorkomen in een logisch of technisch informatiemodel én in een applicatie waarin de waarden van de tabel machine-raadpleegbaar beschikbaar zijn. Bij een concept als ‘Vreemdelingenrecht’ in de migratieketen bijvoorbeeld kan een lijst gegeven worden van alle Europese en Nederlandse wetten en regelgeving die de omgang van de overheid met vreemdelingen reguleren. Dit zijn dan de instanties, de concrete verschijningsvormen, van het concept. In het onderwijsdomein komen vergelijkbare lijsten van opleidingen en eindtermen (instanties van de concepten 'Opleiding' en 'Eindterm') voor die een sterk conceptualiserende en structurerende functie hebben binnen het domein, bijvoorbeeld als metadata van leerobjecten. Zij hebben de technische vorm van een registratie maar fungeren in de praktijk min of meer als een logisch informatiemodel.


==Analyse van het MIM==
Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuur van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.
Hoe moeten wij het metamodel van het MIM precies begrijpen als nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA? Het metamodel heeft zoals hierboven beschreven vier componenten. Drie daarvan, het conceptueel informatiemodel, het logisch informatie- of gegevensmodel en het fysiek of technisch gegevens- of datamodel, weerspiegelen de praktijk van het werk van de informatiearchitect of analist. Men werkt of top-down vanuit een abstractie van het domein naar de concrete werkelijkheid van het berichtenverkeer of bottom-up, waarbij de concrete gegevensuitwisseling de basis vormt voor normaliserende abstracties. Vaak vinden ook allebei de bewegingen plaats, waarbij het helaas niet altijd zo is dat partijen elkaar halverwege vinden. De werelden van architecten enerzijds en ontwikkelaars anderzijds kunnen zeer gescheiden zijn.
===Gegevenswoordenboeken beschrijven in de termen van het Metamodel voor Informatiemodellen (MIM)===
In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het [[MIM (Metamodel voor informatiemodellen)|Metamodel voor Informatiemodellen]], afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet. Het model is ontwikkeld voor eigen gebruik door de betrokken partijen, maar bewust ook breder beschikbaar gesteld om meer samenhang te krijgen in de manier waarop we modellen maken en beschrijven. Inmiddels is een traject begonnen bij het Forum Standaardisatie om het MIM op de lijst met aanbevolen standaarden te krijgen. In het kader daarvan is feedback verzameld en zal het MIM waarschijnlijk nog verder doorontwikkeld worden.


Deze drie modellen horen dus functioneel bij elkaar. Anders ligt dat voor het begrippenmodel. De beschrijving in het MIM geeft het concept van het begrippenmodel een heel pragmatische functie (‘mensen in een domein elkaar laten begrijpen’) en stelt voorts: ‘De begrippen worden beschreven in een formele taal, een vocabulaire. Een vocabulaire is geen informatiemodel’. Deze beschrijving roept de vraag op wat er hier precies wordt bedoeld met een vocabulaire in een formele taal als dit niet een informatiemodel mag zijn? Het klinkt namelijk tegenstrijdig: een begrippenmodel moet wel een ordening kennen maar deze ordening mag niet een model zijn. Om deze tegenstrijdigheid op te lossen leggen we het MIM-concept begrippenmodel in abstracto uit als een domeinonafhankelijk geordende samenstelling van begrippen. Met domeinonafhankelijk bedoelen we algemene informatiekundige vormen van structurering, zoals die van entiteiten in een hiërarchie, een taxonomie of ontologie of zelfs in een simpele, alfabetische volgorde. Voor deze vormen van structurering zijn formele talen beschikbaar als SKOS. Domeinonafhankelijke ordening staat tegenover domeinafhankelijke ordening, die aangetroffen wordt in conceptuele, logische en technische informatiemodellen. Daar is het immers de conceptuele structuur van het domein (entiteiten, processen, etc.) die de ordening van de begrippen in het model regeert. Een conceptueel informatiemodel kan met andere woorden precies dezelfde begrippen bevatten als een begrippenmodel, maar alleen de manier van ordenen verschilt.
Ook zonder dat het MIM als standaard erkend wordt kan het helpen bij het beschrijven van gegevenswoordenboeken, doordat het een typering geeft van vier types modellen met hun eigen doel en toepassing. In onze beschrijving van een bestaand gegevenswoordenboek kunnen we dus aangeven of het in een van deze typeringen past, of juist een combinatie is van typen.  


Concluderend kunnen we stellen dat de vier concepten uit het MIM-model uit twee clusters bestaan:
In paragraaf 1.5 van het MIM wordt het framework van het MIM beknopt beschreven, met deze vier typen modellen:
[[Afbeelding:clusters MIM-model.png|thumb|500px|none|alt=Schematische weergave van de vier concepten uit het [[MIM (Metamodel voor informatiemodellen)]] in twee clusters (domeinonafhankelijk geordend en domeinafhankelijk geordend). In het eerste cluster staat het begrippenmodel. In het tweede staan van boven naar beneden Conceptueel informatiemodel, Logisch informatiemodel en Technisch model, telkens verbonden met het concept er boven en onder met dubbele pijlen heen en weer.]]
# [[Model van begrippen]]
==Het MIM als invulling van de Informatielaag==
# [[Conceptueel informatiemodel]]  
Zoals eerder opgemerkt geeft het MIM een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA. In schema ziet dat er als volgt uit:
# [[Logisch informatie- of gegevensmodel]]  
[[Afbeelding:Vijflaagsmodel met semantische laag volgens MIM.png|thumb|500px|none|alt=Weergave van het [[vijflaagsmodel]] met het [[Nationaal Semantisch Vlak]], waarbij dit vlak met pijlen is verbonden met vijf rechthoeken rechts hiervan: Begrippenmodel (groen), Conceptueel informatiemodel (rood), logisch informatiemodel (blauw), technisch datamodel (bruin) en register (geel).]]
# [[Fysiek of technisch gegevens- of datamodel]].
Laten we dan nu kijken naar de vraag of we met de concepten van het MIM preciezer kunnen beschrijven en begrijpen welke zaken we zoal aantreffen in de Informatielaag van publieke (en private) informatiedomeinen, de zaken die de NORA losjes beschrijft als ‘gegevenswoordenboeken en gegevensmodellen’. Zoals al in de inleiding vermeld komen er in de praktijk veel verschillende praktische invullingen van het fenomeen gegevenswoordenboek of gegevensmodel voor. Soms zijn het eenvoudige begrippenlijsten, soms zijn het echte modelleringen die meer of minder abstract of abstract zijn, soms combineren ze ook verschillende van deze aspecten en functies. Kunnen we de verschillende typen gegevenswoordenboeken en -modellen die we aantreffen duiden als een van de verschillende entiteiten uit het MIM? Zo ja, dan is het metamodel van het MIM een goed model om de Informatielaag van het Vijflaagsmodel van de NORA mee te beschrijven.
==Toepassing van het MIM-model op een aantal praktijkgevallen==
Hieronder doen we een poging om een dergelijke exercitie uit te voeren binnen een aantal domeinen:
* Het [[Gegevenswoordenboek vreemdelingenketen]] binnen de migratieketen
* Het [[Gegevenswoordenboek Strafrechtsketen|Canoniek Datamodel Strafrechtsketen]] binnen de strafrechtsketen
* De Datazuil van de Immigratie- en naturalisatiedienst
* Het [[Kernmodel Onderwijs Informatie (KOI)]] binnen de onderwijsketen
* De [[Thesaurus Zorg en Welzijn]] binnen het domein zorg en welzijn.


Onderstaande pagina's gaan in op de toepassing van het MIM-model in de praktijk:
==Voorzet voor de gedeelde taal==
* [[Het Gegevenswoordenboek Vreemdelingenketen]]
Het laatste element dat we toe willen voegen aan de gemeenschappelijke taal zijn [[Registraties|registraties]], informatiesystemen waarin met behulp van het fysiek of technisch gegevens- of datamodel, domeingegevens worden opgeslagen en ontsloten t.b.v. interoperabiliteit. Registraties bevatten beschrijvingen van instanties van concepten en maken geen onderdeel van het metamodel van het MIM uit. Omdat we echter in de werkelijkheid van de gegevenswoordenboeken ook veelvuldig van dit soort registraties aantreffen, nemen we het fenomeen mee in onze analyse.
* [[Het Canoniek Datamodel van de Strafrechtsketen]]
* [[De Informatiezuil van de Immigratie- en naturalisatiedienst]]
* [[Het Kernmodel Onderwijsinformatie en het Register Instellingen en Opleidingen]]
* [[De Thesaurus Zorg en Welzijn]]


: → [[Begrippenkader gegevensmanagement]] met werkdefinities en relaties
: → [[Modellering van gegevens]] (basisbeschrijving)
: → [[MIM conceptueel framework]] (analyse MIM conceptueel framework al middel om gegevenswoordenboeken te beschrijven)
: → [[MIM (Metamodel voor informatiemodellen)]] (basisinformatie en concept-standaard)


==Observaties na analyse==
Voorbeelden van bestaande gegevenswoordenboeken, beschreven in de taal van MIM plus registraties:
De analyse van de verschillende gegevenswoordenboekachtige entiteiten hierboven geeft aanleiding tot de volgende meer algemene observaties:
: → [[De Informatiezuil van de Immigratie- en naturalisatiedienst]]
* Het blijkt goed mogelijk om de verschillende manieren waarop het begrip gegevenswoordenboek in de praktijk van informatie-uitwisseling in publieke (en private) domeinen wordt ingevuld, met behulp van het MIM-model te beschrijven en te begrijpen. We komen geen entiteiten tegen die we niet kunnen duiden
: → [[MIM toegepast op Gegevenswoordenboek Migratieketen]]
* We kunnen niet alleen de structuur en functie van de verschillende entiteiten op zichzelf begrijpen, we kunnen ook inzichtelijk maken hoe deze entiteiten er vanuit gebruikersperspectief primair uitzien en welke functie ze in de praktijk vooral vervullen
: → [[Het Canoniek Datamodel van de Strafrechtsketen]]
* We kunnen soms optredende ambiguïteiten oplossen, omdat bijvoorbeeld duidelijk gemaakt kan worden dat een bepaalde entiteit hybride is (een begrippenmodel dat begrippen definieert maar deze tevens beschrijft met kenmerken volgens een standaard voor logische informatiemodellen)
: → [[Het Kernmodel Onderwijsinformatie en het Register Instellingen en Opleidingen]]
* In de praktijk komen we in de wereld van de gegevenswoordenboeken vooral conceptuele informatiemodellen, logische informatie- of gegevensmodellen en begrippenmodellen tegen. Technische gegevens- of datamodellen, zoals bijvoorbeeld berichtenboeken, zijn meestal buiten scope. De wereld van het gegevenswoordenboek vervult een van de technische werkelijkheid abstraherende functie en technische gegevens- of datamodellen zijn kennelijk te techniekafhankelijk en dynamisch om onder dit bereik te vallen
: → [[MIM toegepast op Thesaurus Zorg en Welzijn]]
* Modellen kunnen recursief voorkomen binnen een bepaald domein. Zo kan een domein een conceptueel hoofdmodel hebben, zoals bijvoorbeeld het Kernmodel Onderwijsinformatie, dat op zijn beurt nadere specificaties bevat in conceptuele deelmodellen.
==Conclusie==
Bovenstaande analyses en observaties ondersteunen de conclusie dat het zinvol is gebleken om niet te proberen het begrip gegevenswoordenboek geforceerd te standaardiseren en in isolement te definiëren. Het metamodel van het MIM is een hanteerbaar en effectief alternatief, omdat het meer recht doet aan de verscheidenheid aan gegevenswoordenboeken die we in de praktijk aantreffen én meer oog heeft voor de context waarbinnen de meeste gegevenswoordenboeken functioneren. Het model bevat een beperkt aantal concepten waarmee de wereld van de gegevenswoordenboeken goed beschreven en begrepen kan worden (begrippenmodel, conceptueel model, logisch model, datamodel en register). Informatiearchitecten en -analisten kunnen er bovendien goed houvast aan hebben wanneer zij in een bepaald domein aan de slag gaan met het normaliseren van de gegevensuitwisseling.

Huidige versie van 1 feb 2023 om 14:48


Onderdeel van
Thema's
Contact
Henk Nijstad
Arjen.Santema@kadaster.nl
Status
Actueel
Auteurs

Werkgroep gegevenswoordenboeken

Simpele beeldspraak, complexe en diverse werkelijkheid[bewerken]

In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt over eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd. De term gegevenswoordenboek is makkelijk in het gebruik omdat het meteen een beeld bij je oproept van netjes geordende spellingen en beschrijvingen. In zijn eenvoud kan het je echter het idee geven dat gegevenswoordenboeken veel op elkaar lijken, terwijl er in de praktijk grote verschillen bestaan.

Dat komt doordat elk gegevenswoordenboek voortkomt uit andere wet- en regelgeving en ingebed is in een ander ecosysteem van organisaties en ketens, zonder dat er regels bestaan die weergeven hoe je het beschrijven van gegevens aanpakt. Als je informatie probeert uit te wisselen tussen twee domeinen of ketens gaan die verschillen opeens een rol spelen: je noemt iets hetzelfde, maar verwacht er allebei iets anders van. Datzelfde probleem speelt bij een heel scala aan termen die soms als synoniem worden gebruikt voor gegevenswoordenboeken: informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, ontologieën en registers.

Die verschillen kunnen in de praktijk betekenen dat we elkaar niet begrijpen, zonder dat we dat in eerste instantie doorhebben. En als we er eenmaal achter zijn is een veelgehoorde reactie dat we het eerst eens moeten worden over de definities, voor we informatie uit kunnen wisselen. Maar omdat we met steeds meer organisaties verbonden worden en informatie uitwisselen is dat geen haalbaar standpunt - we zouden jaren bezig zijn met het harmoniseren van alleen al de term gegevenswoordenboek in de hele publieke sector en het is sterk de vraag of dat opweegt tegen de baten.

Hoe kunnen we dan als informatieanalist of -architect het beste te werk gaan bij het stroomlijnen van de informatie-uitwisseling over de organisatiegrenzen heen, zodat we niet langs elkaar heen praten?

Gedeelde taal om te beschrijven wat je gegevenswoordenboek wel en niet is[bewerken]

We hebben een gedeelde taal nodig om duidelijk te maken wat we bedoelen als we het hebben over een specifiek gegevenswoordenboek (of thesaurus, informatiemodel et cetera): wat staat er wel in, wat niet? Voor welk doel is het samengesteld, op welk detailniveau en wat kunnen we er dus wel en niet mee?

De Expertgroep Gegevensmanagement van NORA doet een voorzet hoe die gedeelde taal er uit zou kunnen zien. Niet om straks een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te hebben, maar om ons eigen woordenboek zo te beschrijven dat het voor anderen helder is wat ze er wel en niet van kunnen verwachten. Als iedereen dat doet is het probleem van begripsverwarring immers opgelost.

De grondslagen van die gedeelde taal[bewerken]

We bouwen hiervoor voort op twee bestaande organisatie-overstijgende frameworks in de publieke sector: NORA, in het bijzonder het Vijflaagsmodel en het Nationaal Semantisch Vlak, en het MIM, dat VNG Realisatie, Kadaster en Geonovum hebben gemaakt als methodiek voor het maken en beschrijven van informatiemodellen. Op basis van die twee kaders proberen we een aantal concepten te definiëren waarmee de verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, zodat verschillen en overeenkomsten inzichtelijk worden.

Gegevenswoordenboeken binnen het Vijflaagsmodel en het Nationaal Semantisch Vlak[bewerken]

Zoals we in Gegevenswoordenboeken binnen gegevensmanagement beschrijven is het hebben van een gegevenswoordenboek, van welke aard ook, geen doel op zich voor een domein of keten. Het is een instrument om iets anders mogelijk te maken, bijvoorbeeld de gestructureerde uitwisseling van informatie tussen informatiesystemen. Het bevordert dus interoperabiliteit binnen de publieke sector en waar nodig met de private sector, een belangrijke doelstelling van de NORA. Het ligt dus voor de hand om gegevenswoordenboeken te beschrijven binnen de bredere architectuur van de NORA en de publieke sector.

Binnen die architectuur vervullen gegevenswoordenboeken een centrale schakelfunctie tussen de wereld van de overheid (wet- en regelgeving, processen en organisaties) en de wereld van de techniek (informatiesystemen, koppelvlakken en webservices). De inhoud van het gegevenswoordenboek wordt bepaald op basis van de definities en mogelijkheden die de wet- en regelgeving bieden. Dat bepalen gebeurt in de betrokken organisaties, met het oog op de (keten-) processen die nodig zijn om burgers en bedrijven te bedienen met diensten en producten. Vervolgens geeft het gegevenswoordenboek richting aan de ontwikkeling van applicaties om gegevens uit te wisselen, die de processen goed ondersteunen. Deze centrale middenpositie zie je terug als je gegevenswoordenboeken weergeeft in het Vijflaagsmodel van de NORA:

Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.GrondslagenlaagOrganisatorische laagNationaal Semantisch VlakApplicatielaagNetwerklaag
Semantisch Vlak als onderdeel van het Vijflaagsmodel

In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de Informatielaag, onder de grondslagenlaag (wet- en regelgeving) en de organisatorische laag (processen en organisaties), maar boven de applicatie- en netwerklagen. De NORA beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Een paar jaar geleden is een toekomstvisie geschetst voor de informatielaag: het Nationaal Semantisch Vlak.

Het doel van het Het Nationaal Semantisch Vlak (NSV) is om het gemakkelijk te maken voor ontwerpers van nieuwe diensten (of doorontwikkelaars) om te achterhalen welke gegevens al beschikbaar zijn binnen de publieke sector en of deze geschikt zijn voor hergebruik in hun dienst. Het NSV is dus de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook in voorkomende gevallen is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd.

Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuur van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.

Gegevenswoordenboeken beschrijven in de termen van het Metamodel voor Informatiemodellen (MIM)[bewerken]

In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet. Het model is ontwikkeld voor eigen gebruik door de betrokken partijen, maar bewust ook breder beschikbaar gesteld om meer samenhang te krijgen in de manier waarop we modellen maken en beschrijven. Inmiddels is een traject begonnen bij het Forum Standaardisatie om het MIM op de lijst met aanbevolen standaarden te krijgen. In het kader daarvan is feedback verzameld en zal het MIM waarschijnlijk nog verder doorontwikkeld worden.

Ook zonder dat het MIM als standaard erkend wordt kan het helpen bij het beschrijven van gegevenswoordenboeken, doordat het een typering geeft van vier types modellen met hun eigen doel en toepassing. In onze beschrijving van een bestaand gegevenswoordenboek kunnen we dus aangeven of het in een van deze typeringen past, of juist een combinatie is van typen.

In paragraaf 1.5 van het MIM wordt het framework van het MIM beknopt beschreven, met deze vier typen modellen:

  1. Model van begrippen
  2. Conceptueel informatiemodel
  3. Logisch informatie- of gegevensmodel
  4. Fysiek of technisch gegevens- of datamodel.

Voorzet voor de gedeelde taal[bewerken]

Het laatste element dat we toe willen voegen aan de gemeenschappelijke taal zijn registraties, informatiesystemen waarin met behulp van het fysiek of technisch gegevens- of datamodel, domeingegevens worden opgeslagen en ontsloten t.b.v. interoperabiliteit. Registraties bevatten beschrijvingen van instanties van concepten en maken geen onderdeel van het metamodel van het MIM uit. Omdat we echter in de werkelijkheid van de gegevenswoordenboeken ook veelvuldig van dit soort registraties aantreffen, nemen we het fenomeen mee in onze analyse.

Begrippenkader gegevensmanagement met werkdefinities en relaties
Modellering van gegevens (basisbeschrijving)
MIM conceptueel framework (analyse MIM conceptueel framework al middel om gegevenswoordenboeken te beschrijven)
MIM (basisinformatie en concept-standaard)

Voorbeelden van bestaande gegevenswoordenboeken, beschreven in de taal van MIM plus registraties:

MIM toegepast op de Informatiezuil van de Immigratie- en naturalisatiedienst
MIM toegepast op Gegevenswoordenboek Migratieketen
MIM toegepast op het Canoniek Datamodel van de Strafrechtsketen
MIM toegepast op het Kernmodel Onderwijsinformatie en het Register Instellingen en Opleidingen
MIM toegepast op Thesaurus Zorg en Welzijn