Wat is een gegevenswoordenboek?: verschil tussen versies

Uit NORA Online
Naar navigatie springen Naar zoeken springen
(tekst over MIM en analyse verwijderd)
(eerste alinea's volledig herschreven om meer te passen bij de vraag 'wat is een informatiemodel' en de kernboodschap helder te krijgen)
Regel 1: Regel 1:
<noinclude>{{Gegevensmanagement|auteurs=Marcia van Oploo, Martijn Wisse, Jacob Molenaar
<noinclude>{{Gegevensmanagement|auteurs=Marcia van Oploo, Martijn Wisse, Jacob Molenaar
|status=DISCUSSIEVERSIE|feedback=jacob@jacobmolenaar.nl}}[[Categorie:Over Gegevenswoordenboeken]]</noinclude>
|status=DISCUSSIEVERSIE|feedback=jacob@jacobmolenaar.nl}}[[Categorie:Over Gegevenswoordenboeken]]</noinclude>
==Inleiding==
==Simpele metafoor, verschillende uitleg in de praktijk==
In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt over eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd.
In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt over eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd. De term gegevenswoordenboek is makkelijk in het gebruik omdat het meteen een beeld bij je oproept van netjes geordende spellingen en beschrijvingen. In zijn eenvoud kan het je echter het idee geven dat gegevenswoordenboeken veel op elkaar lijken, terwijl er in de praktijk grote verschillen bestaan.  
Beheerders en experts van gegevenswoordenboeken geven aan dat er, gezien de oorsprong vanuit de wet- en regelgeving, grote verschillen bestaan in de aanpak van gegevenswoordenboeken. Er is ook sprake van grote verscheidenheid in terminologie: er wordt gesproken van gegevenswoordenboeken, informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, ontologieën en registers. Soms wordt met deze termen hetzelfde bedoeld, soms heel verschillende dingen. Het is niet te verwachten dat op korte termijn (en wellicht ooit) al deze gegevenswoordenboeken op elkaar zullen zijn afgestemd en geharmoniseerd qua begrippen. Er is zelfs veel discussie of daar naar gestreefd moet worden.


Maar hoe voorkomen we dan begripsverwarring op dit terrein en hoe kan een informatiearchitect of -analist het beste te werk gaan wanneer hij binnen een bepaald domein of over verschillende domeinen heen geacht wordt de informatie-uitwisseling tussen systemen te stroomlijnen?
Dat komt doordat elk gegevenswoordenboek voortkomt uit andere wet- en regelgeving en ingebed is in een ander ecosysteem van organisaties en ketens, zonder dat er regels bestaan die weergeven hoe je het beschrijven van gegevens aanpakt. Als je informatie probeert uit te wisselen tussen twee domeinen of ketens gaan die verschillen opeens een rol spelen: je noemt iets hetzelfde, maar verwacht er allebei iets anders van. Datzelfde probleem speelt bij een heel scala aan termen die wel als synoniem worden gebruikt voor gegevenswoordenboeken: informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, ontologieën en registers.


Het architectonische [[Vijflaagsmodel]] van de NORA, basis van het [[Nationaal Semantisch Vlak]] en het [[MIM (Metamodel voor informatiemodellen)|Metamodel voor Informatiemodellen (MIM)]] van VNG Realisatie, het Kadaster en GeoNovum bieden een conceptueel framework om het fenomeen van gegevenswoordenboeken beter te kunnen beschrijven en begrijpen. Overigens zonder de ambitie om een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te geven. Daarvoor zijn er teveel verschijningsvormen van in de praktijk. Het gaat er hier om een aantal concepten te definiëren waarmee die verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, waardoor verschillen en overeenkomsten inzichtelijk worden en er geen begripsverwarring tussen sectoren en domeinen meer hoeft te bestaan.
Die verschillen kunnen in de praktijk betekenen dat we elkaar niet begrijpen, zonder dat we dat in eerste instantie doorhebben. En als we er eenmaal achter zijn is een veelgehoorde reactie dat we het eerst eens moeten worden over de definities, voor we informatie uit kunnen wisselen. Maar omdat we met steeds meer organisaties verbonden worden en informatie uitwisselen is dat geen haalbaar standpunt - we zouden jaren bezig zijn met het harmoniseren van alleen al de term gegevenswoordenboek in de hele publieke sector en het is sterk de vraag of dat opweegt tegen de baten.
==Het Vijflaagsmodel en het Nationaal Semantisch Vlak==
 
Het hebben van een gegevenswoordenboek, wat het dan in uitwerking ook precies mag zijn, is voor een publieke of private sector geen doel op zich. Een gegevenswoordenboek is een instrument om te komen tot iets anders. Meestal op het vlak van interoperabiliteit: de gestructureerde uitwisseling van informatie tussen informatiesystemen. Gegevenswoordenboeken functioneren in een omgeving waarin enerzijds overkoepelende kaders van wet- en regelgeving en ketenprocessen een rol spelen en anderzijds de technische wereld van informatiesystemen, koppelvlakken en webservices. De gegevenswoordenboeken vervullen een centrale schakelfunctie hierin: ze beschrijven ketenprocessen en -semantiek in kaders en richtlijnen voor de ontwikkeling van informatie- en communicatie-technologische systemen. Deze centrale middenpositie wordt goed weergegeven in het zogenoemde [[Vijflaagsmodel]] van de NORA:
Hoe kunnen we dan als informatieanalist of -architect het beste te werk gaan bij het stroomlijnen van de informatie-uitwisseling over de organisatiegrenzen heen, zodat we niet langs elkaar heen praten?
==Gedeelde taal om te beschrijven wat je gegevenswoordenboek wel en niet is==
We hebben een gedeelde taal nodig om duidelijk te maken wat we bedoelen als we het hebben over een specifiek gegevenswoordenboek (of thesaurus, informatiemodel et cetera): wat staat er wel in, wat niet? Voor welk doel is het samengesteld, op welk detailniveau en wat kunnen we er dus wel en niet mee?
 
De [[Expertgroep Gegevensmanagement]] van NORA doet een voorzet hoe die gedeelde taal er uit zou kunnen zien. Niet om straks een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te hebben, maar om ons eigen woordenboek zo te beschrijven dat het voor anderen helder is wat ze er wel en niet van kunnen verwachten. Als iedereen dat doet is het probleem van begripsverwarring immers opgelost.
 
==De grondslagen van die gedeelde taal==
We bouwen hiervoor voort op twee bestaande organisatie-overstijgende frameworks in de publieke sector: NORA, in het bijzonder het  [[Vijflaagsmodel]] en het [[Nationaal Semantisch Vlak]], en het [[MIM (Metamodel voor informatiemodellen)]], dat VNG Realisatie, Kadaster en Geonovum hebben gemaakt als methodiek voor het maken en beschrijven van informatiemodellen. Op basis van die twee kaders proberen we een aantal concepten te definiëren waarmee de verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, zodat verschillen en overeenkomsten inzichtelijk worden.
===Het Vijflaagsmodel en het Nationaal Semantisch Vlak===
Het hebben van een gegevenswoordenboek, wat het dan in uitwerking ook precies mag zijn, is voor een publieke of private sector geen doel op zich. Een gegevenswoordenboek is een instrument om te komen tot iets anders. Meestal op het vlak van interoperabiliteit: de gestructureerde uitwisseling van informatie tussen informatiesystemen. Gegevenswoordenboeken functioneren in een omgeving waarin enerzijds overkoepelende kaders van wet- en regelgeving en ketenprocessen een rol spelen en anderzijds de technische wereld van informatiesystemen, koppelvlakken en webservices. De gegevenswoordenboeken vervullen een centrale schakelfunctie hierin: ze beschrijven ketenprocessen en keten-semantiek in kaders en richtlijnen voor de ontwikkeling van informatie- en communicatie-technologische systemen. Deze centrale middenpositie wordt goed weergegeven in het zogenoemde [[Vijflaagsmodel]] van de NORA:
[[Afbeelding:Nationaal Semantisch Vlak.png|none|thumb|500px|alt=Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.|Semantisch Vlak als onderdeel van het [[Vijflaagsmodel]]]]
[[Afbeelding:Nationaal Semantisch Vlak.png|none|thumb|500px|alt=Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.|Semantisch Vlak als onderdeel van het [[Vijflaagsmodel]]]]
In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de Informatielaag. De NORA beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Deze formulering geeft aan dat gegevenswoordenboeken en gegevensmodellen verschillende dingen zijn.
In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de Informatielaag. De NORA beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Deze formulering geeft aan dat gegevenswoordenboeken en gegevensmodellen verschillende dingen zijn.
Regel 16: Regel 24:


Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuur van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.
Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuur van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.
==Het Metamodel voor Informatiemodellen (MIM)==
===Het Metamodel voor Informatiemodellen (MIM)===
In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet.  
In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet.  



Versie van 20 mrt 2019 19:54


Onderdeel van
Thema's
Contact
Arjen Santema
jacob@jacobmolenaar.nl
Status
Actueel
Auteurs

Marcia van Oploo, Martijn Wisse, Jacob Molenaar

Simpele metafoor, verschillende uitleg in de praktijk[bewerken]

In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt over eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd. De term gegevenswoordenboek is makkelijk in het gebruik omdat het meteen een beeld bij je oproept van netjes geordende spellingen en beschrijvingen. In zijn eenvoud kan het je echter het idee geven dat gegevenswoordenboeken veel op elkaar lijken, terwijl er in de praktijk grote verschillen bestaan.

Dat komt doordat elk gegevenswoordenboek voortkomt uit andere wet- en regelgeving en ingebed is in een ander ecosysteem van organisaties en ketens, zonder dat er regels bestaan die weergeven hoe je het beschrijven van gegevens aanpakt. Als je informatie probeert uit te wisselen tussen twee domeinen of ketens gaan die verschillen opeens een rol spelen: je noemt iets hetzelfde, maar verwacht er allebei iets anders van. Datzelfde probleem speelt bij een heel scala aan termen die wel als synoniem worden gebruikt voor gegevenswoordenboeken: informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, ontologieën en registers.

Die verschillen kunnen in de praktijk betekenen dat we elkaar niet begrijpen, zonder dat we dat in eerste instantie doorhebben. En als we er eenmaal achter zijn is een veelgehoorde reactie dat we het eerst eens moeten worden over de definities, voor we informatie uit kunnen wisselen. Maar omdat we met steeds meer organisaties verbonden worden en informatie uitwisselen is dat geen haalbaar standpunt - we zouden jaren bezig zijn met het harmoniseren van alleen al de term gegevenswoordenboek in de hele publieke sector en het is sterk de vraag of dat opweegt tegen de baten.

Hoe kunnen we dan als informatieanalist of -architect het beste te werk gaan bij het stroomlijnen van de informatie-uitwisseling over de organisatiegrenzen heen, zodat we niet langs elkaar heen praten?

Gedeelde taal om te beschrijven wat je gegevenswoordenboek wel en niet is[bewerken]

We hebben een gedeelde taal nodig om duidelijk te maken wat we bedoelen als we het hebben over een specifiek gegevenswoordenboek (of thesaurus, informatiemodel et cetera): wat staat er wel in, wat niet? Voor welk doel is het samengesteld, op welk detailniveau en wat kunnen we er dus wel en niet mee?

De Expertgroep Gegevensmanagement van NORA doet een voorzet hoe die gedeelde taal er uit zou kunnen zien. Niet om straks een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te hebben, maar om ons eigen woordenboek zo te beschrijven dat het voor anderen helder is wat ze er wel en niet van kunnen verwachten. Als iedereen dat doet is het probleem van begripsverwarring immers opgelost.

De grondslagen van die gedeelde taal[bewerken]

We bouwen hiervoor voort op twee bestaande organisatie-overstijgende frameworks in de publieke sector: NORA, in het bijzonder het Vijflaagsmodel en het Nationaal Semantisch Vlak, en het MIM, dat VNG Realisatie, Kadaster en Geonovum hebben gemaakt als methodiek voor het maken en beschrijven van informatiemodellen. Op basis van die twee kaders proberen we een aantal concepten te definiëren waarmee de verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, zodat verschillen en overeenkomsten inzichtelijk worden.

Het Vijflaagsmodel en het Nationaal Semantisch Vlak[bewerken]

Het hebben van een gegevenswoordenboek, wat het dan in uitwerking ook precies mag zijn, is voor een publieke of private sector geen doel op zich. Een gegevenswoordenboek is een instrument om te komen tot iets anders. Meestal op het vlak van interoperabiliteit: de gestructureerde uitwisseling van informatie tussen informatiesystemen. Gegevenswoordenboeken functioneren in een omgeving waarin enerzijds overkoepelende kaders van wet- en regelgeving en ketenprocessen een rol spelen en anderzijds de technische wereld van informatiesystemen, koppelvlakken en webservices. De gegevenswoordenboeken vervullen een centrale schakelfunctie hierin: ze beschrijven ketenprocessen en keten-semantiek in kaders en richtlijnen voor de ontwikkeling van informatie- en communicatie-technologische systemen. Deze centrale middenpositie wordt goed weergegeven in het zogenoemde Vijflaagsmodel van de NORA:

Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.
Semantisch Vlak als onderdeel van het Vijflaagsmodel

In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de Informatielaag. De NORA beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Deze formulering geeft aan dat gegevenswoordenboeken en gegevensmodellen verschillende dingen zijn.

Het Nationaal Semantisch Vlak (NSV) geeft een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA en stelt daarbij het fenomeen gegevenswoordenboek centraal. Het NSV is de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishouding van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook in voorkomende gevallen is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd.

Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuur van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.

Het Metamodel voor Informatiemodellen (MIM)[bewerken]

In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet.

In het kader van de discussie over gegevenswoordenboeken bevat het MIM een heel interessant conceptueel framework dat begrepen kan worden als een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORA en een uitwerking van wat de NORA ‘gegevenswoordenboeken en gegevensmodellen’ noemt. In paragraaf 1.5 van het MIM wordt het framework van het MIM beknopt beschreven. Het bestaat uit vier onderdelen:

  1. Model van begrippen
  2. Conceptueel informatiemodel
  3. Logisch informatie- of gegevensmodel
  4. Fysiek of technisch gegevens- of datamodel.

Daarnaast wijst het MIM ook het bestaan van zogenoemde registraties aan, informatiesystemen waarin met behulp van het fysiek of technisch gegevens- of datamodel, domeingegevens worden opgeslagen en ontsloten t.b.v. interoperabiliteit. Registraties bevatten beschrijvingen van instanties van concepten en maken geen onderdeel van het metamodel van het MIM uit. Omdat we echter in de werkelijkheid van de gegevenswoordenboeken ook veelvuldig van dit soort registraties aantreffen, nemen we het fenomeen mee in onze analyse. (eruit?)