Wat is een gegevenswoordenboek?

Uit NORA Online
Ga naar: navigatie, zoeken
Logo van het subthema gegevensmanagement,de tekst Gegevensmanagement met een serie nulletjes en eentjes die op verschillende manieren zijn gegroepeerd en gearceerd. Plus in de onderhoek het logo van Data op het web, een spinneweb met nulletjes en eentjes er in en de tekst Data op het web.

Onderdeel van Gegevensmanagement.

Status: 1.0 - eerste publieke versie
Auteurs: Werkgroep gegevenswoordenboeken
Feedback pagina: H.Nijstad@kennisnet.nl

Simpele beeldspraak, complexe en diverse werkelijkheid

In diverse sectoren (domeinen/ketens) van de Nederlandse overheid hebben organisaties afspraken gemaakt over eenduidige gegevensbeschrijvingen. Deze beschrijvingen zijn opgenomen in wat vaak een gegevenswoordenboek wordt genoemd. De term gegevenswoordenboek is makkelijk in het gebruik omdat het meteen een beeld bij je oproept van netjes geordende spellingen en beschrijvingen. In zijn eenvoud kan het je echter het idee geven dat gegevenswoordenboeken veel op elkaar lijken, terwijl er in de praktijk grote verschillen bestaan.

Dat komt doordat elk gegevenswoordenboek voortkomt uit andere wet- en regelgeving en ingebed is in een ander ecosysteem van organisaties en ketens, zonder dat er regels bestaan die weergeven hoe je het beschrijven van gegevens aanpakt. Als je informatie probeert uit te wisselen tussen twee domeinen of ketens gaan die verschillen opeens een rol spelen: je noemt iets hetzelfde, maar verwacht er allebei iets anders van. Datzelfde probleem speelt bij een heel scala aan termen die soms als synoniem worden gebruikt voor gegevenswoordenboeken: informatiemodellen, vocabulaires, thesauri, taxonomieën, tabellenboeken, ontologieën en registers.

Die verschillen kunnen in de praktijk betekenen dat we elkaar niet begrijpen, zonder dat we dat in eerste instantie doorhebben. En als we er eenmaal achter zijn is een veelgehoorde reactie dat we het eerst eens moeten worden over de definities, voor we informatie uit kunnen wisselen. Maar omdat we met steeds meer organisaties verbonden worden en informatie uitwisselen is dat geen haalbaar standpunt - we zouden jaren bezig zijn met het harmoniseren van alleen al de term gegevenswoordenboek in de hele publieke sector en het is sterk de vraag of dat opweegt tegen de baten.

Hoe kunnen we dan als informatieanalist of -architect het beste te werk gaan bij het stroomlijnen van de informatie-uitwisseling over de organisatiegrenzen heen, zodat we niet langs elkaar heen praten?

Gedeelde taal om te beschrijven wat je gegevenswoordenboek wel en niet is

We hebben een gedeelde taal nodig om duidelijk te maken wat we bedoelen als we het hebben over een specifiek gegevenswoordenboek (of thesaurus, informatiemodel et cetera): wat staat er wel in, wat niet? Voor welk doel is het samengesteld, op welk detailniveau en wat kunnen we er dus wel en niet mee?

De Expertgroep Gegevensmanagement van NORANederlandse Overheid Referentie Architectuur doet een voorzet hoe die gedeelde taal er uit zou kunnen zien. Niet om straks een eensluidende en canonieke definitie van het begrip gegevenswoordenboek te hebben, maar om ons eigen woordenboek zo te beschrijven dat het voor anderen helder is wat ze er wel en niet van kunnen verwachten. Als iedereen dat doet is het probleem van begripsverwarring immers opgelost.

De grondslagen van die gedeelde taal

We bouwen hiervoor voort op twee bestaande organisatie-overstijgende frameworks in de publieke sector: NORANederlandse Overheid Referentie Architectuur, in het bijzonder het Vijflaagsmodel en het Nationaal Semantisch Vlak, en het MIM (Metamodel voor informatiemodellen), dat VNG Realisatie, Kadaster en Geonovum hebben gemaakt als methodiek voor het maken en beschrijven van informatiemodellen. Op basis van die twee kaders proberen we een aantal concepten te definiëren waarmee de verscheidenheid aan verschijningsvormen systematisch beschreven kan worden, zodat verschillen en overeenkomsten inzichtelijk worden.

Gegevenswoordenboeken binnen het Vijflaagsmodel en het Nationaal Semantisch Vlak

Zoals we in Gegevenswoordenboeken binnen gegevensmanagement beschrijven is het hebben van een gegevenswoordenboek, van welke aard ook, geen doel op zich voor een domein of keten. Het is een instrument om iets anders mogelijk te maken, bijvoorbeeld de gestructureerde uitwisseling van informatie tussen informatiesystemen. Het bevordert dus interoperabiliteitInteroperabiliteit is het vermogen van organisaties (en hun processen en systemen) om effectief en efficiënt informatie te delen met hun omgeving binnen de publieke sector en waar nodig met de private sector, een belangrijke doelstelling van de NORANederlandse Overheid Referentie Architectuur. Het ligt dus voor de hand om gegevenswoordenboeken te beschrijven binnen de bredere architectuurEen beschrijving van een complex geheel, en van de principes die van toepassing zijn op de ontwikkeling van het geheel en zijn onderdelen. van de NORANederlandse Overheid Referentie Architectuur en de publieke sector.

Binnen die architectuurEen beschrijving van een complex geheel, en van de principes die van toepassing zijn op de ontwikkeling van het geheel en zijn onderdelen. vervullen gegevenswoordenboeken een centrale schakelfunctie tussen de wereld van de overheid (wet- en regelgeving, processen en organisaties) en de wereld van de techniek (informatiesystemen, koppelvlakken en webservices). De inhoud van het gegevenswoordenboek wordt bepaald op basis van de definities en mogelijkheden die de wet- en regelgeving bieden. Dat bepalen gebeurt in de betrokken organisaties, met het oog op de (keten-) processen die nodig zijn om burgers en bedrijven te bedienen met diensten en producten. Vervolgens geeft het gegevenswoordenboek richting aan de ontwikkeling van applicaties om gegevens uit te wisselen, die de processen goed ondersteunen. Deze centrale middenpositie zie je terug als je gegevenswoordenboeken weergeeft in het Vijflaagsmodel van de NORANederlandse Overheid Referentie Architectuur:

Afbeelding van het Nationaal Sematisch Vlak als een onderdeel van de Informatielaag in het Vijflaagsmodel van NORA: vijf paralellogrammen boven elkaar, van boven naar beneden Groen, Paars, Blauw, Oranje en Grijs, waarbij het blauwe vlak is uitvergroot. Vanuit de blauwe Informatielaag loopt een pijl naar de groene laag (Grondslaglaag, W&R, AMVB, Beleid etc.) met als tekst Definities in Wet- en Regelgeving. Een tweede pijl leidt naar de paarse laag (Organisatorische laag, domeinen, organisaties, processen), met als tekst Processen en informatiemodellen. Een derde pijl gaat naar de oranje laag (Applicatielaag, bouwstenen, registers) met als tekst Gegevens in registraties. De grijze Netwerklaag is vooralsnog niet verbonden. Het Nationaal Sematisch Vlak zelf is weergegeven als een netwerk van GWB's (gegevenswoordenboeken), verbonden met een Stelselcatalogus.GrondslagenlaagOrganisatorische laagNationaal Semantisch VlakApplicatielaagNetwerklaag
Semantisch Vlak als onderdeel van het Vijflaagsmodel

In dit schema bevinden de gegevenswoordenboeken zich op de centrale, derde laag, de Informatielaag, onder de grondslagenlaag (wet- en regelgeving) en de organisatorische laag (processen en organisaties), maar boven de applicatie- en netwerklagen. De NORANederlandse Overheid Referentie Architectuur beschrijft deze laag als ‘een stelsel van gegevenswoordenboeken en gegevensmodellen’. Een paar jaar geleden is een toekomstvisie geschetst voor de informatielaag: het Nationaal Semantisch Vlak.

Het doel van het Het Nationaal Semantisch Vlak (NSV) is om het gemakkelijk te maken voor ontwerpers van nieuwe diensten (of doorontwikkelaars) om te achterhalen welke gegevens al beschikbaar zijn binnen de publieke sector en of deze geschikt zijn voor hergebruik in hun dienst. Het NSV is dus de verzameling van alle begrippen die voor de Nederlandse dienstverlening en informatiehuishoudingHet totaal aan regels en voorzieningen gericht op de informatiestromen en –opslag of archivering ter ondersteuning van de primaire processen. van de overheid relevant zijn, met hun definitie, relaties en de context waarin ze gebruikt worden. De definitie is een omschrijving van de inhoud van het begrip, waarbij ook in voorkomende gevallen is aangegeven in welke wetgeving het begrip is gedefinieerd. De relaties zijn de verbanden tussen twee of meer begrippen, bijvoorbeeld omdat je het ene begrip niet kunt beschrijven zonder het andere begrip te gebruiken. De context geeft aan waar de begrippen gebruikt worden, dus in welke gegevenswoordenboeken ze voorkomen, in welke processen of informatiemodellen ze gebruikt worden en in welke systemen ze worden vastgelegd.

Het Nationaal Semantisch Vlak koppelt de Informatielaag enerzijds nadrukkelijk aan wat ‘processen en informatiemodellen’ wordt genoemd en anderzijds aan ‘gegevens in registraties’. De positionering van de gegevenswoordenboeken in de architectuurEen beschrijving van een complex geheel, en van de principes die van toepassing zijn op de ontwikkeling van het geheel en zijn onderdelen. van publieke (en waarschijnlijk ook private) informatiedomeinen is hiermee volkomen duidelijk. Maar de vraag waarmee de Informatielaag dan precies wordt gevuld, met welke entiteiten en wat de inhoud en functie van deze entiteiten is, is hiermee nog niet beantwoord.

Gegevenswoordenboeken beschrijven in de termen van het Metamodel voor Informatiemodellen (MIM)

In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet. Het model is ontwikkeld voor eigen gebruik door de betrokken partijen, maar bewust ook breder beschikbaar gesteld om meer samenhang te krijgen in de manier waarop we modellen maken en beschrijven. Inmiddels is een traject begonnen bij het Forum Standaardisatie om het MIM op de lijst met aanbevolen standaarden te krijgen. In het kader daarvan is feedback verzameld en zal het MIM waarschijnlijk nog verder doorontwikkeld worden.

Ook zonder dat het MIM als standaard erkend wordt kan het helpen bij het beschrijven van gegevenswoordenboeken, doordat het een typering geeft van vier types modellen met hun eigen doel en toepassing. In onze beschrijving van een bestaand gegevenswoordenboek kunnen we dus aangeven of het in een van deze typeringen past, of juist een combinatie is van typen.

In paragraaf 1.5 van het MIM wordt het framework van het MIM beknopt beschreven, met deze vier typen modellen:

  1. Model van begrippen
  2. Conceptueel informatiemodel
  3. Logisch informatie- of gegevensmodel
  4. Fysiek of technisch gegevens- of datamodel.

Voorzet voor de gedeelde taal

Het laatste element dat we toe willen voegen aan de gemeenschappelijke taal zijn registraties, informatiesystemen waarin met behulp van het fysiek of technisch gegevens- of datamodel, domeingegevens worden opgeslagen en ontsloten t.b.v. interoperabiliteitInteroperabiliteit is het vermogen van organisaties (en hun processen en systemen) om effectief en efficiënt informatie te delen met hun omgeving. Registraties bevatten beschrijvingen van instanties van concepten en maken geen onderdeel van het metamodel van het MIM uit. Omdat we echter in de werkelijkheid van de gegevenswoordenboeken ook veelvuldig van dit soort registraties aantreffen, nemen we het fenomeen mee in onze analyse.

Begrippenkader gegevensmanagement met werkdefinities en relaties
Modellering van gegevens (basisbeschrijving)
MIM conceptueel framework (analyse MIM conceptueel framework al middel om gegevenswoordenboeken te beschrijven)
MIM (Metamodel voor informatiemodellen) (basisinformatie en concept-standaard)

Voorbeelden van bestaande gegevenswoordenboeken, beschreven in de taal van MIM plus registraties:

De Informatiezuil van de Immigratie- en naturalisatiedienst
MIM toegepast op Gegevenswoordenboek Vreemdelingenketen
Het Canoniek Datamodel van de Strafrechtsketen
Het Kernmodel Onderwijsinformatie en het Register Instellingen en Opleidingen
MIM toegepast op Thesaurus Zorg en Welzijn