Modellering van gegevens

Uit NORA Online
Ga naar: navigatie, zoeken
Logo van het subthema gegevensmanagement,de tekst Gegevensmanagement met een serie nulletjes en eentjes die op verschillende manieren zijn gegroepeerd en gearceerd. Plus in de onderhoek het logo van Data op het web, een spinneweb met nulletjes en eentjes er in en de tekst Data op het web.

Onderdeel van Gegevensmanagement.

Status: 1.0 - eerste publieke versie
Auteurs: Arnoud Quanjer (VNG Realisatie), Henk Nijstad (Kennisnet), Robert van Wessel (ICTU)
Feedback pagina: Arnoud.Quanjer@vngrealisatie.nl

Introductie

Modellering van gegevens met behulp van datamodellering is een essentieel onderdeel van gegevensmanagement. Datamodellering is een analyse- en ontwerpmethode bij het vinden, analyseren en scopen van gegevensbehoeften. Dit betreffen eisen (requirements) op het gebied van de schrijfwijze (syntaxis), betekenis (semantiek) en de onderlinge relaties tussen deze gegevens. Het weergeven en communiceren van deze gegevensvereisten in een precieze vorm kan met behulp van een gegevensmodel.

In de zomer van 2017 hebben het Kwaliteitsinstituut Nederlandse Gemeenten (KING, nu VNG Realisatie), het Kadaster en Geonovum een metamodel gemaakt voor het ontwikkelen van informatiemodellen: het Metamodel voor Informatiemodellen, afgekort als MIM. Het MIM is ontwikkeld in het kader van het Digitaal Stelsel Omgevingswet. Het is blijkens het voorwoord van de ontwikkelaars duidelijk hun ambitie om het model niet alleen een standaard voor geo-informatieAlle informatie-objecten die een plaatsgebonden kenmerk hebben: gegevens met een directe of indirecte referentie naar een plaats op het aardoppervlak. te laten zijn, maar ook om het veel breder toepasbaar te maken. Het metamodel is daarom heel generiek opgezet.

Een gegevensmodel kan verschillende vormen aannemen en afhankelijk van het gebruik onderkent men een conceptueel, logisch en fysiek/technisch gegevensmodel. Conceptuele gegevensmodellering en logische gegevensmodellering zijn activiteiten voor requirements analyse, terwijl modellering van fysieke gegevens een ontwerpactiviteit is. Op basis van een conceptueel datamodel (ook wel informatiemodel genoemd – bevat geen attributen) worden logische datamodellen met entiteit typen en attribuuttypen samengesteld. De gegevens zelf vormen instanties van de logische datamodellen en zijn opgeslagen in een database en vormen de technische gegevensmodellen.

Bij de vertaling van een informatiemodel naar een datamodel maakt men vaak gebruik van een Entity Relationship Diagram (ERD) waarbij alle elementen van het informatiemodel en de onderlinge relaties tussen objecten uit het informatiemodel worden overgenomen. Wanneer in een logisch datamodel in de zogenaamde derde normaalvorm (3NF) is gemodelleerd heeft men duplicatie van gegevens geminimaliseerd en is referentiële integriteit, in geval van toepassing in een relationele database, gewaarborgd. Naast ERD bestaan er verschillende ander technieken voor het ontwerpen van logische datamodellen ontwerpen, zoals UML, IDEF1X, ORM en DDL). Verder zijn er veel verschillende tools die helpen bij het modelleren van gegevens, zoals ERwin Data Modeler, Enterprise Architect en IBM InfoSphere Data Architect.

NB: Het modelleren van gegevens en informatie is niet geheel los te zien van het modelleren van informatieobjecten, waarvoor de NORANederlandse Overheid Referentie Architectuur een handreiking geeft in AP19: De aan de dienst gerelateerde informatieobjecten zijn, uniek geïdentificeerd, in een informatiemodel beschreven..

Deze relatie moet nog verder worden geanalyseerd en uitgewerkt in nieuwere versies van de thema's Gegevensmanagement en Semantiek.

Conceptueel framework van het MIM als invulling van de Informatielaag

In de zoektocht naar een gedeelde taal om gegevenswoordenboeken eenduidig te beschrijven hebben we gekeken naar het conceptueel framework van het MIM. Hierin worden vier concepten beschreven, die staan voor vier types modellen met hun eigen doel en functie. Voor gegevensmanagement pakken we daar ook het concept Registraties nog bij. Het MIM geeft een nadere invulling van de Informatielaag van het Vijflaagsmodel van de NORANederlandse Overheid Referentie Architectuur. In schema ziet dat er als volgt uit:

Laten we dan nu kijken naar de vraag of we met de concepten van het MIM preciezer kunnen beschrijven en begrijpen welke zaken we zoal aantreffen in de Informatielaag van publieke (en private) informatiedomeinen, de zaken die de NORANederlandse Overheid Referentie Architectuur losjes beschrijft als ‘gegevenswoordenboeken en gegevensmodellen’. Zoals al in de inleiding vermeld, komen er in de praktijk veel verschillende praktische invullingen van het fenomeen gegevenswoordenboek of gegevensmodel voor. Soms zijn het eenvoudige begrippenlijsten, soms zijn het echte modelleringen die meer of minder abstract zijn, soms combineren ze ook verschillende van deze aspecten en functies. Kunnen we de verschillende typen gegevenswoordenboeken en -modellen die we aantreffen duiden als een van de verschillende entiteiten uit het MIM? Zo ja, dan is het metamodel van het MIM een goed model om de Informatielaag van het Vijflaagsmodel van de NORANederlandse Overheid Referentie Architectuur mee te beschrijven.

Bestaande gegevenswoordenboeken beschreven volgens de typeringen van het MIM

We hebben naar een aantal bestaande gegevenswoordenboeken gekeken en deze zo goed mogelijk beschreven in het vocabulaire van het MIM:

Observaties na analyse

De analyse van de verschillende gegevenswoordenboekachtige entiteiten hierboven geeft aanleiding tot de volgende meer algemene observaties:

  • Het blijkt goed mogelijk om de verschillende manieren waarop het begrip gegevenswoordenboek in de praktijk van informatie-uitwisseling in publieke (en private) domeinen wordt ingevuld, met behulp van het MIM-model te beschrijven en te begrijpen. We komen geen entiteiten tegen die we niet kunnen duiden;
  • We kunnen niet alleen de structuur en functie van de verschillende entiteiten op zichzelf begrijpen, we kunnen ook inzichtelijk maken hoe deze entiteiten er vanuit gebruikersperspectief primair uitzien en welke functie ze in de praktijk vooral vervullen;
  • We kunnen soms optredende ambiguïteiten oplossen, omdat bijvoorbeeld duidelijk gemaakt kan worden dat een bepaalde entiteit hybride is (een begrippenmodel dat begrippen definieert maar deze tevens beschrijft met kenmerken volgens een standaard voor logische informatiemodellen);
  • In de praktijk komen we in de wereld van de gegevenswoordenboeken vooral conceptuele informatiemodellen, logische informatie- of gegevensmodellen en begrippenmodellen tegen. Technische gegevens- of datamodellen, zoals bijvoorbeeld berichtenboeken, zijn meestal buiten scope. De wereld van het gegevenswoordenboek vervult een van de technische werkelijkheid abstraherende functie en technische gegevens- of datamodellen zijn kennelijk te techniekafhankelijk en dynamisch om onder dit bereik te vallen;
  • Modellen kunnen recursief voorkomen binnen een bepaald domein. Zo kan een domein een conceptueel hoofdmodel hebben, zoals bijvoorbeeld het Kernmodel Onderwijsinformatie, dat op zijn beurt nadere specificaties bevat in conceptuele deelmodellen.

Conclusie

Op basis van deze observaties concluderen we dat de aanpak om gegevenswoordenboeken te beschrijven zoals ze bestaan, liever dan het begrip geforceerd te standaardiseren en alles dat niet aan de standaard voldoet af te schrijven, succesvol is. Het conceptueel framework van het MIM is daarbij een hanteerbare en effectieve indeling die ons een gedeelde taal geeft bij die beschrijving. Zo doet het recht aan de verscheidenheid aan gegevenswoordenboeken die we in de praktijk aantreffen en heeft het oog voor de context waarbinnen de meeste gegevenswoordenboeken functioneren. Het model bevat een beperkt aantal concepten waarmee de wereld van de gegevenswoordenboeken goed beschreven en begrepen kan worden (begrippenmodel, conceptueel model, logisch model, datamodel en register). Informatiearchitecten en -analisten kunnen er bovendien goed houvast aan hebben wanneer zij in een bepaald domein aan de slag gaan met het normaliseren van de gegevensuitwisseling.