Wat zijn metadata en metadatamanagement?

Uit NORA Online
Naar navigatie springen Naar zoeken springen


Onderdeel van
Thema's
Contact
Arjen Santema
Arjen.Santema@kadaster.nl
Status
Actueel
Auteurs

Werkgroep Metadatamanagement

Dit tweede hoofdstuk legt een basis voor de Visie metadatamanagement door definities en toelichting te geven bij de begrippen metadata en metadatamanagement.

2.1 Metadata en metadatamanagement[bewerken]

Het voorvoegsel “meta” betekent volgens Wikipedia “betreffende het onderwerp zelf”. Metadata zijn daarmee data over data. Dat sluit ook aan bij de definitie zoals gehanteerd in de DAMA Data Management Body of Knowledge: “Data about data – that is, data describing the structure, content or use of some other data.” Praktisch gezien kun je metadata als bijsluiter bij data beschouwen. Voorbeelden van metadata zijn o.a.: Definities van begrippen, Classificaties, Onderlinge relaties, Eigenaarschap en andere verantwoordelijkheden, Gebruiksdoelen, Toegangsvoorwaarden en -beperkingen, Lineage (traceerbaarheid en bewerkingen), Locatie van de data, Kwaliteitscriteria, Gebruiksstatistieken, Namen en omschrijvingen van data-elementen.

De NORA spreekt (in plaats van metadata) over metagegevens, en definieert die als “Gegevens die context, inhoud, structuur en vorm van informatie en het beheer ervan door de tijd heen beschrijven.”

De ISO/IEC 11179 standaard voor het vastleggen van metadata beschrijft een meer uitgebreide definitie van metadata: “For ISO/IEC 11179, metadata is defined to be data that defines and describes other data. This means that metadata are data, and data become metadata when they are used in this way. This happens under particular circumstances, for particular purposes, and with certain perspectives, as no data are always metadata. The set of circumstances, purposes, or perspectives for which some data are used as metadata is called the context. So, metadata are data about data in some context.”

Het onderscheid tussen data en metadata is dus niet altijd zwart-wit; het is afhankelijk van de context en de rol die de data spelen. Neem als voorbeeld een dataset over bomen in de openbare ruimte. De inhoud van deze dataset beschouwen we als data. Rondom die data kunnen allerlei metadata worden vastgelegd, zoals de definitie van wat een boom is, welke soorten bomen er zijn en welke eigenschappen verschillende soorten bomen hebben. Als je geïnteresseerd bent in de bomen, dan zijn dit vormen van metadata die je kunnen helpen bij het vinden, begrijpen en gebruiken van de data. Ben je echter vooral bezig met ontwikkelen van een IT-systeem dat dit soort metadata vastlegt (bijvoorbeeld een systeem voor het vastleggen van een bomen-encyclopedie) dan zijn het voor jou waarschijnlijk vooral data.

Werkdefinitie voor de scope van deze visie: Data over Data[bewerken]

Het hangt dus vooral af van je doel of je iets als data of als metadata ziet. Deze visie gaat over het omgaan met (‘managen van’) alle data die de rol van metadata kunnen aannemen, ook al zijn ze vanuit een ander perspectief wellicht “gewoon” data. We beschouwen data als metadata wanneer zij andere data beschrijven in een zekere context.

Er zijn ook bredere interpretaties van het begrip metadata, zoals “data over informatie-objecten” of “data over objecten”. Zo wordt bijvoorbeeld in de context van digitaal erfgoed de term ook gebruikt voor data over (fysieke) cultureel erfgoedobjecten. Data over applicaties worden ook wel eens metadata genoemd. Als je de term echter zo breed gebruikt dan wordt het onderscheid tussen data en metadata onduidelijker. In deze visie beperken we het begrip daarom tot data over data.

Metadata kun je zien als vastgelegde kennis van een organisatie over de voor de organisatie relevante data. Metadata zijn daarmee ook te zien als een manier om impliciete kennis expliciet te maken. Ze zijn het resultaat van het codificeren van kennis en daarmee een cruciaal onderdeel van kennismanagement. Als je op deze manier naar metadata kijkt dan zou je veel meer kennis in de vorm van metadata vast kunnen leggen. Het is daarbij eigenlijk niet meer zo relevant in hoeverre dat stopt bij “data over data” en overgaat naar “data over (informatie-)objecten”. Metadata die expliciet zijn gemaakt zorgen dat kennis niet verloren gaat. Daarnaast kan deze vastgelegde kennis ook verbonden worden aan andere kennis. Door bijvoorbeeld een relatie te leggen naar processen, ontstaat een beter inzicht welke data worden gebruikt en gecreëerd in processen. Wanneer een organisatie de eigen metadata op orde heeft dan heeft dit door de hele organisatie zijn weerslag op de omgang met data.

Metadata kun je vastleggen vóórdat er sprake is van de (primaire) data. Feitelijk is dit het modelleerproces dat voorafgaat aan daadwerkelijke dataverzameling. De metadata zijn dan nog steeds ‘data over data’, maar die primaire data mogen dus een soort ontwerpstatus hebben en dan kunnen we nog steeds spreken van metadata.

Nu we een beeld hebben geschetst van wat metadata zijn, kunnen we metadatamanagement definiëren als: "het proces om metadata binnen een organisatie op gestructureerde wijze in te richten, in stand te houden en te verbeteren”.

2.2 Soorten metadata[bewerken]

Data over data kennen allerlei verschijningsvormen. Bij het praten over metadata helpt het om een onderverdeling te maken in de verschillende soorten metadata. DAMA DMBoK onderscheidt business metadata, technische metadata en operationele metadata. In Tabel 1 staan veelvoorkomende soorten metadata in die drie categorieën gepositioneerd.

Business metadata Technische metadata Operationele metadata
Inhoud en governance Details, systemen, processen Verwerking en gebruik
Definities en beschrijvingen van datasets, tabellen en kolommen Namen van fysieke tabellen en kolommen Logbestanden van batch runs
Business rules, transformatieregels, berekeningen en afleidingen Kolomeigenschappen Geschiedenis van extracten en resultaten
Datamodellen Eigenschappen van het databaseobject Afwijkingen van terugkeerpatronen
Datakwaliteitsregels en meetresultaten Toegangsrechten ‘Audit, balance, control’ meetresultaten
Frequentie/timing waarmee de data worden geüpdatet CRUD regels Error logging
Herkomst Fysieke datamodellen, inclusief namen, sleutels en indices Toegangspatronen, frequentie en uitvoertijd van rapportages en queries
Datastandaarden Relaties datamodellen en fysieke assets Planning, uitvoer en status van onderhoud en patching
Aanwijzing bronsysteem Details over gebruikte ETL Backup-, retentie- en herstelvoorzieningen
Toegestaan gegevensbereik Bestandsformaat en schema definitie SLA-eisen en voorzieningen
Vertrouwelijkheidsniveaus Bron-naar-doel mappingen Omvangs- en gebruiksgegevens
Bekende issues rondom de data Data lineage Archiverings- en retentieregels, bijbehorende archieven
Aanwijzingen voor datagebruik Namen en beschrijvingen van programma’s en applicaties Opschoningscriteria
Terugkeerpatronen van automatische updateprocessen Regels en afspraken rondom datadelen
Herstel- en backupregels Technische rollen en verantwoordelijkheden
Rechten, groepen en rollen voor toegang

De indeling van DAMA is primair gebaseerd op het ontstaan van de data, niet zozeer het gebruik ervan. Mensen die technische en operationele taken uitvoeren hebben vaak ook ‘business’ metadata nodig, en vice versa. DAMA waarschuwt zelf om niet te krampachtig vast te houden aan een indeling in categorieën, en het overzicht vooral te gebruiken om uit te leggen wat er allemaal onder de paraplu van metadata kan vallen.

DAMA geeft ook aan dat buiten het domein van de informatietechnologie, bijvoorbeeld in bibliotheken en informatiewetenschappen, een andere indeling van soorten metadata gebruikelijk is:

  • Beschrijvende metadata (bijv. titel, auteur, onderwerp) beschrijft het informatieobject en helpt deze te vinden en gebruiken
  • Structurele metadata (bijv. aantal pagina’s of hoofdstukken) beschrijft relaties binnen en tussen informatieobjecten
  • Administratieve metadata (bijv. versienummers, archiefdatums) worden gebruikt voor het managen van de levenscyclus van informatieobjecten

Bovenstaande indeling is in onze ogen bruikbaar voor ongestructureerde data in meer algemene zin. De indeling in Tabel 1 heeft vooral betrekking op gestructureerde data, al dan niet opgeslagen in databases. De tweedeling in gestructureerde data en ongestructureerde data komt ook terug in de standaarden voor metadata. Voor gestructureerde data zijn belangrijke metadata standaarden DCAT en MIM. Voor ongestructureerde data zien we MDTO ( (Metagegevens voor Duurzaam Toegankelijke Overheidsinformatie), TOOI (voorheen OWMS) en NEN-ISO 23081-2 vaak toegepast. In de praktijk zien we vaak dat de standaarden als vertrekpunt worden genomen en worden aangevuld met eigen organisatie specifieke metadata-elementen om te voldoen aan de eigen informatiebehoeften.

Een geheel ander perspectief op metadata is dat van NEN-ISO 23081-2:2009 op metadata, waarbij wordt gekeken vanuit het perspectief van archiefbescheiden. Tabel 2 geeft een overzicht van de metagegevens die daarin worden voorgesteld.


Identiteit Beschrijving Gebruik Activiteitenplan Geschiedenis van activiteiten Relatie
Type entiteit Titel Technische omgeving Datum/tijd activiteit Activiteitenkenmerk Identificatiekenmerk van de gerelateerde entiteit
Aggregatie Classificatie Rechten Activiteittype Datum/tijd activiteit Type relatie
Registratie-identificatiekenmerk Uittreksel Toegang Beschrijving activiteit Activiteittype Datum relatie
Plaats Publiek Activiteitrelatie Beschrijving activiteit
Jurisdictie Taal Activiteittrigger Activiteitrelatie
Externe identificatiecodes Integriteit
Documentvorm

2.3 Data- en informatiemodellen[bewerken]

Als het gaat over gestructureerde data, dan wordt vaak gesproken over data-, gegevens- of informatiemodellen. Dit soort modellen zijn ook een vorm van metadata. Specifiek voor deze vorm van metadata kun je onderscheid maken tussen conceptuele, logische en fysieke (ook wel: technische) modellen. Conceptuele modellen leggen de nadruk op het goed begrijpen van de werkelijkheid zonder te kijken naar implementatie. Logische modellen leggen de nadruk op het gebruik in informatiesystemen door het structureren van gegevens. Fysieke modellen leggen de nadruk op de vertaling naar implementatie en technologie.

Driehoek met onderin M0 en bovenin M3

De driehoek hiernaast illustreert de gelaagdheid van metaniveaus zoals gedefinieerd door de Object Management Group. Op niveau M0 zien we data over de dingen die we herkennen in de werkelijkheid zoals specifieke auto’s en personen. Metadata bevindt zich op niveau M1 en beschrijven de structuur en betekenis van de data zoals vastgelegd op M0. Dit is het niveau van informatiemodellen waarin wordt gedefinieerd wat auto’s en personen in het algemeen zijn. De MIM-standaard bijvoorbeeld bevindt zich op niveau M2 en beschrijft welke metadata-elementen worden vastgelegd in een informatiemodel. Het niveau M3 overstijgt alle andere modellen en definieert de begrippen die zijn gebruikt om bijvoorbeeld het MIM te beschrijven.

2.4 Metamodellen[bewerken]

Om informatiemodellen onderling uitwisselbaar / verbindbaar te maken is een gemeenschappelijk model-voor-informatiemodellen noodzakelijk. Ten behoeve van de Nederlandse overheid is de MIM-standaard een jong en belangrijk initiatief. MIM staat voor Metamodel voor Informatie Modellering en is zo’n standaard manier voor het beschrijven van informatiemodellen. Gebruik van het MIM wordt aanbevolen door Forum Standaardisatie.

2.5 Linked Data[bewerken]

Data worden steeds vaker gerepresenteerd als Linked Data, met name voor publicatie op het Web. De RDF (Resource Description Framework) standaard is een basis voor Linked Data. Linked Data is sterk semantisch georiënteerd en gericht op de publicatie van data en daardoor bij uitstek geschikt voor het weergeven en publiceren van metadata. Dit is ook de reden dat een aantal metadata standaarden gebaseerd zijn op Linked Data. Voorbeelden daarvan zijn DCAT, SKOS en TOOI.