Wat zijn metadata en metadatamanagement?

Uit NORA Online
Versie door M.M.Vos (overleg | bijdragen) op 27 sep 2022 om 13:24 (→‎2.2 Soorten metadata: tabel als één tabel opgevoerd)
Naar navigatie springen Naar zoeken springen


Onderdeel van
Thema's
Contact
Arjen Santema
rob.van.dort@kvk.nl
Status
Actueel
Auteurs

Werkgroep Metadatamanagement

Dit hoofdstuk legt een basis voor de Visie metadatamanagement door definities en toelichting te geven bij de begrippen metadata en metadatamanagement.

2.1 Metadata en metadatamanagement[bewerken]

Het voorvoegsel “meta” betekent volgens Wikipedia “betreffende het onderwerp zelf”. Metadata zijn daarmee data over data. Dat sluit ook aan bij de definitie zoals gehanteerd in de DAMA Data Management Body of Knowledge: “Data about data – that is, data describing the structure, content or use of some other data.” Praktisch gezien kun je metadata als bijsluiter bij data beschouwen. Voorbeelden van metadata zijn o.a.: Definities van begrippen, Classificaties, Onderlinge relaties, Eigenaarschap en andere verantwoordelijkheden, Gebruiksdoelen, Toegangsvoorwaarden en -beperkingen, Lineage (traceerbaarheid en bewerkingen), Locatie van de data, Kwaliteitscriteria, Gebruiksstatistieken, Namen en omschrijvingen van data-elementen.

De NORA spreekt (in plaats van metadata) over metagegevens, en definieert die als “Gegevens die context, inhoud, structuur en vorm van informatie en het beheer ervan door de tijd heen beschrijven.”

De ISO/IEC 11179 standaard voor het vastleggen van metadata beschrijft een meer uitgebreide definitie van metadata: “For ISO/IEC 11179, metadata is defined to be data that defines and describes other data. This means that metadata are data, and data become metadata when they are used in this way. This happens under particular circumstances, for particular purposes, and with certain perspectives, as no data are always metadata. The set of circumstances, purposes, or perspectives for which some data are used as metadata is called the context. So, metadata are data about data in some context.”

Het onderscheid tussen data en metadata is dus niet altijd zwart-wit; het is afhankelijk van de context en de rol die de data spelen. Neem als voorbeeld een dataset over bomen in de openbare ruimte. De inhoud van deze dataset beschouwen we als data. Rondom die data kunnen allerlei metadata worden vastgelegd, zoals de definitie van wat een boom is, welke soorten bomen er zijn en welke eigenschappen verschillende soorten bomen hebben. Als je geïnteresseerd bent in de bomen, dan zijn dit vormen van metadata die je kunnen helpen bij het vinden, begrijpen en gebruiken van de data. Ben je echter vooral bezig met ontwikkelen van een IT-systeem dat dit soort metadata vastlegt (bijvoorbeeld een systeem voor het vastleggen van een bomen-encyclopedie) dan zijn het voor jou waarschijnlijk vooral data.

Werkdefinitie voor de scope van deze visie: Data over Data[bewerken]

Het hangt dus vooral af van je doel of je iets als data of als metadata ziet. Deze visie gaat over het omgaan met (‘managen van’) alle data die de rol van metadata kunnen aannemen, ook al zijn ze vanuit een ander perspectief wellicht “gewoon” data. We beschouwen data als metadata wanneer zij andere data beschrijven in een zekere context.

Er zijn ook bredere interpretaties van het begrip metadata, zoals “data over informatie-objecten” of “data over objecten”. Zo wordt bijvoorbeeld in de context van digitaal erfgoed de term ook gebruikt voor data over (fysieke) cultureel erfgoedobjecten . Data over applicaties worden ook wel eens metadata genoemd. Als je de term echter zo breed gebruikt dan wordt het onderscheid tussen data en metadata onduidelijker. In deze visie beperken we het begrip daarom tot data over data.

Metadata kun je zien als vastgelegde kennis van een organisatie over de voor de organisatie relevante data. Metadata zijn daarmee ook te zien als een manier om impliciete kennis expliciet te maken. Ze zijn het resultaat van het codificeren van kennis en daarmee een cruciaal onderdeel van kennismanagement. Als je op deze manier naar metadata kijkt dan zou je veel meer kennis in de vorm van metadata vast kunnen leggen. Het is daarbij eigenlijk niet meer zo relevant in hoeverre dat stopt bij “data over data” en overgaat naar “data over (informatie-)objecten”. Metadata die expliciet zijn gemaakt zorgen dat kennis niet verloren gaat. Daarnaast kan deze vastgelegde kennis ook verbonden worden aan andere kennis. Door bijvoorbeeld een relatie te leggen naar processen, ontstaat een beter inzicht welke data worden gebruikt en gecreëerd in processen. Wanneer een organisatie de eigen metadata op orde heeft dan heeft dit door de hele organisatie zijn weerslag op de omgang met data.

Metadata kun je vastleggen vóórdat er sprake is van de (primaire) data. Feitelijk is dit het modelleerproces dat voorafgaat aan daadwerkelijke dataverzameling. De metadata zijn dan nog steeds ‘data over data’, maar die primaire data mogen dus een soort ontwerpstatus hebben en dan kunnen we nog steeds spreken van metadata.

Nu we een beeld hebben geschetst van wat metadata zijn, kunnen we metadatamanagement definiëren als: “het proces om metadata binnen een organisatie op gestructureerde wijze in te richten, in stand te houden en te verbeteren”.

2.2 Soorten metadata[bewerken]

Data over data kennen allerlei verschijningsvormen. Bij het praten over metadata helpt het om een onderverdeling te maken in de verschillende soorten metadata. DAMA DMBoK onderscheidt business metadata, technische metadata en operationele metadata. In Tabel 1 staan veelvoorkomende soorten metadata in die drie categorieën gepositioneerd.

Business metadata Technische metadata Operationele metadata
Inhoud en governance Details, systemen, processen Verwerking en gebruik
Definities en beschrijvingen van datasets, tabellen en kolommen Namen van fysieke tabellen en kolommen Logbestanden van batch runs
Business rules, transformatieregels, berekeningen en afleidingen Kolomeigenschappen Geschiedenis van extracten en resultaten
Datamodellen Eigenschappen van het databaseobject Afwijkingen van terugkeerpatronen
Datakwaliteitsregels en meetresultaten Toegangsrechten ‘Audit, balance, control’ meetresultaten
Frequentie/timing waarmee de data worden geüpdatet CRUD regels Error logging
Herkomst Fysieke datamodellen, inclusief namen, sleutels en indices Toegangspatronen, frequentie en uitvoertijd van rapportages en queries
Datastandaarden Relaties datamodellen en fysieke assets Planning, uitvoer en status van onderhoud en patching
Aanwijzing bronsysteem Details over gebruikte ETL Backup-, retentie- en herstelvoorzieningen
Toegestaan gegevensbereik Bestandsformaat en schema definitie SLA-eisen en voorzieningen
Vertrouwelijkheidsniveaus Bron-naar-doel mappingen Omvangs- en gebruiksgegevens
Bekende issues rondom de data Data lineage Archiverings- en retentieregels, bijbehorende archieven
Aanwijzingen voor datagebruik Namen en beschrijvingen van programma’s en applicaties Opschoningscriteria
Terugkeerpatronen van automatische updateprocessen Regels en afspraken rondom datadelen
Herstel- en backupregels Technische rollen en verantwoordelijkheden
Rechten, groepen en rollen voor toegang