2 Inleiding Datalineage

Dit hoofdstuk geeft een algemene inleiding op het onderwerp datalineage. Het start met de definitie van datalineage en gaat achtereenvolgens in op de verschillende vormen van datalineage, de waarde van datalineage, de belanghebbenden en de implementatie. De focus daarbij ligt op wat datalineage is in de context van gestructureerde gegevens.

2.1 Definitie

Het woord “lineage” betekent letterlijk “afstamming” en dat gaat volgens het woordenboek over nakomelingen. In de context van gegevens gaat het over de gegevens die ten grondslag liggen aan andere gegevens. Praktisch willen mensen graag inzicht krijgen in de herkomst van gegevens. De term “herkomst” is volgens het van Dale Groot Woordenboek der Nederlandse Taal een synoniem voor “afstamming”.

Er is door het Wetenschappelijk Onderzoek- en Datacentrum (WODC) van het ministerie van Justitie en Veiligheid een rapport geschreven over datalineage (Bargh, 2024) waarin zij de volgende definitie hanteren: “de beschrijving van databewegingen en -transformaties op verschillende abstractieniveaus langs datatrajecten. De beschrijving omvat de aspecten die van belang zijn in een toepassingscontext, zoals hoe (d.w.z. door wie, wanneer, waar, welke, enz.) dataobjecten worden verwerkt (d.w.z. gemaakt, verzameld, opgeslagen, geopend, getransformeerd, verzonden, enz.) en hoe deze gerelateerd zijn aan dataconcepten van hoog niveau”. Wat uit deze definitie naar voren komt is dat naast de verplaatsingen van gegevens ook de transformaties die zijn uitgevoerd belangrijk zijn om te beschrijven. Daarnaast is ook de relatie van gegevens met bijbehorende begrippen expliciet in scope van datalineage.

Er is een nauwe relatie met de term “dataprovenance”. Het World Wide Web Consortium (W3C) hanteert daarbij de volgende definitie: “a record that describes the people, institutions, entities, and activities involved in producing, influencing, or delivering a piece of data or a thing”. In deze definitie ligt de nadruk meer op de metagegevens (het record) die beschrijven hoe gegevens tot stand zijn gekomen. Praktisch manifesteren dataprovenance en datalineage zich namelijk vooral als metagegevens.

Het is de vraag wanneer je over datalineage kunt spreken. In hoeverre is bijvoorbeeld het toevoegen van metagegevens aan een document over wie de auteur is en wanneer het document is gecreëerd al datalineage? Als je strikt naar de betekenis van het woord en de definitie van het WODC kijkt dan is duidelijk dat dit al een vorm van datalineage is, ondanks dat deze heel eenvoudig van aard is. Deze eenvoudige vorm van datalineage is heel breed aanwezig in allerlei dingen die we maken en is dus wijd verspreid. Het is echter interessanter om te kijken naar datalineage waarin er echt sprake is van een keten, waarbij verschillende partijen achtereenvolgens bewerkingen uitvoeren.

Figuur 1 geeft een globaal overzicht van belangrijke elementen in de context van gegevens, die je als onderdeel kunt zien van datalineage. De figuur is afkomstig uit de domeinarchitectuur gegevensuitwisseling (MIDO, 2024). Hierin kun je zien dat gegevens ontstaan als gevolg van een gebeurtenis waarbij iemand, iets, ergens, met iets anders om een bepaalde reden doet. Een specifiek geval daarbij is als bepaalde brongegevens op basis van afleidingsregels worden getransformeerd. De resulterende gegevens kunnen vervolgens worden geregistreerd, formeel worden verklaard, aangemerkt als vermoedelijke fout en als zodanig worden teruggemeld. Dergelijke handelingen zijn te zien als bewerkingen van de originele gegevens. Daarnaast zijn ook de relaties van gegevens met begrippen en gegevensmodellen onderdeel van datalineage. Ze geven betekenis en structuur aan de gegevens.

Gegevensuitwisseling context.png

Figuur 1: Gegevens in context – aspecten van datalineage. Bron: MIDO (2024).

2.2 Vormen van datalineage

Er bestaan allerlei vormen van datalineage. De volgende paragrafen leggen het onderscheid uit tussen horizontale versus verticale datalineage, typeniveau versus instantieniveau, detailniveau en het handmatig versus geautomatiseerd vastleggen van datalineage.

2.2.1 Horizontaal versus verticaal

Er is een onderscheid tussen horizontale en verticale datalineage. Horizontale datalineage gaat over hoe gegevens bewegen door ketens van organisaties, processen en systemen. Het relateert soortgelijke dingen, van bron naar doel. Verticale datalineage gaat over de relatie van gegevenselementen met andere dingen, zoals met begrippen, gegevensmodellen en technische artefacten. Denk bij technische artefacten bijvoorbeeld aan databaseschema’s, maar ook aan infrastructurele componenten. Het legt dus relaties tussen verschillende soorten dingen. Deze twee vormen zijn in Figuur 2 gevisualiseerd. Daarbij is een voorbeeld van een keten weergegeven, bestaande uit een bronregistratie en een informatieproduct dat een specifieke gebruikersbehoefte ondersteunt. Merk op dat de figuur een globale schets is en daarom niet compleet is.

Datalineage figuur2.png

Figuur 2: Horizontale en verticale datalineage

Horizontale datalineage bestaat op meerdere niveaus. Op organisatorisch niveau kan deze worden beschreven op een manier waarop niet-technische doelgroepen deze kunnen begrijpen. Daarin staan bedrijfsprocessen centraal, maar kan ook de relatie met en tussen bedrijfsregels, applicaties, databases, dataproducten en informatieproducten worden beschreven. Dit soort beschrijvingen worden vaak in architecturen vastgelegd. Op logisch niveau zijn er vertalingen gedefinieerd tussen de logische gegevensmodellen van de bronregistratie en het informatieproduct in de vorm van afleidingsregels. Denk bij een afleidingsregel bijvoorbeeld aan een regel voor het berekenen van iemands leeftijd op basis van de geboortedatum. Op het implementatieniveau eronder worden deze afleidingsregels gespiegeld in de vorm van programmacode (zoals ETL scripts) die de vertaling tussen technische datamodellen uitvoert. Op het instantieniveau eronder vindt de daadwerkelijke activiteit plaats. Daar voeren menselijke en/of geautomatiseerde actoren (IT-systemen) activiteiten uit die invoergegevens bewerken tot uitvoergegevens. Verticale datalineage kan op twee niveaus worden gedefinieerd: op business en technisch niveau. Verticale business datalineage beschrijft de relatie tussen begrippen, conceptuele informatiemodellen, logische gegevensmodellen, technische datamodellen en gegevens. Tabel 1 geeft een nadere duiding van deze soorten modellen en is opgesteld in de context van de MIM standaard voor informatie- en gegevensmodellering (Greefhorst et al., 2024). Semantische en conceptuele modellen zijn gericht op het analyseren van het probleemdomein. Het gemeenschappelijk begrip dat daarbij ontstaat leidt tot standaardisatie van begrippen en modellen. Een ontologie is een specifieke vorm van een conceptueel model. Logische en implementatiemodellen zijn gericht op de vertaling van het probleemdomein naar informatievoorziening en gegevensverwerking. In de context van de overheid is ook de relatie van begrippen met wet- en regelgeving belangrijk om te kennen.

Verticale technische datalineage beschrijft de relatie tussen technische datamodellen en andere technische artefacten zoals databaseschema’s en infrastructuurcomponenten (zoals een databaseserver) die worden gebruikt. Voor alle relaties die worden aangebracht geldt dat zij helpen bij het beter begrijpen van de gegevens en bij het bepalen van de impact van wijzigingen. In de ultieme vorm kun je bij een wetswijziging precies aanwijzen welke artefacten worden geraakt.

SemantischConceptueelLogischImplementatie
ModelBegrippenkaderConceptueel informatiemodelLogisch gegevensmodelTechnisch datamodel
IntentieAnalyserenAnalyserenOntwerpenOntwerpen
FunctieElkaar begrijpenBegrip van het domein expliciterenGegevensgebruik specificerenGegevensgebruik realiseren
DoelgroepIedereenExpertgebruikersOntwerpersOntwikkelaars

Tabel 1: Verschillende niveaus van modellen (relevant voor verticale business datalineage)

2.2.2 Typeniveau versus instantieniveau

Het is ook mogelijk om onderscheid te maken tussen datalineage op typeniveau en instantie-niveau. Dat komt overeen met het verschil tussen hoe gegevens in het algemeen tot stand komen versus hoe ze in een specifiek geval tot stand zijn gekomen (bijv. voor het produceren van een rapportage of dashboard). Op typeniveau spreken we bijvoorbeeld over “personen” en eigenschappen zoals “naam”. Op instantieniveau gaat het over specifieke personen en de waarden die de eigenschappen hebben, zoals dat iemand de naam “Jan Jansen” heeft. Dit zit dicht aan tegen het onderscheid tussen verticale en horizontale datalineage, maar is net iets anders. Op typeniveau worden begrippen, conceptuele informatiemodellen, logische gegevensmodellen en technische datamodellen aan elkaar gerelateerd. Op typeniveau bestaan ook transformaties, op verschillende abstractieniveaus. Op semantisch/conceptueel niveau zijn dit bedrijfsregels. Deze worden op logisch niveau vertaald naar concrete afleidingsregels. Op implementatieniveau zijn deze vertaald naar programmacode.

Datalineage op instantieniveau gaat over de specifieke gegevens die op een bepaald moment worden verwerkt in activiteiten door actoren. Deze instanties zouden wel moeten verwijzen naar hun definities op typeniveau. Het creëren van datalineage op typeniveau is eenvoudiger dan op instantieniveau en is in veel gevallen al voldoende. Veel datalineage tools bieden ook alleen inzicht in datalineage op typeniveau. Het instantieniveau kan ook op verzoek worden gegenereerd, op basis van de definities, de invoergegevens en de afleidingsregels (dit heet lazy datalineage).

2.2.3 Detailniveau

Een ander belangrijk onderscheid is het detailniveau waarop de datalineage wordt gedefinieerd. Dat kan heel globaal zijn, op het niveau van registraties en datasets, iets meer in detail op het niveau van clusters van gegevens (tabellen) of zeer gedetailleerd op het niveau van individuele gegevenselementen (kolommen) binnen deze tabellen. Datalineage op globaal niveau is geschikt voor veel eindgebruikers, maar biedt weinig ondersteuning bij impact- en foutanalyses. Het vastleggen van meer details vraagt om meer inspanning, maar dit proces kan grotendeels worden geautomatiseerd (zie volgende paragraaf).

2.2.4 Handmatig versus geautomatiseerd

Er is een onderscheid tussen datalineage die handmatig wordt gedefinieerd en datalineage die geautomatiseerd wordt gegenereerd. Datalineage op typeniveau kan deels handmatig worden vastgelegd, maar bij voorkeur gebeurt dit zoveel mogelijk automatisch. Datalineage op instantieniveau kan eigenlijk alleen geautomatiseerd worden vastgelegd, omdat het over teveel metagegevens gaat om handmatig te definiëren. Bepaalde applicaties bieden standaard functionaliteit voor het vastleggen van datalineage. Daarnaast zijn er ook tools die in staat zijn om datalineage te importeren uit andere applicaties of tools, programmacode kunnen extraheren en alle informatie als gestructureerde metagegevens vast te leggen in een metagegevensrepository. Het datalineage rapport van het WODC (Bargh, 2024) biedt een evaluatieraamwerk voor datalineage tools.

Handmatig gedefinieerde datalineage heeft ook een belangrijke waarde, los van het feit dat niet alle datalineage geautomatiseerd kan worden vastgelegd. Het is een manier om kennis vast te leggen over hoe gegevens stromen en is daarmee een vorm van documentatie. Het gezamenlijk vastleggen van huidige of gewenste gegevensstromen kan tot belangrijke inzichten leiden, waarbij visualisaties een hulpmiddel bieden. In een gegevensstroomdiagram wordt inzichtelijk hoe invoergegevens worden omgevormd tot uitvoergegevens. Zulke diagrammen geven mogelijk zelfs meer inzicht dan gegenereerde metagegevens, zeker als ze ook in gebruikerstaal zijn beschreven (Gunneman en Raja, 2025).

2.2.5 Samenvatting dimensies

Er zijn in deze paragraaf een aantal dimensies in datalineage beschreven:

  • de beweging van gegevens (horizontaal) of hun relatie met ander soort artefacten (verticaal);
  • horizontale datalineage kan worden onderverdeeld in:
    • organisatorisch: het niveau van processen en bedrijfsregels
    • logisch: het niveau van logische gegevensmodellen en afleidingsregels;
    • implementatie: het niveau van technische datamodellen en programmacode;
  • verticale datalineage kan worden onderverdeeld in:
    • business: de relatie tussen wet- en regelgeving, begrippen, conceptuele informatiemodellen, logische gegevensmodellen, technische datamodellen en gegevens;
    • technisch: de relatie van gegevens met technische artefacten;
  • op het niveau van modellen (type) of op het niveau van de waarden (instanties);
  • op het niveau van datasets, gegevensclusters of gegevenselementen (detailniveau);
  • het handmatig of geautomatiseerd vastleggen.

Het WODC rapport over datalineage (Bargh, 2024) beschrijft ook andere dimensies in datalineage, zoals het onderscheid tussen:

  • vanuit de gebruiker (backwards) of vanuit de bron (forward) kijken;
  • alleen de bron beschrijven (data origin) of de gehele keten (data flow);
  • alleen de invoergegevens (where) of ook de transformaties (how) beschrijven.

2.3 De waarde van datalineage

Vertrouwen en transparantie

In algemene zin helpt datalineage in het creëren van vertrouwen in gegevens. Datalineage creëert inzicht in de definitie en de totstandkoming van gegevens. Het laat zien welke bronnen gebruikt zijn en wie welke bewerkingen heeft uitgevoerd. Als dit inzicht ook met anderen wordt gedeeld, dan laat een overheidsorganisatie zien dat deze transparant is. Dit verhoogt het vertrouwen van burgers en bedrijven in de overheid. Betrouwbaarheid is een algemene publieke waarde voor overheden.

Voldoen aan wet- en regelgeving

Er is allerlei regelgeving die impliciet of expliciet vraagt om een vorm van datalineage. Een belangrijk voorbeeld daarbij is de AVG, die stelt dat burgers recht op inzage, correctie en verwijdering van hun gegevens hebben. Dit is alleen mogelijk als is vastgelegd wie, welke gegevens verwerkt. In meer algemene zin is het belangrijk dat overheden zich kunnen verantwoorden over hun handelen. Zo zijn in de Algemene wet bestuursrecht de beginselen van zorgvuldige voorbereiding en belangenafweging en het motiveringsbeginsel van besluiten al een basis voor verantwoording. Datalineage kan ook inzicht geven in waar gevoelige gegevens worden gebruikt, en daarmee laat het mogelijke privacy- of beveiligingsrisico’s zien. Andere wetten die om een vorm van datalineage vragen zijn bijvoorbeeld de nieuwe Cyberbeveiligingswet, de AI act, de Wet open overheid en de Archiefwet. In andere sectoren zijn met name de Basel-wetgeving voor financiële instellingen en de nieuwe pensioenwet voorbeelden van wetgeving die om datalineage vraagt.

Impact- en foutanalyse

Datalineage is een belangrijk instrument voor het ondersteunen van impactanalyses, zowel op business, IT als gegevensniveau. Idealiter is bij wetswijzigingen inzichtelijk welke begrippen en daarmee welke gegevensmodellen, transformaties en IT-systemen moeten worden aangepast. Het geeft idealiter ook inzicht in het gebruik van gegevens en bronnen. Een combinatie van horizontale en verticale datalineage heeft daarbij de meeste waarde. In het geval van fouten die optreden in processen en systemen helpt gedetailleerde datalineage om te analyseren wat, waar fout is gegaan. Hierdoor is er sneller inzicht in de oorzaak van problemen en kunnen deze sneller worden opgelost. Dit verhoogt de continuïteit van processen en systemen en maakt het mogelijk om deze ook sneller aan te passen aan veranderende omstandigheden. Zo kan het belangrijke ondersteuning leveren bij het migreren van systemen.

Verhogen gegevenskwaliteit

Door het bieden van gedetailleerd inzicht in hoe gegevens stromen ontstaat ook zicht op mogelijke problemen met de kwaliteit van gegevens. Het wordt bijvoorbeeld inzichtelijk als gegevens niet afkomstig zijn van aangewezen bronnen, of als gegevens afkomstig zijn uit processen of systemen die een lagere actualiteit bieden doordat ze niet real-time werken. Door het bieden van datalineage ontstaat er meer inzicht en stijgt ook de kwaliteit van de gegevensverzameling als geheel. Het leidt tot meer traceerbaarheid, herleidbaarheid, reproduceerbaarheid en gebruiksinzicht, en dat zijn belangrijke aspecten van gegevenskwaliteit (NORA, 2021). Problemen met de kwaliteit van gegevens kunnen ook beter worden geanalyseerd met datalineage. Het inzicht dat datalineage verschaft, helpt ook bij het identificeren van kritieke gegevenselementen. Het laat zien welke gegevens veel worden gebruikt en waarop de focus kan worden gelegd bij kwaliteitsverbetering. Een betere kwaliteit van gegevens leidt uiteindelijk tot betere besluitvorming en meer efficiënte processen.

Kennis, overzicht, inzicht en sturing

Het vastleggen van datalineage is ook een vorm van documentatie van gegevens, processen, gegevensstromen en systemen. Het geeft inzicht in hoe gegevens stromen, zodat er ook actief op kan worden gestuurd. Dat kan gaan over mogelijke compliance issues, maar bijvoorbeeld ook over andere vormen van verbetering. Deze kennis is ook relevant bij het gebruik van gegevens, bijvoorbeeld ter ondersteuning van de analyse van gegevens. Datalineage zorgt ervoor dat kennis minder persoonsafhankelijk wordt en dat de continuïteit van informatie beter kan worden geborgd. Uiteindelijk leidt dat ook tot meer efficiëntie en lagere kosten.

2.4 Belanghebbenden

Er zijn allerlei doelgroepen die belang hebben bij de aanwezigheid van datalineage en er dus afnemer van zijn. Tabel 2 geeft een globale classificatie van deze doelgroepen, die te zijn onderscheiden vanuit twee dimensies:

  1. of ze verantwoordelijk zijn voor het maken van gegevens, gebruiken van gegevens of het controleren van gegevensverwerkingen;
  2. of ze voldoende hebben aan globale informatie of aan details.

MakenGebruikenControleren
Globaal
  • Datasteward
  • Data-eigenaar
  • Solution (data) architect
  • Eindgebruiker
  • Burger
  • Manager
  • Chief Data Officer
  • Enterprise (data) architect
Detail
  • Datacustodian
    (ook wel: technische datasteward)
  • Data-engineer
  • BI-specialist
  • IT-specialist
  • Belangenvereniging
  • Wetenschapper
  • Wetenschapsjournalist
  • Datascientist / analist
  • Security / privacy / compliance officer
  • Externe auditor

Tabel 2: Doelgroepen globaal geclassificeerd

Doelgroepen die behoefte hebben aan globale datalineage informatie, hebben in geval van fouten of problemen vaak wel behoefte aan meer gedetailleerde informatie. Zo zal een burger standaard niet zo snel gebruik maken van zijn recht op inzage, tenzij er hier een specifieke aanleiding voor is. Het kan ook zijn dat zij aan anderen (zoals een belangenvereniging) vragen om detailinformatie te beoordelen. Zo zal bijvoorbeeld een burger zelf niet goed in staat zijn om te bepalen hoe gegevens over geluidbelasting bij een luchthaven tot stand zijn gekomen en moeten worden geïnterpreteerd. Dit vraagt specialistische kennis, die een burger typisch niet heeft. Eindgebruikers of managers zullen ook de hulp van specialisten inschakelen op het moment dat zij willen weten hoe bepaalde getallen in rapportages precies zijn berekend.

Tabel 3 geeft een overzicht van een aantal belangrijke doelgroepen, gebaseerd op het Value Proposition Canvas (Osterwalder et al., 2014). Het beschrijft hun taken en behoeften (customer jobs), winstpunten (gains) en pijnpunten (pains), en de wijze waarop datalineage als waardepropositie aan deze punten bijdraagt. Winstpunten maken gebruikers blij en pijnpunten maken ze treurig. De waardepropositie is dat wat er wordt aangeboden aan producten en diensten. De tabel geeft niet een volledig beeld van alle doelgroepen, maar geeft vooral een algemeen beeld. Dat wat geldt voor eindgebruikers is grotendeels ook van toepassing op andere doelgroepen, maar is bewust niet herhaald.

DoelgroepBehoeften en takenWinstpunten (+) en pijnpunten (-)Bijdrage van datalineage
Eindgebruikers
  • Begrijpen van de betekenis van gegevens
  • Raadplegen van informatieproducten zoals rapportages en dashboards
  • Nemen van besluiten

+ Vertrouwen krijgen in de betrouwbaarheid van gegevens
+ Gegevens kunnen begrijpen
+ Efficiënter kunnen werken
+ Rapportages en besluiten kunnen vertrouwen
- Onduidelijkheid over waar gegevens vandaan komen
- Ontbreken van uitleg bij informatieproducten

  • Inzicht in gebruikerstaal in definities van gegevens, gebruikte bronnen en bewerkingen
Burgers
  • Vertrouwen krijgen dat de overheid eerlijk en transparant werkt
  • Begrijpen waarop besluiten zijn gebaseerd
  • Regie houden op eigen gegevens
  • Aantonen fouten van de overheid

+ Fouten ontdekken in de gegevens die de overheid gebruikt
- Onduidelijkheid met wie persoonsgegevens zijn gedeeld
- Gevoel dat privacy niet gewaarborgd is
- Moeizaam toegang tot overheidsinformatie
- Angst voor fouten in gegevens die de overheid gebruikt en nadelige gevolgen ervan

  • Inzicht in eenvoudige taal
  • Inzicht in alle informatie die nodig is voor recht op inzage, correctie en verwijdering
Datastewards
  • Inzicht in huidige gegevenskwaliteit
  • Inzicht in oorzaken van problemen in gegevenskwaliteit en deze oplossen
  • Bepalen kritieke gegevenselementen

+ Problemen in gegevenskwaliteit snel signaleren en oplossen
+ Minder afhankelijk zijn van ongedocumenteerde kennis
- Datalineage metagegevens zijn versnipperd of niet aanwezig

  • Inzicht in domeintaal, op functioneel niveau
  • Integraal inzicht over systemen heen
Data-engineers
  • Ontwikkelen en wijzigen van (geautomatiseerde) datapipelines
  • Inzicht in oorzaken van problemen in datapipelines en deze oplossen
  • Borgen van de continuïteit van processen en systemen

+ Problemen in datapipelines snel signaleren en oplossen
+ De impact van wijzigingen in specifieke soorten gegevens snel kunnen bepalen
+ Minder afhankelijk zijn van ongedocumenteerde kennis
- Datalineage metagegevens zijn versnipperd of niet aanwezig

  • Gedetailleerd inzicht op technisch niveau
  • Automatische generatie van datalineage
  • Integraal inzicht over systemen heen
Security / privacy / compliance officers
  • Borgen compliance van processen en systemen aan wet- en regelgeving

+ Identificeren van gegevens die niet conform wet- en regelgeving worden verwerkt
+ Audit- en compliancevragen snel kunnen beantwoorden
- Geen zicht op waar gevoelige gegevens precies worden bewerkt en gebruikt

  • Gedetailleerd inzicht in gevoelige gegevens en waar ze worden bewerkt en gebruikt

Tabel 3: Indicatie van de waardepropositie van datalineage voor een aantal doelgroepen

2.5 Implementeren van datalineage

Het implementeren van datalineage is meestal complex. In een aantal tools en applicaties zijn al standaard voorzieningen aanwezig voor datalineage en kan het zo eenvoudig zijn als het aanzetten van de functie. De complexiteit ontstaat daar waar meer tools, applicaties, omgevingen, organisaties of organisatie-eenheden betrokken zijn. Er zijn nog weinig best-practices voor het uitwisselen van datalineage tussen organisaties. Dit is de context waarin de overheid opereert. Er spelen daarbij andere afwegingen dan binnen een specifieke organisatie. Als individuele organisatie is het eenvoudiger om één leverancier of technologie te kiezen en gebruik te maken van dat wat standaard tools leveren (Balm & Bakker, 2024). Als overheid is het vooral belangrijk om aan te sluiten bij open standaarden en leveranciersafhankelijkheden te voorkomen.

Voor het implementeren van datalineage zijn er allerlei keuzes te maken, zoals:

  • Open standaarden of standaard oplossingen: zie voorgaande tekst over het verschil tussen datalineage binnen een organisatie of over organisatiegrenzen heen. Ook binnen een individuele organisatie kan het waardevol zijn om voor open standaarden te kiezen. Veel organisaties zijn nu eenmaal best complex en bestaan uit autonome organisatie-eenheden. Aan de andere kant bieden standaard tools vaak ook een grote diversiteit aan integratiemogelijkheden.
  • Te gebruiken standaarden: als gekozen wordt voor open standaarden dan moet ook gekozen worden voor een specifieke standaard of set aan standaarden. Voor uitwisseling van datalineage tussen overheidsorganisaties is een combinatie van de standaarden PROV en Dublin Core een goede basis. Zie hoofdstuk 3 voor een uitgebreide beschrijving van relevante standaarden.
  • Detailniveau: het kan voldoende zijn om datalineage relatief globaal vast te leggen, bijvoorbeeld op het niveau van datasets. Diepgaande analyses en inzichten zijn echter alleen mogelijk als meer gedetailleerde informatie wordt vastgelegd, op het niveau van individuele gegevenselementen. Het doel van datalineage moet daarom van tevoren heel duidelijk zijn.
  • Metagegevens: nadat een detailniveau is gekozen moet bepaald worden welke metagegevens precies worden vastgelegd. Is het bijvoorbeeld voldoende om te weten welke brongegevens zijn gebruikt of is het ook nodig om vast te leggen welke actoren, activiteiten, transformaties en IT-systemen betrokken waren? Hiervoor is een inventarisatie van eisen en wensen noodzakelijk.
  • Meesturen of vastleggen: het is mogelijk om datalineage metagegevens mee te sturen met de gegevens, zodat ze er onlosmakelijk aan zijn verbonden. Dat past minder goed als er veel gedetailleerde datalineage is en/of als er behoefte is aan meer centraal inzicht. In dergelijke gevallen is het logischer om de metagegevens centraal vast te leggen in een repository.
  • Centraal of federatief: als ervoor wordt gekozen om datalineage metagegevens vast te leggen dan kan hiervoor een centrale registratie worden ingericht, of kan een meer federatief model met decentrale registraties worden gekozen. Een federatief model leent zich beter voor datalineage die organisatiegrenzen overschrijdt. Mogelijk is wel centraal inzicht gewenst.
  • Ontsluiting voor specifieke doelgroepen: specifieke doelgroepen hebben specifieke behoeften. Dit vraagt al snel dat het inzichtelijk maken van de datalineage op maat zal moeten worden gemaakt voor specifieke doelgroepen. Visualisaties kunnen daar erg bij helpen.

Dit soort keuzes worden liefst gestuurd vanuit een overkoepelende datastrategie en -architectuur. Datalineage wordt bij voorkeur geautomatiseerd gegenereerd in de omgevingen waar gegevens worden gedefinieerd en verwerkt. Er bestaan ook tools die in staat zijn om programmacode of SQL in te lezen en te interpreteren (parsen) en op basis daarvan datalineage te genereren. Er is al snel een metagegevensrepository gewenst om de resulterende metagegevens in op te slaan en beschikbaar te stellen voor zoekvragen. Hiervoor kunnen allerlei vormen van databases worden gebruikt zoals relationele databases of graafdatabases (zoals triplestores). Er zijn allerlei vormen van integratie nodig om ervoor te zorgen dat deze datalineage metagegevens uit alle relevante platformen, applicaties en tools in deze metagegevensrepository beschikbaar komen. Daarnaast is er functionaliteit nodig die de datalineage metagegevens op een gebruikersvriendelijke wijze ontsluit. Er zijn standaard datalineage tools beschikbaar dit al dit soort functionaliteiten bieden.

Volgende hoofdstuk: Hoofdstuk 3 - Standaarden