7 Adviezen
Dit hoofdstuk beschrijft een aantal praktische adviezen voor het aan de slag gaan met datalineage.
7.1 Borg datalineage strategisch en organisatorisch
Datalineage is een categorie van maatregelen om doelstellingen te ondersteunen en vraagt investeringen. Het is dan ook belangrijk om deze doelstellingen en wat daarvoor nodig is expliciet te maken. Het maakt duidelijk waar datalineage waarde creëert en waar de focus op kan worden gelegd. Tegelijkertijd is datalineage steeds minder een vrijblijvendheid, gegeven de toenemende wet- en regelgeving waarmee overheden worden geconfronteerd. Datalineage is verder niet primair een technische uitdaging, maar een organisatorische. Er zullen allerlei afspraken moeten worden gemaakt, bijvoorbeeld over rollen, taken, verantwoordelijkheden en financiering. Datalineage in een organisatie-overstijgende keten vraagt ook nadrukkelijk om expliciete afspraken om verschillen in culturen en belangen te overbruggen.
De basis voor datamanagement in het algemeen en zeker ook voor datalineage is een datastrategie. Een datastrategie vertaalt de algemene doelstellingen van de organisatie naar data-gerelateerde veranderingen op het gebied van onder meer datagovernance, gegevenskwaliteit, metagegevensbeheer en datalineage. Het houdt expliciet rekening met de volwassenheid van de organisatie op het gebied van datamanagement en datalineage. De datastrategie zou breed moeten worden gedragen in de organisatie; het is niet iets van de IT-afdeling. Het is niet mogelijk en wenselijk om datalineage overal en op alle detailniveaus te implementeren. Dat zou een onevenredig grote inspanning vragen. Het is vooral belangrijk om bewuste keuzes te maken en de risico’s te accepteren van de datalineage die niet gecreëerd wordt.
7.2 Focus op kritieke gegevens en gebruikersbehoeften
Het is duidelijk dat het implementeren van datalineage nieuw is voor veel organisaties en dat hieraan een leercurve vast zit. Er kan veel tijd gaan zitten in het implementeren van datalineage. Het vastleggen van gedetailleerde datalineage is complexer en kost meer tijd en geld. De kunst is om het vooral te richten op de gegevens die echt belangrijk zijn voor de organisatie en op de behoeften die gebruikers hebben aan inzicht in datalineage. Er kan ook op een later moment nog meer detail worden toegevoegd aan de datalineage.
Bepaal welke datasets en gegevenselementen kritiek zijn en start met het vastleggen van de datalineage van die gegevens. Voer uitgebreide gesprekken met de gebruikersorganisatie en andere afnemers om goed te begrijpen waar hun behoeften liggen en bouw draagvlak voor het inrichten van de daarvoor noodzakelijke datalineage, ook op managementniveau. Kijk vooral naar wat nu nodig is in de specifieke schakel in de keten. Start met eenvoudige vormen van datalineage en/of vormen van datalineage die standaard in applicaties of producten aanwezig is. Verbeter incrementeel op basis van nieuwe ontwikkelingen, inzichten en behoeften.
7.3 Bouw op vertrouwde schakels in de keten
Gegevens ontstaan op allerlei plaatsen. Idealiter wordt er op alle plaatsen, vanaf de inwinning, al datalineage vastgelegd en is deze centraal beschikbaar. Dat vraagt echter een immense verandering en investering die praktisch niet haalbaar is.
Om complexiteit te beheersen kan het helpen om datalineage niet direct in de gehele keten aan te brengen, maar in eerste instantie te bouwen op vertrouwde schakels in de keten. Dat zijn vaak verzamelpunten waarvandaan gegevens worden verspreid naar andere afnemers. Denk bijvoorbeeld aan een datawarehouse. Het voordeel van het gebruik van een datawarehouse als verzamelpunt is tevens dat hierin belangrijke complexe transformaties zitten. Door de datalineage binnen het datawarehouse en verder voorwaarts in de keten aan te brengen is al veel gewonnen in het creëren van vertrouwen.
Binnen de overheid kunnen individuele organisaties als ankerpunt van vertrouwen worden gebruikt. Zo is bijvoorbeeld een bronhouder van een basisregistratie de meest logische bron voor de betreffende basisgegevens. Het is dan niet per definitie nodig om te weten hoe de keten er binnen deze organisatie uitziet. Op deze manier bouw je een federatieve vorm van datalineage, waarbij de datalineage van gegevensverwerkingen binnen organisaties niet beschikbaar is voor andere organisaties.
7.4 Standaardiseer vooral de uitwisseling van datalineage
Datalineage ontstaat in een grote diversiteit van systemen, die vaak ook standaardoplossingen zijn die niet aangepast kunnen worden. Het is daarom niet reëel om te denken dat alle systemen datalineage in een standaardformaat kunnen vastleggen of automatisch gescand kunnen worden door datalineage tools. Dat is ook niet nodig om een meer integraal inzicht te krijgen. Als alle relevante informatie wordt vastgelegd dan is niet het moeilijk om deze te vertalen naar een standaardformaat.
Bedenk in welke mate integraal inzicht in datalineage nodig is en welke organisatiebrede afspraken nodig zijn over welke gegevens daarin zouden moeten worden vastgelegd. Kies standaarden en/of een gegevensmodel waarmee organisatiebreed datalineage beschikbaar zou moeten zijn. Het Logboek Dataverwerkingen is logisch voor verantwoording van verwerkingen van overheden. Verder zijn voor overheden de PROV standaard, aangevuld met de Dublin Core standaard een goede basis. Het voordeel van het gebruik van dit soort linkeddata gebaseerde standaarden is ook dat ze heel eenvoudig zijn op te slaan in een database. linkeddata bestaat namelijk altijd uit triples (drie standaard onderdelen), die heel eenvoudig in een triplestore (database voor linkeddata) zijn op te slaan. Er zijn ook standaard tools waarmee bijvoorbeeld visualisaties van PROV-gebaseerde datalineage metagegevens kan worden gegenereerd. Definieer duidelijke richtlijnen en instructies voor het aanleveren van datalineage. Binnen individuele organisaties is het belangrijk om ook tools en bijbehorende instructies beschikbaar te stellen.
7.5 Automatiseer waar mogelijk
Organisaties hebben vaak een grote hoeveelheid gegevens en gegevensstromen. Het is dan ook niet reëel en wenselijk om de bijbehorende datalineage volledig handmatig te definiëren. Tools kunnen hierin gelukkig voor een belangrijk deel in ontzorgen. Zij kunnen datalineage metagegevens automatisch importeren in een metagegevensrepository en er ook voor zorgen dat bij wijzigingen in gegevens en gegevensstromen deze repository ook wordt bijgewerkt. Tegelijkertijd hebben datalineage tools ook beperkingen en ondersteunen zij maar een beperkt aantal bronsoorten en metagegevens. In de praktijk blijft handmatig aanvullen daarom nodig.
Beperk handmatige datalineage tot dat wat tools niet kunnen automatiseren. Zo blijft verticale datalineage voor een belangrijk deel handwerk. Neem bij het selecteren van tools dus ook nadrukkelijk het automatisch genereren en importeren van datalineage mee. Er zijn bijvoorbeeld allerlei tools die in staat zijn om programmacode (typisch SQL) te parsen en om te zetten in metagegevens. Kijk in eerste instantie ook vooral wat je geautomatiseerd aan datalineage kunt verzamelen.
7.6 Borg datalineage in het ontwerp (by design)
Datalineage achteraf inbouwen in een informatiesysteem vraagt in veel gevallen een grote inspanning. Het is daarom verstandig om er bij het ontwerpen van het informatiesysteem al rekening mee te houden.
Het meenemen van datalineage in het ontwerp vraagt dat een informatiesysteem automatisch bij gegevensverwerkingen de juiste metagegevens vastlegt. Daarmee wordt datalineage een kernonderdeel van de logging. Een specifiek ontwerppatroon dat (horizontale) datalineage borgt in het ontwerp van informatiesystemen is “event sourcing”. Bij dit patroon worden de opgetreden gebeurtenissen en hun context als primaire vorm van opslag gebruikt. De administratie van het informatiesysteem is dan dus primair een administratie van gebeurtenissen. Hier kan de datalineage met een beperkte inspanning uit afgeleid worden. Dat geldt ook voor een genormaliseerde representatie van de gegevens die op een bepaald moment actueel zijn in het informatiesysteem. Anders gezegd: dat wat gebruikelijk is om vast te leggen in een informatiesysteem, is dan iets dat je kunt afleiden uit de administratie van gebeurtenissen.
7.7 Zorg voor traceerbaarheid naar bewijs
Datalineage is een manier om vertrouwen de krijgen in de betrouwbaarheid van gegevens. Een kernonderdeel hiervan is bewijs dat de gebruikte brongegevens authentiek zijn en daarmee meer betrouwbaar. In administraties ontbreekt vaak dergelijk bewijs. Er is alleen een administratieve werkelijkheid en het is veelal niet duidelijk hoe deze tot stand is gekomen.
De basis voor het creëren van vertrouwen in gegevens is borgen bij de inwinning dat gegevens correct zijn. Liefst wordt daarbij vertrouwd op formele stukken, zoals bijvoorbeeld een identiteitsbewijs, eigendomsverklaring, diploma of wetenschappelijke publicatie. Vanuit daar moet vertrouwen doorwerken in de keten. Dat vraagt meer dan het simpelweg doorgeven van gegevens. Door in datalineage metagegevens expliciet te maken dat gegevens van een bepaalde partij zijn ontvangen (zoals de inwinner van de gegevens) ontstaat al meer vertrouwen bij ketenpartijen. Als aanvullende maatregel zou het gegeven ook als een verifieerbare verklaring kunnen worden doorgegeven, vergelijkbaar met hoe dat in de toekomst ook is voorzien met de nieuwe Europese Identiteits Wallet in het kader van de nieuwe eIDAS verordening. Dat betekent dat het gegeven vergezeld gaat van een digitale handtekening, die de ontvanger kan valideren en verifiëren. Dit is sowieso een meer moderne manier van het uitwisselen van gegevens, die ook aansluit bij de nieuwe eIDAS verordening. Het is duidelijk dat dit een gewenste oplossingsrichting is, maar de precieze inrichtingskeuzes worden op dit moment nog ontwikkeld.
Volgende hoofdstuk: Bijlage A - Bronnen
13 november 2025 13:53:25
13 november 2025 12:12:10
13 november 2025 13:53:25
3
Informatief