6 Profiel voor datalineage
Dit hoofdstuk beschrijft een standaard profiel voor datalineage, waarbij vooral wordt uitgegaan van de PROV standaard. Het beschrijft een verzameling afspraken over hoe deze standaard op een meer uniforme manier gebruikt kan worden.
6.1 Inleiding
In de uitwerking van het voorbeeld zoals beschreven in het vorige hoofdstuk zijn een aantal inrichtingskeuzes gemaakt. Deze keuzes worden liefst op andere plaatsen ook zo gemaakt, zodat datalineage op een generieke manier kan worden behandeld. Er kan dan ook generieke software worden ontwikkeld. In dit hoofdstuk worden de inrichtingskeuzes daarom vertaald naar richtlijnen. Bij elkaar vormen ze een standaard profiel. Daarbij staat de PROV standaard centraal, maar wordt ook gebruik gemaakt van een aantal andere vocabulaires zoals Dublin Core en DCAT. Het richt zich op het vastleggen van datalineage van gestructureerde gegevens op het niveau van tabellen of gegevenselementen en ondersteunt datalineage op typeniveau en instantieniveau. Het dekt de patronen 4, 6, 7 en 8 in hoofdstuk 4. Merk op dat er op dit moment gewerkt wordt aan een nieuwe versie van de MIM standaard (versie 2.0) die ook impact kan hebben op het hier voorgestelde profiel. Los daarvan is toetsing van het profiel in de praktijk gewenst.
6.2 Richtlijnen
- Een brondataset en daarvan afgeleide datasets worden gemodelleerd conform de DCAT standaard.
- Een brondataset voor een afgeleide dataset wordt beschreven middels
dcterms:sourceconform de DCAT standaard. - De datalineage metagegevens van de afgeleide dataset zijn beschikbaar via een SPARQL endpoint dat conform de DCAT standaard is gedefinieerd als
dcat:DataServiceen alsprov:Bundleen verwijst naar de SPARQL en PROV-O standaarden middelsdcterms:conformsTo <http://www.w3.org/TR/sparql11-protocol/>endcterms:conformsTo <http://www.w3.org/TR/prov-o/>. - De modellering van conceptuele informatiemodellen en logische gegevensmodellen en de vertaling ervan naar linkeddata is conform de MIM standaard.
- Elementen in een gegevensmodel verwijzen naar hun bijbehorende begrip middels
dcterms:subjectconform de MIM standaard. - Objecttypes op conceptueel niveau worden beschreven middels
owl:Classconform de MIM standaard. - Attribuutsoorten op conceptueel niveau worden beschreven middels
owl:DatatypePropertyconform de MIM standaard. - Objecttypes op conceptueel niveau, worden op logisch niveau vertaald naar een representatie in gegevens en vervolgens beschreven middels
sh:NodeShapeconform de MIM standaard. - Attribuutsoorten op conceptueel niveau, worden op logisch niveau vertaald naar een representatie in gegevens en vervolgens beschreven middels
sh:PropertyShapeconform de MIM standaard.
- Elementen in een gegevensmodel verwijzen naar hun bijbehorende begrip middels
- Een afgeleide dataset wordt gemarkeerd als een entiteit door deze te beschrijven als een
prov:Entityconform de PROV standaard. - De activiteit voor het genereren van een afgeleide dataset wordt beschreven middels
prov:wasGeneratedByconform de PROV standaard. - Er kan vanuit een afgeleide dataset worden verwezen naar een activiteit op typeniveau of naar een activiteit op instantieniveau.
- Activiteiten op typeniveau:
- Verwijzen naar de transformatie die wordt uitgevoerd in de activiteit middels
prov:hadPlanconform de PROV standaard. - Verwijzen naar de clusters van invoergegevens middels
prov:usedconform de PROV standaard. - Verwijzen naar de clusters van uitvoergegevens middels
prov:generatedconform de PROV standaard.
- Verwijzen naar de transformatie die wordt uitgevoerd in de activiteit middels
- Activiteiten op instantieniveau:
- Verwijzen naar de activiteit op typeniveau die ze instantiëren middels
dcterms:typeconform de Dublin Core standaard. - Beschrijven de start- en/of eindmomenten middels
prov:startedAtTimeenprov:endedAtTimeconform de PROV standaard.
- Verwijzen naar de activiteit op typeniveau die ze instantiëren middels
- Transformaties:
- Worden beschreven middels
prov:Planconform de PROV standaard. - Beschrijven de afleidingsregels voor het creëren van uitvoergegevens in natuurlijke taal middels
rdfs:commentconform de RDFS standaard. - Beschrijven de programmacode voor het creëren van de uitvoergegevens middels
dcterms:descriptionof verwijzen naar de programmacode locatie middelsdcterms:relationconform de Dublin Core standaard.
- Worden beschreven middels
- Als er meerdere activiteiten en/of clusters van afleidingsregels worden gebruikt voor het genereren van uitvoergegevens dan worden deze middels
prov:wasInformedByin een keten aan elkaar gerelateerd conform de PROV standaard. - Een cluster van invoer- of uitvoergegevens wordt beschreven als een
prov:Collectionconform de PROV standaard. - De technische naam (identifier) van gegevensclusters wordt beschreven middels
rdfs:labelconform de RDFS standaard. - De dataset waar een gegevenscluster toe behoort wordt beschreven middels
dcterms:isPartOfconform de Dublin Core standaard.
Als datalineage wordt vastgelegd op het niveau van gegevenselementen dan gelden de volgende richtlijnen:
- De gegevenselementen die onderdeel zijn van een gegevenscluster worden beschreven middels
prov:hadMemberconform de PROV standaard. - Een gegevenselement wordt beschreven middels
prov:Entityconform de PROV standaard. - De technische naam (identifier) van een gegevenselement wordt beschreven middels
rdfs:labelconform de RDFS standaard. - Als datalineage op instantieniveau wordt vastgelegd dan wordt de waarde van een gegevenselement beschreven middels
prov:valueconform de PROV standaard. - De property shape die behoort bij een gegevenselement wordt beschreven middels
dcterms:typeconform de Dublin Core standaard. - De invoergegevenselementen die worden gebruikt voor de totstandkoming van een uitvoergegevenselement worden beschreven middels
prov:wasDerivedFromconform de PROV standaard.
Volgende hoofdstuk: Hoofdstuk 7 - Adviezen
13 november 2025 12:06:10
13 november 2025 11:58:32
13 november 2025 12:06:10
3
Informatief