Wednesday 11 February 2015

De data-kern van GBIF: het DarwinCore-Archive

GBIF heeft het DarwinCore Archive (DwC-A) formaat ontwikkeld voor het optimaal uitwisselen van data, zie hier en hier voor meer details. Het DwC-A is een gecomprimeerd archief (.zip bestand) van bestanden met primaire en meta-data. De onderstaande figuur (Figuur 1) geeft de inhoud van het DwC-A weer. 

De oranje iconen zijn de standaardbestanden: (1) de primaire occurrence or taxonomic "core" data, opgeslagen conform de DarwinCore datastandaard en in een csv bestand vastgelegd, dit zijn dus uw observatie, collectie of checklist data, (2) het metadata bestand, dit is een omschrijving van de primaire data volgens het GBIF metadata profile formaat, (3) de descriptor file, dit is een xml bestand met de (computer)technische beschrijving van het primaire databestand.
  
De groene iconen verbeelden DarwinCore Extensions. De DarwinCore standaard die voor de primaire "core" data wordt gebruikt omvat circa 200 termen, dat is soms niet genoeg om alle specifieke informatie over een observatie of collectiespecimen in op te slaan. In de DarwinCore Extensions kan dan extra informatie worden vastgelegd die buiten de DarwinCore datastandaard valt. De internationale gemeenschap van zaadbanken heeft bijvoorbeeld de DarwinCore germplasm extension ontwikkeld om specifieke (fysiologische) zaadkenmerken vast te leggen en te kunnen delen binnen de gemeenschap. Een ander voorbeeld van een DarwinCore extension is bijvoorbeeld de Species Distribution extension, waarmee je voor de soorten in je bestand zeer uitgebreid de verspreiding kan vastleggen. De data in de extensions worden middels ID's gekoppeld aan de primaire "core" data.

Al deze informatie samen, je primaire DarwinCore gestandaardiseerde data, met eventuele extra informatie (extensions), metadata, en descriptor file worden gecomprimeerd tot een DarwinCore-Archive.



Figuur 1: De componenten van een DarwinCore-Archive.

DarwinCore Archives vormen de kern van de GBIF infrastructuur en zijn onlosmakelijk verbonden met de GBIF Integratede Publishing Toolkit (IPT) en het GBIF dataportaal. GBIF heeft de volgende toepassingen voor het DwC-A formaat:
  • Publicatie van data vanuit de IPT: op basis van ingevoerde of ingelezen data genereert de IPT DarwinCore Archives en via de IPT zijn deze Archives voor iedereen toegankelijk.
  • Uploaden van data in de IPT: de IPT kan DarwinCore Archives "inlezen", zo kan er bijvoorbeeld via een DwC-A export in een externe databron data eenvoudig in de IPT worden geïmporteerd.
  • Harvesten: via de IPT kunnen DarwinCore Archives bij GBIF worden geregistreerd en vervolgens door GBIF worden opgehaald, uitgepakt en in de GBIF index-database gezet waarop het GBIF data portal draait.
  • Downloaden van geselecteerde data uit het GBIF data portal.

DarwinCore Archive Validation Tool

Voor het goed functioneren van de data-uitwisseling in het DarwinCore-Archive formaat, is het belangrijk dat de standaard juist gevolgd wordt. GBIF heeft een online tool beschikbaar voor de validatie van een DwC-A bestand. Deze tool is erg handig voor het traceren van problemen met een dataset, zoals het gebruik van illegal characters of onjuist gebruik van de DarwinCore standaard of de DwC-A elementen.

De DarwinCore Archive Validation Tool voert de volgende diagnostische taken uit:
  • Controleert of de beschrijvende bestanden (meta.xml & eml.xml) in de DarwinCore-Archives aan de standaarden voldoen.
  • Geeft een overzicht van de geselecteerde kolommen.
  • Leest primaire bestanden in en presenteert beschrijvende statistiek, zoals kolomnamen, aantal records en aantal kolommen.
  • Bij extensions: controleert of de gebruikte ID’s ook in de core file voorkomen
  • Scant voor database NULL-waarde en toont deze wanneer gevonden.
  • Toont de eerste 100 records van de dataset, voor eventuele visuele controle.

No comments:

Post a Comment