Showing posts with label DwC. Show all posts
Showing posts with label DwC. Show all posts

Wednesday, 11 February 2015

De data-kern van GBIF: het DarwinCore-Archive

GBIF heeft het DarwinCore Archive (DwC-A) formaat ontwikkeld voor het optimaal uitwisselen van data, zie hier en hier voor meer details. Het DwC-A is een gecomprimeerd archief (.zip bestand) van bestanden met primaire en meta-data. De onderstaande figuur (Figuur 1) geeft de inhoud van het DwC-A weer. 

De oranje iconen zijn de standaardbestanden: (1) de primaire occurrence or taxonomic "core" data, opgeslagen conform de DarwinCore datastandaard en in een csv bestand vastgelegd, dit zijn dus uw observatie, collectie of checklist data, (2) het metadata bestand, dit is een omschrijving van de primaire data volgens het GBIF metadata profile formaat, (3) de descriptor file, dit is een xml bestand met de (computer)technische beschrijving van het primaire databestand.
  
De groene iconen verbeelden DarwinCore Extensions. De DarwinCore standaard die voor de primaire "core" data wordt gebruikt omvat circa 200 termen, dat is soms niet genoeg om alle specifieke informatie over een observatie of collectiespecimen in op te slaan. In de DarwinCore Extensions kan dan extra informatie worden vastgelegd die buiten de DarwinCore datastandaard valt. De internationale gemeenschap van zaadbanken heeft bijvoorbeeld de DarwinCore germplasm extension ontwikkeld om specifieke (fysiologische) zaadkenmerken vast te leggen en te kunnen delen binnen de gemeenschap. Een ander voorbeeld van een DarwinCore extension is bijvoorbeeld de Species Distribution extension, waarmee je voor de soorten in je bestand zeer uitgebreid de verspreiding kan vastleggen. De data in de extensions worden middels ID's gekoppeld aan de primaire "core" data.

Al deze informatie samen, je primaire DarwinCore gestandaardiseerde data, met eventuele extra informatie (extensions), metadata, en descriptor file worden gecomprimeerd tot een DarwinCore-Archive.



Figuur 1: De componenten van een DarwinCore-Archive.

DarwinCore Archives vormen de kern van de GBIF infrastructuur en zijn onlosmakelijk verbonden met de GBIF Integratede Publishing Toolkit (IPT) en het GBIF dataportaal. GBIF heeft de volgende toepassingen voor het DwC-A formaat:
  • Publicatie van data vanuit de IPT: op basis van ingevoerde of ingelezen data genereert de IPT DarwinCore Archives en via de IPT zijn deze Archives voor iedereen toegankelijk.
  • Uploaden van data in de IPT: de IPT kan DarwinCore Archives "inlezen", zo kan er bijvoorbeeld via een DwC-A export in een externe databron data eenvoudig in de IPT worden geïmporteerd.
  • Harvesten: via de IPT kunnen DarwinCore Archives bij GBIF worden geregistreerd en vervolgens door GBIF worden opgehaald, uitgepakt en in de GBIF index-database gezet waarop het GBIF data portal draait.
  • Downloaden van geselecteerde data uit het GBIF data portal.

DarwinCore Archive Validation Tool

Voor het goed functioneren van de data-uitwisseling in het DarwinCore-Archive formaat, is het belangrijk dat de standaard juist gevolgd wordt. GBIF heeft een online tool beschikbaar voor de validatie van een DwC-A bestand. Deze tool is erg handig voor het traceren van problemen met een dataset, zoals het gebruik van illegal characters of onjuist gebruik van de DarwinCore standaard of de DwC-A elementen.

De DarwinCore Archive Validation Tool voert de volgende diagnostische taken uit:
  • Controleert of de beschrijvende bestanden (meta.xml & eml.xml) in de DarwinCore-Archives aan de standaarden voldoen.
  • Geeft een overzicht van de geselecteerde kolommen.
  • Leest primaire bestanden in en presenteert beschrijvende statistiek, zoals kolomnamen, aantal records en aantal kolommen.
  • Bij extensions: controleert of de gebruikte ID’s ook in de core file voorkomen
  • Scant voor database NULL-waarde en toont deze wanneer gevonden.
  • Toont de eerste 100 records van de dataset, voor eventuele visuele controle.

Thursday, 9 October 2014

Collectie en observatiedata in GBIF; het gebruik van DarwinCore

Dit artikel geeft een korte beschrijving van de beste praktische invulling van de DarwinCore datastandaard voor GBIF. Voor detailinformatie over de verschillende termen kun je de hyperlinks naar de DarwinCore reference guide gebruiken.

DarwinCore (DwC) is op dit moment de belangrijkste internationale datastandaard voor biodiversiteitdata. DarwinCore is gebaseerd op de zeer algemeen gebruikte DublinCore (DC) datastandaard en specifiek ontwikkeld voor biodiversiteitinformatie. DarwinCore maakt voor meer algemene informatie, bijvoorbeeld tijd- en plaatsaanduidingen, weer gebruik van bestaande standaarden als ISO. De infrastructuur van GBIF, en vele andere internationale biologische data-initiatieven, is toegesneden op de DwC standaard.
In de DwC standaard is voor een biodiversiteitsdataset vastgelegd welke informatie in welke vorm in welke velden moet worden opgeslagen. Er zijn voor-gedefinieerde veldnamen (terms genoemd) en geadviseerde opslagformaten. Zo wordt een datum van een waarneming opgeslagen in het veld eventDate in het formaat 1980-06-17 (jjjj-mm-dd). De meest recente publicatie tool van GBIF, de Integrated Publishing Toolkit (IPT), is volledig om de DwC standaard heen gebouwd en praktisch alle Nederlandse GBIF dataleveranciers gebruiken momenteel de IPT en de DwC standaard. Dit artikel beschrijft hoe en welke velden van de (120) DwC termen het beste gebruikt kunnen worden als u (uw eerste) data gaat leveren aan GBIF.


Verplichte velden

In GBIF zijn vijf velden verplicht. Voor de identificatie van een record in de dataset wordt er een institutionCode, collectionCode en catalogNumber meegegeven. Deze velden bevatten respectievelijk een code van de dataleverende organisatie die wereldwijd uniek is, een code voor de dataset die binnen de dataleverende organisatie unieke is en een code voor de record die binnen de dataset uniek is. Deze drie codes samen maken een unieke code, die elke record binnen de GBIF dataportal uniek maakt en individueel opvraagbaar. 

De basisOfRecord en scientificName zijn verder verplicht en bevatten informatie over de soort data, bijvoorbeeld een museumcollectie (specimen) of een veldobservatie (human observation), en de wetenschappelijke soortnaam. De scientificName bij voorkeur zo volledig mogelijk, dus genusnaam, soortnaam, auteur en jaar van eerste beschrijving. Het is ook mogelijk om hogere taxa in het scientificName veld op te slaan, bijvoorbeeld alleen de genus naam. Het wordt aanbevolen om dan ook het veld taxonRank te gebruiken om aan te geven welk niveau is ingevoerd, zie hieronder.


Geadviseerde velden

NLBIF adviseert naast de verplichte velden om ook informatie over het moment en de locatie van de waarneming vast te leggen in de GBIF data portal. Een waarneming zonder deze informatie is voor de meest biodiversiteitonderzoeken niet bruikbaar. De datum wordt opgeslagen in de eventDate in een tekstueel format YYYY-MM-DD.


locatie
Binnen GBIF worden alle waarnemingen in decimale graden opgeslagen en alle lokale formaten van datasets, zoals rijksdriehoek, moeten dus door de dataleverancier omgezet worden naar dit formaat (DwC: decimalLatitude, decimalLongitude). Er zit altijd een bepaalde onnauwkeurigheid in de locatiemeting. Een kilometerhok is immers grover dan een GPS puntmeting. De nauwkeurigheid wordt in meters vastgelegd in het coordinateUncertaintyInMeters veld. In het veld geodeticDatum wordt de datum opgeslagen, WGS84 is hier de wereldwijde standaard. Wanneer er voor GBIF een lokaal geografisch formaat is geconverteerd naar decimale graden adviseert NLBIF om de orginele waarden ook op te slaan in de verbatim locatievelden: verbatimLatitude, verbatimLongitude en verbatimCoordinateSystem.

De hoogte (of diepte) wordt in DwC als een minimum-maximum bereik opgeslagen. Voor een hoogte boven zeeniveau gebruik je minimumElevationinMeters en maximumElevationInMeters en bij een vaste hoogte voer je dezelfde hoogte-waarde in beide velden in. Voor een diepte beneden zeeniveau gebruik je de volgende velden op een gelijke wijze: minimumDepthInMeters en maximumDepthInMeters. Vul als waarde altijd een positieve getal in meters vanaf zeeniveau in.

GBIF voert intern allerlei controles uit om de data kwaliteit te optimaliseren. Zo controleert GBIF bijvoorbeeld ook of een opgegeven coördinaat in het land ligt dat is meegegeven. NLBIF adviseert om het veld country mee te geven zodat GBIF in staat is om een grove check op de coördinaten uit te voeren.


taxonomie
In het veld scientificName kunnen verschillende taxonniveaus aangegeven worden. Het is daarom aan te raden het gebruikte niveau aan te geven in het veld taxonRank (voorbeelden waarden: “species” of “genus”).
Als een dataset in GBIF wordt ingeladen wordt de alle velden ingelezen en geïnterpreteerd, zodat verschillende schrijfwijzen van een zelfde soort bijvoorbeeld niet tot andere soorten leidt in de GBIF dataportal. Juist omdat de taxonomieën van de verschillende rijken een eigen indeling en regels hebben, kan het voorkomen dat er plantennaam ook in het dierenrijk voorkomt en andersom. Om te voorkomen dat GBIF deze soorten met een zelfde naam door elkaar haalt is het goed om het veld kingdom en eventueel lagere groepen mee te geven. Lagere taxonomische groepen kunnen ook helpen als een opgegeven soortnaam niet herkend wordt.


waarnemer
Om de kwaliteit van de data op waarde te schatten en verificatie mogelijk te maken is het goed om zo veel mogelijk de waarnemer en de determinator vast te leggen respectievelijk in de velden recordedBy en identifiedBy.