NLBIF - sharing biodiversity data

Friday, 13 November 2015

Hoe vind ik mijn organisatie en databestanden in GBIF?

Om uw eigen organisatie en databestanden in GBIF te vinden, kunnen er een aantal routes worden bewandeld. Deze routes (3) worden kort in deze blog beschreven.

1) Uw organisatie en databestanden vinden via de NLBIF website.

De website van NLBIF bevat een overzichtspagina met alle Nederlandse organisaties die datasets via GBIF online hebben gezet. De url van deze pagina is: http://www.nlbif.nl/nl/nlbif-data/datasets

De organisaties zijn in alfabetische volgorde weergegeven, onder de naam van de organisatie staan de GBIF datasets van de betreffende organisatie. Hieronder een voorbeeld van een van de organisaties op de betreffende webpagina.....

Door op de naam van de organisatie te klikken wordt je doorgelinkt naar de pagina van de organisatie in GBIF, daar vind je algemene informatie over de organisatie, inclusief een overzicht van de datasets die de organisatie in GBIF heeft staan.
Op de NLBIF overzichtspagina vind je onder de organisatienaam ook de datasets van de organisatie met daarachter drie kolommen aan informatie:

Het totaal aantal records in de dataset
Een link direct naar de datasetpagina in GBIF
Een link naar de dataset in de publicatie omgeving, in de meeste gevallen is dat de Integrated Publishing Toolkit (IPT) van NLBIF of van een andere organisatie.

2) Uw organisatie en databestanden vinden via de NL "Country Page" in GBIF.

Op de GBIF website staat voor ieder land dat meedoet in GBIF een zogenaamde "Country Page" met daarin samengevat alles over de data, contacten en activiteiten van de GBIF "Node" van het betreffende land. Deze country page verschaft ook een overzicht van alle GBIF dataleveranciers, de Nederlandse dataleveranciers zijn te vinden onder de link: http://www.gbif.org/country/NL/publishers

3) Organisaties en databestanden zijn ook te vinden via de homepage van GBIF, onder het "data" menu.

Op de home page van GBIF klik "Explore dataset" onder het data menu. In de zoekbox die dan verschijnt zijn er twee mogelijkheden:

Zoek op basis van de naam van uw organisatie of dataset de betreffende dataset, of klik "view the publishing institutions" aan en gebruik het verschijnende zoekvenster om uw organisatie te vinden.

Monday, 18 May 2015

Metadata in de GBIF IPT (versie 2.2 & 2.3)

Dit blog is gebaseerd op de GBIF Integrated Publishing Toolkit (IPT) versie 2.2 en 2.3. Het blog over de metadata in IPT versie 2.1 is hier te vinden.

Een dataset, die via een GBIF Integrated Publishing Toolkit (IPT) in de GBIF data portal wordt gepubliceerd, moet worden voorzien van metadata (letterlijk: data over data). GBIF volgt voor de metadata het GBIF Metadata Profile (GMP). Dit is een afgeleide van de Ecological Metadata Language (EML) standaard, een standaard die door veel ecologische datanetwerken wordt gebruikt. Het invoeren van metadata voor een dataset is belangrijk voor (1) het creëren van een context voor de juiste interpretatie van de data, (2) de vindbaarheid van de dataset te vergroten, (3) de presentatie van de dataset in de GBIF data portal te optimaliseren en (4) het eventueel genereren van een data paper voor een peer-reviewed journal.

Voor het beschrijven van de metadata heeft GBIF een technische handleiding en een inhoudelijke handleiding geschreven. In deze handleidingen vind je voor elk veld respectievelijk hoe deze ingevoerd moet worden en welke informatie je hierin hoort te beschrijven. De beschrijving van de metadata is in het GMP verdeeld in 12 secties, die tot elk gewenst detailniveau beschreven kunnen worden. Niet alle velden zijn even relevant voor de doelen die aan de dataset gesteld zijn. In dit artikel geven we alleen een beeld welke velden NLBIF belangrijk vindt en tot welk detailniveau deze velden ingevoerd zouden moeten worden. Voor overige informatie kunt u de GBIF handleidingen raadplegen.

Geadviseerde meta-data velden

Van de 12 secties in de GMP adviseert NLBIF om in ieder geval de volgende secties te beschrijven: basic metadata, geographic coverage, taxonomic coverage, temporal coverage, keywords en de rechteninformatie in de additional metadata. Daarnaast vindt NLBIF het belangrijk om aan te geven welke onderzoekmethoden er gebruikt zijn en welke datamanipulaties er voor publicatie hebben plaats gevonden. Deze informatie kan opgeslagen worden in de sampling methods sectie.

In de volgende paragrafen wordt er per sectie geadviseerd hoe de metadata ingevoerd kan worden.

Basic metadata

Title, description, publication organisation, type, de language velden en de data licence zijn verplicht. Ook een aantal contacten zijn verplicht (resource contact, resource creator, metadata provider), waarbij per contact de lastname, position en organisation verplicht zijn.

Title: Geef een duidelijke beschrijvende titel van de dataset. Omdat de titels van de Nederlandse datasets in een internationale context online gaan, is Engels de geprefereerde taal. NLBIF hanteert een formule voor de titels van datasets: Naam organisatie - landaanduiding (ISO) - specificatie dataset (naam of korte omschrijving). Bijvoorbeeld: Natural History Museum Rotterdam (NL) - Mollusca Collection. Als de naam van de organisatie al duidelijk aangeeft dat het een Nederlandse organisatie betreft, wordt de landaanduiding overgeslagen, bijvoorbeeld: Dutch Foundation for Applied Water Research (STOWA) - Limnodata Neerlandica.

De description dient zo veel mogelijk informatie te bevatten die toch op een compacte manier is weergegeven. Neem de W-vragen als basis (van Wie, Wanneer, Waarom, Waar, Wat). Graag dus iets over de periode van datavergaring, locatie, grove taxonomische groepen en onderzoeksmethoden. Wanneer het relevant is ook zaken betreffende eigendom, onderzoeksprogramma's etc. Dit alles compact in een zin of 5 a 10.

Voor wat betreft contact gegevens:

Email: geen hoofdletters gebruiken dit geeft een onduidelijke foutmelding (in de IPT versie 2.1.1) en dus hoop zoekwerk.

Postcode: gebruik internationale notatie: NL-1090 BC

Telefoon: gebruik internationale notatie: +31 20 5255496

Basic metadata - data licence
In de basic metadata moet in het veld data licence de rechten van de data worden aangegeven. GBIF gebruikt vanaf versie 2.2 van de IPT de volgende gestandaardiseerde Creative Commons rechten declaratie:

CC0; geen restricties aan de data
CC-BY; de bron van de data wordt duidelijk vermeld bij hergebruik
CC-BY-NC; als hierboven met de beperking dat de data alleen non-commercieel gebruikt mag worden

Houd bij het het toekennen van de data licence in gedachte dat het gebruik van de data het beste tot zijn recht komt als er zo min mogelijk beperkingen aan de gebruiksrechten worden opgelegd. NLBIF adviseert om waar mogelijk CC0 te gebruiken en als alternatief CC-BY.

Geographic Coverage

Geef hier een accurate gebiedsbeschrijving van de waarnemingen of de herkomst van de specimen in de dataset.

Taxonomic Coverage

In deze sectie kan in elke detailniveau aangegeven worden welke organismen in de dataset te vinden zijn. NLBIF adviseert hier om zo’n detailniveau te kiezen dat je tot ongeveer 20 taxa hebt in deze sectie. Voor animalia kun je bijvoorbeeld voor de ordes kiezen en bij planten voor families.

Temporal Coverage

Geef de periode van waarnemen of bemonsteren aan.

Keywords

Hier kun je denken aan de grove taxonomische groepen, specifieke onderzoeksgebieden en specifieke onderzoeksmethoden.

Sampling method

Voor de juiste interpretatie van de data is het belangrijk dat de gebruiker weet hoe de onderzoeksdata verzameld zijn. Geef een duidelijke herhaalbare beschrijving van de onderzoeksmethode. In veel gevallen zijn er reeds publicaties geschreven met de onderzoeksdata en is in die artikelen al uitvoerig de onderzoeksmethode beschreven. Het is prima om deze informatie over te nemen (mits u daar de rechten toe heeft!) of naar de onderliggende artikelen te verwijzen in de citations sectie.

Vaak worden er manipulaties op de onderzoeksdata uitgevoerd, denk bijvoorbeeld aan conversies van georeferenties naar een internationale standaard, de toetsing van de taxonomische velden met een breed geaccepteerde soorten checklist of geografische vertroebeling. Dit is zeer belangrijke informatie voor het juist gebruiken van de data en probeer de beschrijving van deze stappen dus altijd op te nemen in de quality control en step description velden.

Data paper genereren

Met behulp van de GBIF IPT is het mogelijk om een zogenaamde datapaper te genereren. Een datapaper is eigenlijk een metadata paper, een artikel waarin je beschrijft dat er data beschikbaar zijn online, wat voor een data dit zijn en waarvoor deze data zijn gebruikt of gebruikt kunnen worden. Op basis van de metadata die in de IPT zijn ingevoerd wordt de datapaper gegenereerd. Verschillende peer-reviewed tijdschriften accepteren deze format van de datapaper automatisch. Zie hier voor meer informatie Neem contact op met de NLBIF coördinator als u serieus overweegt een datapaper te publiceren, NLBIF kan u technisch, inhoudelijk en financieel ondersteunen.

Thursday, 19 February 2015

Het stylen van de GBIF IPT

Dit artikel geeft een korte beschrijving van een aantal basisstappen om de GBIF IPT van een eigen huisstijl te voorzien. Voor dit artikel wordt wat basiskennis van Apache Tomcat en CSS verwacht. Als je zelf echt de diepte in wil, dan is kennis van Java van belang.

De standaard opmaak van de IPT is prima maar past misschien niet helemaal binnen de (huis)stijl van de website van de organisatie. Mede door het open karakter van de IPT is het zeer eenvoudig geworden om je eigen aanpassingen door te voeren aan de opmaak.

Er is via een 'feature request' vanuit NLBIF aan de standaard IPT installatie een Cascading Style Sheet (CSS) bestand toegevoegd. Deze heeft de naam 'custom.css' en wordt automatisch ingelezen bij het laden van de pagina. Hierdoor kunnen de standaard GBIF instellingen van kleuren, lettertypes, marges en dergelijke allemaal worden overschreven met de eigen gewenste instellingen.
Op deze manier kun je dus op een laagdrempelige manier je eigen aanpassingen doorvoeren. Dit custom.css bestand is op de Tomcat server te vinden in de directory '$tomcat/webapps/$ipt/styles/'.
Hierbij staat $tomcat voor je ingestelde Tomcat webroot en $ipt voor de naam die je aan je IPT installatie hebt gegeven. Als je de .war file van de IPT bijvoorbeeld tryout.war noemt zal de IPT in de subdirectory 'tryout' worden geïnstalleerd.

Voor echt structurele (in zin van de opbouw/structuur van de pagina) aanpassingen van de IPT kunnen wijzigingen worden gemaakt aan de template bestanden. Met een beetje kennis van HTML is dit al zeer goed te doen.
Deze template-bestanden zijn te herkennen aan de extensie '.ftl' en zijn te vinden in '$tomcat/webapps/$ipt/WEB-INF/pages/'. De belangrijkste bestanden die voor de weergave van de IPT webpagina's zorgen zijn:

header.ftl
menu.ftl
footer.ftl

Deze zijn te vinden in de subdirectory '$tomcat/webapps/$ipt/WEB-INF/pages/inc/'.

Het is belangrijk om te weten dat na iedere upgrade van de IPT de aanpassingen opnieuw terug gezet moeten worden. Dit komt door de manier waarop Tomcat werkt; Een upgrade van de IPT bestaat uit het verwijderen van de oude installatie van de IPT en het uitrollen van de nieuwe versie van het .war bestand. Aanpassingen die in de oude versie zijn gemaakt worden door een upgrade dus volledig verwijderd en je begint dus weer met een standaard IPT installatie zonder aanpassingen.

We zullen onze aanpassingen dus goed moeten bewaren om ze na een update weer terug te kunnen zetten. Door de bestanden in een zelfde directory-structuur te bewaren kunnen deze makkelijk worden terug gezet door simpele kopieer-en-overschrijf-actie van de zojuist uitgerolde bestanden.

Wij hebben er voor gekozen om de IPT zijn eigen identiteit te laten behouden maar er wel een sausje van onze huisstijl overheen te gieten. Zie hieronder hoe dat er in de praktijk uit ziet:

Van linksboven naar rechtsonder: GBIF IPT, NLBIF IPT Tryout, NLBIF IPT productien, NIOZ IPT

Voor de aanpassingen voor de NLBIF (en organisaties die wij technisch ondersteunen, zoals onder andere Alterra, CGN, IBED, NIOZ en FLORON) hebben wij een standaard structuur gemaakt die hieronder te downloaden is.

Bronbestanden NLBIF IPT Tryout

Hierin zijn alle aanpassingen terug te vinden van de NLBIF IPT Tryout. Wij gebruiken een eigen logo voor in de header en ook een favicon in de kleurstijl van de website. Ook zijn afbeeldingen geplaatst om de icoontjes in de admin omgeving aan te passen en de taalkeuze in de juiste kleur te krijgen. Deze afbeeldingen zijn terug te vinden in de map '$tomcat/webapps/$ipt/images/'. In een fotobewerkingsprogramma kunnen deze makkelijk worden aangepast naar de gewenste kleur.

NB: Omdat wij voor de productie en de tryout versie van de NLBIF IPT exact dezelfde aanpassingen gebruiken en alleen de kleur anders is, is een extra bestand toegevoegd (custom-tryout.css) waar alleen de oranje kleuren van de tryout IPT staan beschreven. De custom.css laadt dit bestand in via een @import bovenaan de stylesheet. In een situatie waarin een organisatie maar één IPT heeft is dit niet nodig.

Om ook de achtergrondafbeelding te krijgen zoals op de NLBIF IPT moet het volgende stukje css worden toegevoegd aan de custom.css:
----------------------------------------------------------------------------------------------
/**********************************\
* background image
\**********************************/
body {
background: url(branding/background.jpg) no-repeat center center fixed;
-webkit-background-size: cover;
-moz-background-size: cover;
-o-background-size: cover;
background-size: cover;
}
----------------------------------------------------------------------------------------------
Ook moet er natuurlijk een background.jpg worden geplaatst. De achtergrond zal dan altijd schermvullend worden weergegeven.

Neem voor vragen gerust contact op met NLBIF. Wij helpen u graag verder!

Wednesday, 11 February 2015

De data-kern van GBIF: het DarwinCore-Archive

GBIF heeft het DarwinCore Archive (DwC-A) formaat ontwikkeld voor het optimaal uitwisselen van data, zie hier en hier voor meer details. Het DwC-A is een gecomprimeerd archief (.zip bestand) van bestanden met primaire en meta-data. De onderstaande figuur (Figuur 1) geeft de inhoud van het DwC-A weer.

De oranje iconen zijn de standaardbestanden: (1) de primaire occurrence or taxonomic "core" data, opgeslagen conform de DarwinCore datastandaard en in een csv bestand vastgelegd, dit zijn dus uw observatie, collectie of checklist data, (2) het metadata bestand, dit is een omschrijving van de primaire data volgens het GBIF metadata profile formaat, (3) de descriptor file, dit is een xml bestand met de (computer)technische beschrijving van het primaire databestand.

De groene iconen verbeelden DarwinCore Extensions. De DarwinCore standaard die voor de primaire "core" data wordt gebruikt omvat circa 200 termen, dat is soms niet genoeg om alle specifieke informatie over een observatie of collectiespecimen in op te slaan. In de DarwinCore Extensions kan dan extra informatie worden vastgelegd die buiten de DarwinCore datastandaard valt. De internationale gemeenschap van zaadbanken heeft bijvoorbeeld de DarwinCore germplasm extension ontwikkeld om specifieke (fysiologische) zaadkenmerken vast te leggen en te kunnen delen binnen de gemeenschap. Een ander voorbeeld van een DarwinCore extension is bijvoorbeeld de Species Distribution extension, waarmee je voor de soorten in je bestand zeer uitgebreid de verspreiding kan vastleggen. De data in de extensions worden middels ID's gekoppeld aan de primaire "core" data.

Al deze informatie samen, je primaire DarwinCore gestandaardiseerde data, met eventuele extra informatie (extensions), metadata, en descriptor file worden gecomprimeerd tot een DarwinCore-Archive.

Figuur 1: De componenten van een DarwinCore-Archive.

DarwinCore Archives vormen de kern van de GBIF infrastructuur en zijn onlosmakelijk verbonden met de GBIF Integratede Publishing Toolkit (IPT) en het GBIF dataportaal. GBIF heeft de volgende toepassingen voor het DwC-A formaat:

Publicatie van data vanuit de IPT: op basis van ingevoerde of ingelezen data genereert de IPT DarwinCore Archives en via de IPT zijn deze Archives voor iedereen toegankelijk.
Uploaden van data in de IPT: de IPT kan DarwinCore Archives "inlezen", zo kan er bijvoorbeeld via een DwC-A export in een externe databron data eenvoudig in de IPT worden geïmporteerd.
Harvesten: via de IPT kunnen DarwinCore Archives bij GBIF worden geregistreerd en vervolgens door GBIF worden opgehaald, uitgepakt en in de GBIF index-database gezet waarop het GBIF data portal draait.
Downloaden van geselecteerde data uit het GBIF data portal.

DarwinCore Archive Validation Tool

Voor het goed functioneren van de data-uitwisseling in het DarwinCore-Archive formaat, is het belangrijk dat de standaard juist gevolgd wordt. GBIF heeft een online tool beschikbaar voor de validatie van een DwC-A bestand. Deze tool is erg handig voor het traceren van problemen met een dataset, zoals het gebruik van illegal characters of onjuist gebruik van de DarwinCore standaard of de DwC-A elementen.

De DarwinCore Archive Validation Tool voert de volgende diagnostische taken uit:

Controleert of de beschrijvende bestanden (meta.xml & eml.xml) in de DarwinCore-Archives aan de standaarden voldoen.
Geeft een overzicht van de geselecteerde kolommen.
Leest primaire bestanden in en presenteert beschrijvende statistiek, zoals kolomnamen, aantal records en aantal kolommen.
Bij extensions: controleert of de gebruikte ID’s ook in de core file voorkomen
Scant voor database NULL-waarde en toont deze wanneer gevonden.
Toont de eerste 100 records van de dataset, voor eventuele visuele controle.

Wednesday, 17 December 2014

GBIF API's

Sinds het voorjaar van 2014 is de eerste officiële versie van de GBIF API's online. Deze API’s bieden iedereen de mogelijkheid om de GBIF databases te benaderen en naar wens informatie op te halen over een plant- of diersoort, een dataset, een land, en meer. Dit artikel laat kort zien welke technieken er gebruikt worden en hoe eenvoudig het, met een beetje programmeerkennis, kan zijn om de GBIF informatie voor eigen doeleinden op te halen, te gebruiken en te presenteren. In dit artikel geven we wat PHP programmeercode als voorbeeld voor het ophalen van de informatie. In de meeste andere programmeertalen zijn er vergelijkbare functies en scripts beschikbaar.

De GBIF API’s zijn te benaderen via een URL en geven dan (meestal) een JSON object terug met de informatie die je hebt opgevraagd. JSON (JavaScript Object Notation) is een manier om informatie uit te wisselen, die vergelijkbaar is met een vereenvoudigde versie van XML. Klik hier voor meer informatie.

Datasets met metadata

Als voorbeeld zullen we hier alle Nederlandse GBIF datasets met metadata ophalen. De complete beschrijving van de dataset API is hier te vinden.

-----------------------------------------------------------------------------------

$URLGetDutchDatasets="http://api.gbif.org/v1/dataset/?country=nl&limit=200";

$datasetsJSON = file_get_contents($URLGetDutchDatasets);

$datasets = json_decode($datasetsJSON, true);

$numberOfDutchDatasets = $datasets['count'];

foreach($datasets['results'] as $dataset) {

$organisationKey = $dataset['publishingOrganizationKey'];

$datasetKey = $dataset['key'];

$datasetNameInGbif = $dataset['title'];

$datasetType = $dataset['type'];

$datasetRegistrationDate = $dataset['created'];

$datasetLastPublicationDate = $dataset['modified'];

}

-----------------------------------------------------------------------------------

De eerste PHP-regel beschrijft de URL van de query aan de dataset API. Met de country parameter kunnen we een land selecteren en de limit parameter geeft het aantal dataset-objecten, die de API maximaal terug zal geven. Een complete lijst met voorbeeld parameters is hier te vinden. Je kan de GetDutchDatasets URL overigens ook gewoon in de browser invoeren om wat gevoel te krijgen welke informatie er wordt teruggeven door de API. Je kan zo ook snel zien hoe een JSON object eruitziet.

De tweede en derde regel halen respectievelijk de informatie op van de API en zetten het JSON object om in een associative array. De vierde regel leest het veld count, het aantal (Nederlandse) datasets in de query, uit de associative array. Dit aantal is onafhankelijk van de limit-parameter, dus met limit=10 zal de count waarde gewoon 124 zijn. De waarde datasets bevat een verzameling met objecten van datasets met de metadata van de individuele datasets. In de foreach-loop worden wat velden van een dataset uitgelezen.

Statistieken van een dataset

De occurrence API kan onder andere gebruikt worden om de primaire data van een individueel record op te halen, maar ook voor het uitlezen van metrics van een dataset. Hieronder een voorbeeld van het uitlezen van het aantal records van een dataset.

-----------------------------------------------------------------------------------

$URLgetRecordCountOfDataset = "http://api.gbif.org/v1/occurrence/count?datasetKey=740df67d-5663-41a2-9d12-33ec33876c47";

$recordCount = file_get_contents($URLgetRecordCountOfDataset);

-----------------------------------------------------------------------------------

Zoals je wellicht is opgevallen wordt hier de output van de API niet meer omgezet van een JSON object naar een array. GBIF geeft bij deze specifieke count functie alleen een nummer terug van het aantal records, zonder het JSON format. Er is immers maar een waarde, dus het JSON formaat zou onnodige overhead geven. De variabele $recordCount bevat dus direct de waarde van het aantal records van de dataset. GBIF biedt met parameters als isGeoreferenced en basisOfRecord mogelijkheden om meer verdieping in dit enkele nummer te brengen, zie hier voor meer informatie.

Thursday, 16 October 2014

Metadata in de GBIF IPT (versie 2.1; verouderde versie)

Update 18 mei 2015: Dit blog is gebaseerd op de GBIF Integrated Publishing Toolkit (IPT) versie 2.1. Er is ondertussen een nieuwere versie beschikbaar met belangrijke veranderingen in het gebruik van de metadata. Het nieuwe blog is hier te vinden.

Een dataset, die via een GBIF Integrated Publishing Toolkit (IPT) in de GBIF data portal wordt gepubliceerd, moet worden voorzien van metadata (letterlijk: data over data). GBIF volgt voor de metadata het GBIF Metadata Profile (GMP). Dit is een afgeleide van de Ecological Metadata Language (EML) standaard, een standaard die door veel ecologische datanetwerken wordt gebruikt. Het invoeren van metadata voor een dataset is belangrijk voor (1) het creëren van een context voor de juiste interpretatie van de data, (2) de vindbaarheid van de dataset te vergroten, (3) de presentatie van de dataset in de GBIF data portal te optimaliseren en (4) het eventueel genereren van een data paper voor een peer-reviewed journal.

Geadviseerde meta-data velden

In de volgende paragrafen wordt er per sectie geadviseerd hoe de metadata ingevoerd kan worden.

Basic metadata

Title en description zijn verplichte velden. Ook een aantal contacten zijn verplicht (resource contact, resource creator, metadata provider), waarbij per contact de lastname, position en organisation verplicht zijn.

Voor wat betreft contact gegevens:

Email: geen hoofdletters gebruiken dit geeft een onduidelijke foutmelding (in de huidige IPT versie 2.1.1) en dus hoop zoekwerk.

Postcode: gebruik internationale notatie: NL-1090 BC

Telefoon: gebruik internationale notatie: +31 20 5255496

Geographic Coverage

Geef hier een accurate gebiedsbeschrijving van de waarnemingen of de herkomst van de specimen in de dataset.

Taxonomic Coverage

Temporal Coverage

Geef de periode van waarnemen of bemonsteren aan.

Keywords

Hier kun je denken aan de grove taxonomische groepen, specifieke onderzoeksgebieden en specifieke onderzoeksmethoden.

Sampling method

Additional metadata

In de additional metadata kunnen de rechten van de data worden aangegeven in het veld IP Rights. Geef hier duidelijk aan wie de rechten van de data heeft en welke vrijheden de gebruikers hebben met de data. Je kan hier een standaard Creative Commons rechten declaratie voor gebruiken. GBIF gaat in 2015 over op een aantal standaard annotaties. Waarschijnlijk zullen deze annotaties gebaseerd zijn op de volgende Creative Commons declaraties:

CC0; geen restricties aan de data
CC-BY; de bron van de data wordt duidelijk vermeld bij hergebruik
CC-BY-NC; als hierboven met de beperking dat de data alleen non-commercieel gebruikt mag worden

NLBIF gebruikt tot nu toe de volgende tekst vaak: Data from this dataset may be used and shared freely when the creators of the data are attributed correctly. Dit ligt dicht aan tegen de CC-BY. NLBIF adviseert om vanaf nu een van de bovenstaande Creative Commons declaraties te gebruiken en daarbij in gedachte te houden dat het gebruik van de data komt het beste tot zijn recht als er zo min mogelijk beperkingen aan de gebruiksrechten worden opgelegd.

Data paper genereren

Thursday, 9 October 2014

Collectie en observatiedata in GBIF; het gebruik van DarwinCore

Dit artikel geeft een korte beschrijving van de beste praktische invulling van de DarwinCore datastandaard voor GBIF. Voor detailinformatie over de verschillende termen kun je de hyperlinks naar de DarwinCore reference guide gebruiken.

DarwinCore (DwC) is op dit moment de belangrijkste internationale datastandaard voor biodiversiteitdata. DarwinCore is gebaseerd op de zeer algemeen gebruikte DublinCore (DC) datastandaard en specifiek ontwikkeld voor biodiversiteitinformatie. DarwinCore maakt voor meer algemene informatie, bijvoorbeeld tijd- en plaatsaanduidingen, weer gebruik van bestaande standaarden als ISO. De infrastructuur van GBIF, en vele andere internationale biologische data-initiatieven, is toegesneden op de DwC standaard.
In de DwC standaard is voor een biodiversiteitsdataset vastgelegd welke informatie in welke vorm in welke velden moet worden opgeslagen. Er zijn voor-gedefinieerde veldnamen (terms genoemd) en geadviseerde opslagformaten. Zo wordt een datum van een waarneming opgeslagen in het veld eventDate in het formaat 1980-06-17 (jjjj-mm-dd). De meest recente publicatie tool van GBIF, de Integrated Publishing Toolkit (IPT), is volledig om de DwC standaard heen gebouwd en praktisch alle Nederlandse GBIF dataleveranciers gebruiken momenteel de IPT en de DwC standaard. Dit artikel beschrijft hoe en welke velden van de (120) DwC termen het beste gebruikt kunnen worden als u (uw eerste) data gaat leveren aan GBIF.

http://rs.tdwg.org/dwc/terms/

Verplichte velden

In GBIF zijn vijf velden verplicht. Voor de identificatie van een record in de dataset wordt er een institutionCode, collectionCode en catalogNumber meegegeven. Deze velden bevatten respectievelijk een code van de dataleverende organisatie die wereldwijd uniek is, een code voor de dataset die binnen de dataleverende organisatie unieke is en een code voor de record die binnen de dataset uniek is. Deze drie codes samen maken een unieke code, die elke record binnen de GBIF dataportal uniek maakt en individueel opvraagbaar.

De basisOfRecord en scientificName zijn verder verplicht en bevatten informatie over de soort data, bijvoorbeeld een museumcollectie (specimen) of een veldobservatie (human observation), en de wetenschappelijke soortnaam. De scientificName bij voorkeur zo volledig mogelijk, dus genusnaam, soortnaam, auteur en jaar van eerste beschrijving. Het is ook mogelijk om hogere taxa in het scientificName veld op te slaan, bijvoorbeeld alleen de genus naam. Het wordt aanbevolen om dan ook het veld taxonRank te gebruiken om aan te geven welk niveau is ingevoerd, zie hieronder.

http://rs.tdwg.org/dwc/terms/#basisOfRecord

http://rs.tdwg.org/dwc/terms/#institutionCode

http://rs.tdwg.org/dwc/terms/#collectionCode

http://rs.tdwg.org/dwc/terms/#catalogNumber

http://rs.tdwg.org/dwc/terms/#scientificName

http://rs.tdwg.org/dwc/terms/#occurrenceID

Geadviseerde velden

NLBIF adviseert naast de verplichte velden om ook informatie over het moment en de locatie van de waarneming vast te leggen in de GBIF data portal. Een waarneming zonder deze informatie is voor de meest biodiversiteitonderzoeken niet bruikbaar. De datum wordt opgeslagen in de eventDate in een tekstueel format YYYY-MM-DD.

http://rs.tdwg.org/dwc/terms/#eventDate

locatie

Binnen GBIF worden alle waarnemingen in decimale graden opgeslagen en alle lokale formaten van datasets, zoals rijksdriehoek, moeten dus door de dataleverancier omgezet worden naar dit formaat (DwC: decimalLatitude, decimalLongitude). Er zit altijd een bepaalde onnauwkeurigheid in de locatiemeting. Een kilometerhok is immers grover dan een GPS puntmeting. De nauwkeurigheid wordt in meters vastgelegd in het coordinateUncertaintyInMeters veld. In het veld geodeticDatum wordt de datum opgeslagen, WGS84 is hier de wereldwijde standaard. Wanneer er voor GBIF een lokaal geografisch formaat is geconverteerd naar decimale graden adviseert NLBIF om de orginele waarden ook op te slaan in de verbatim locatievelden: verbatimLatitude, verbatimLongitude en verbatimCoordinateSystem.

De hoogte (of diepte) wordt in DwC als een minimum-maximum bereik opgeslagen. Voor een hoogte boven zeeniveau gebruik je minimumElevationinMeters en maximumElevationInMeters en bij een vaste hoogte voer je dezelfde hoogte-waarde in beide velden in. Voor een diepte beneden zeeniveau gebruik je de volgende velden op een gelijke wijze: minimumDepthInMeters en maximumDepthInMeters. Vul als waarde altijd een positieve getal in meters vanaf zeeniveau in.

GBIF voert intern allerlei controles uit om de data kwaliteit te optimaliseren. Zo controleert GBIF bijvoorbeeld ook of een opgegeven coördinaat in het land ligt dat is meegegeven. NLBIF adviseert om het veld country mee te geven zodat GBIF in staat is om een grove check op de coördinaten uit te voeren.

http://rs.tdwg.org/dwc/terms/#decimalLatitude

http://rs.tdwg.org/dwc/terms/#decimalLongitude

http://rs.tdwg.org/dwc/terms/#coordinateUncertaintyInMeters

http://rs.tdwg.org/dwc/terms/#geodeticDatum

http://rs.tdwg.org/dwc/terms/#verbatimLatitude

http://rs.tdwg.org/dwc/terms/#verbatimLongitude

http://rs.tdwg.org/dwc/terms/#verbatimCoordinateSystem
http://rs.tdwg.org/dwc/terms/#minimumElevationInMeters

http://rs.tdwg.org/dwc/terms/#maximumElevationInMeters

http://rs.tdwg.org/dwc/terms/#minimumDepthInMeters

http://rs.tdwg.org/dwc/terms/#maximumDepthInMeters

http://rs.tdwg.org/dwc/terms/#country

taxonomie

In het veld scientificName kunnen verschillende taxonniveaus aangegeven worden. Het is daarom aan te raden het gebruikte niveau aan te geven in het veld taxonRank (voorbeelden waarden: “species” of “genus”).

Als een dataset in GBIF wordt ingeladen wordt de alle velden ingelezen en geïnterpreteerd, zodat verschillende schrijfwijzen van een zelfde soort bijvoorbeeld niet tot andere soorten leidt in de GBIF dataportal. Juist omdat de taxonomieën van de verschillende rijken een eigen indeling en regels hebben, kan het voorkomen dat er plantennaam ook in het dierenrijk voorkomt en andersom. Om te voorkomen dat GBIF deze soorten met een zelfde naam door elkaar haalt is het goed om het veld kingdom en eventueel lagere groepen mee te geven. Lagere taxonomische groepen kunnen ook helpen als een opgegeven soortnaam niet herkend wordt.

http://rs.tdwg.org/dwc/terms/#taxonRank

http://rs.tdwg.org/dwc/terms/#kingdom

http://rs.tdwg.org/dwc/terms/#phylum

http://rs.tdwg.org/dwc/terms/#class

http://rs.tdwg.org/dwc/terms/#order

http://rs.tdwg.org/dwc/terms/#family

http://rs.tdwg.org/dwc/terms/#genus

waarnemer

Om de kwaliteit van de data op waarde te schatten en verificatie mogelijk te maken is het goed om zo veel mogelijk de waarnemer en de determinator vast te leggen respectievelijk in de velden recordedBy en identifiedBy.

http://rs.tdwg.org/dwc/terms/#recordedBy
http://rs.tdwg.org/dwc/terms/#identifiedBy