Update 18 mei 2015: Dit blog is gebaseerd op de GBIF Integrated Publishing Toolkit (IPT) versie 2.1. Er is ondertussen een nieuwere versie beschikbaar met belangrijke veranderingen in het gebruik van de metadata. Het nieuwe blog is hier te vinden.
Een dataset, die via een GBIF Integrated Publishing Toolkit (IPT) in de GBIF data portal wordt gepubliceerd,
moet worden voorzien van metadata (letterlijk:
data over data). GBIF volgt voor de metadata het
GBIF Metadata Profile (GMP). Dit is een afgeleide van de
Ecological Metadata Language (EML) standaard, een standaard die door veel ecologische datanetwerken
wordt gebruikt. Het invoeren van metadata voor een dataset is belangrijk voor
(1) het creëren van een context voor de juiste interpretatie van de data, (2)
de vindbaarheid van de dataset te vergroten, (3) de presentatie van de dataset
in de GBIF data portal te optimaliseren en (4) het eventueel genereren van een
data paper voor een
peer-reviewed journal.
Voor het beschrijven van de metadata heeft GBIF een
technische handleiding en een
inhoudelijke handleiding geschreven. In deze
handleidingen vind je voor elk veld respectievelijk hoe deze ingevoerd moet
worden en welke informatie je hierin hoort te beschrijven. De beschrijving van
de metadata is in het GMP verdeeld in 12 secties, die tot elk gewenst detailniveau
beschreven kunnen worden. Niet alle velden zijn even relevant voor de doelen
die aan de dataset gesteld zijn. In dit artikel geven we alleen een beeld welke
velden NLBIF belangrijk vindt en tot welk detailniveau deze velden ingevoerd
zouden moeten worden. Voor overige informatie kunt u de GBIF handleidingen
raadplegen.
Geadviseerde meta-data velden
Van de 12 secties in de GMP adviseert NLBIF om in ieder
geval de volgende secties te beschrijven: basic
metadata, geographic coverage, taxonomic coverage, temporal coverage,
keywords en de rechteninformatie in
de additional metadata. Daarnaast
vindt NLBIF het belangrijk om aan te geven welke onderzoekmethoden er gebruikt zijn
en welke datamanipulaties er voor publicatie hebben plaats gevonden. Deze
informatie kan opgeslagen worden in de sampling
methods sectie.
In de volgende paragrafen wordt er per sectie geadviseerd
hoe de metadata ingevoerd kan worden.
Basic metadata
Title en description zijn verplichte velden. Ook
een aantal contacten zijn verplicht (resource
contact, resource creator, metadata provider), waarbij per contact de lastname, position en organisation verplicht zijn.
Title: Geef een
duidelijke beschrijvende titel van de dataset. Omdat de titels van de
Nederlandse datasets in een internationale context online gaan, is Engels de
geprefereerde taal. NLBIF hanteert een formule voor de titels van datasets:
Naam organisatie - landaanduiding (ISO) - specificatie dataset (naam of korte
omschrijving). Bijvoorbeeld: Natural History Museum Rotterdam (NL) - Mollusca
Collection. Als de naam van de organisatie al duidelijk aangeeft dat het een
Nederlandse organisatie betreft, wordt de landaanduiding overgeslagen,
bijvoorbeeld: Dutch Foundation for Applied Water Research (STOWA) - Limnodata
Neerlandica.
De description dient
zo veel mogelijk informatie te bevatten die toch op een compacte manier is
weergegeven. Neem de W-vragen als basis (van Wie, Wanneer, Waarom, Waar, Wat).
Graag dus iets over de periode van datavergaring, locatie, grove taxonomische
groepen en onderzoeksmethoden. Wanneer het relevant is ook zaken betreffende
eigendom, onderzoeksprogramma's etc. Dit alles compact in een zin of 5 a 10.
Voor wat betreft contact
gegevens:
Email: geen
hoofdletters gebruiken dit geeft een onduidelijke foutmelding (in de huidige IPT
versie 2.1.1) en dus hoop zoekwerk.
Postcode: gebruik
internationale notatie: NL-1090 BC
Telefoon: gebruik
internationale notatie: +31 20 5255496
Geographic Coverage
Geef hier een accurate gebiedsbeschrijving van de
waarnemingen of de herkomst van de specimen in de dataset.
Taxonomic Coverage
In deze sectie kan in elke detailniveau aangegeven worden
welke organismen in de dataset te vinden zijn. NLBIF adviseert hier om zo’n
detailniveau te kiezen dat je tot ongeveer 20 taxa hebt in deze sectie. Voor
animalia kun je bijvoorbeeld voor de ordes kiezen en bij planten voor families.
Temporal Coverage
Geef de periode van waarnemen of bemonsteren aan.
Keywords
Hier kun je denken aan de grove taxonomische groepen, specifieke onderzoeksgebieden en specifieke onderzoeksmethoden.
Sampling method
Voor de juiste interpretatie van de data is het belangrijk
dat de gebruiker weet hoe de onderzoeksdata verzameld zijn. Geef een duidelijke
herhaalbare beschrijving van de onderzoeksmethode. In veel gevallen zijn er
reeds publicaties geschreven met de onderzoeksdata en is in die artikelen al
uitvoerig de onderzoeksmethode beschreven. Het is prima om deze informatie over
te nemen (mits u daar de rechten toe heeft!) of naar de onderliggende artikelen te verwijzen in de
citations sectie.
Vaak worden er manipulaties op de onderzoeksdata uitgevoerd,
denk bijvoorbeeld aan conversies van georeferenties naar een internationale
standaard, de toetsing van de taxonomische velden met een breed geaccepteerde
soorten checklist of geografische vertroebeling. Dit is zeer belangrijke
informatie voor het juist gebruiken van de data en probeer de beschrijving van
deze stappen dus altijd op te nemen in de quality
control en step description
velden.
Additional metadata
In de
additional
metadata kunnen de rechten van de data worden aangegeven in het veld
IP Rights. Geef hier duidelijk aan wie
de rechten van de data heeft en welke vrijheden de gebruikers hebben met de
data. Je kan hier een standaard
Creative Commons rechten declaratie voor
gebruiken. GBIF gaat in 2015 over op
een aantal standaard annotaties. Waarschijnlijk zullen deze annotaties gebaseerd zijn op de volgende Creative Commons declaraties:
- CC0; geen restricties aan de data
- CC-BY; de bron van de data wordt duidelijk vermeld bij hergebruik
- CC-BY-NC; als hierboven met de beperking dat de data alleen non-commercieel gebruikt mag worden
NLBIF
gebruikt tot nu toe de volgende tekst vaak:
Data
from this dataset may be used and shared freely when the creators of the data
are attributed correctly. Dit ligt dicht aan tegen de CC-BY. NLBIF adviseert om vanaf nu een van de bovenstaande Creative Commons declaraties te gebruiken en daarbij in gedachte te houden dat het gebruik van de data komt het beste tot zijn recht als er zo min mogelijk beperkingen aan de gebruiksrechten worden opgelegd.
Data paper genereren
Met behulp van de GBIF IPT is het mogelijk om een zogenaamde
datapaper te genereren. Een datapaper is eigenlijk een metadata paper, een
artikel waarin je beschrijft dat er data beschikbaar zijn online, wat voor een
data dit zijn en waarvoor deze data zijn gebruikt of gebruikt kunnen worden. Op
basis van de metadata die in de IPT zijn ingevoerd wordt de datapaper
gegenereerd. Verschillende peer-reviewed tijdschriften accepteren deze format
van de datapaper automatisch.
Zie hier voor meer informatie Neem contact op met
de
NLBIF coördinator als u serieus overweegt een datapaper te publiceren, NLBIF
kan u technisch, inhoudelijk en financieel ondersteunen.