Monday 18 May 2015

Metadata in de GBIF IPT (versie 2.2 & 2.3)

Dit blog is gebaseerd op de GBIF Integrated Publishing Toolkit (IPT) versie 2.2 en 2.3. Het blog over de metadata in IPT versie 2.1 is hier te vinden.

Een dataset, die via een GBIF Integrated Publishing Toolkit (IPT) in de GBIF data portal wordt gepubliceerd, moet worden voorzien van metadata (letterlijk: data over data). GBIF volgt voor de metadata het GBIF Metadata Profile (GMP). Dit is een afgeleide van de Ecological Metadata Language (EML) standaard, een standaard die door veel ecologische datanetwerken wordt gebruikt. Het invoeren van metadata voor een dataset is belangrijk voor (1) het creĆ«ren van een context voor de juiste interpretatie van de data, (2) de vindbaarheid van de dataset te vergroten, (3) de presentatie van de dataset in de GBIF data portal te optimaliseren en (4) het eventueel genereren van een data paper voor een peer-reviewed journal.

Voor het beschrijven van de metadata heeft GBIF een technische handleiding en een inhoudelijke handleiding geschreven. In deze handleidingen vind je voor elk veld respectievelijk hoe deze ingevoerd moet worden en welke informatie je hierin hoort te beschrijven. De beschrijving van de metadata is in het GMP verdeeld in 12 secties, die tot elk gewenst detailniveau beschreven kunnen worden. Niet alle velden zijn even relevant voor de doelen die aan de dataset gesteld zijn. In dit artikel geven we alleen een beeld welke velden NLBIF belangrijk vindt en tot welk detailniveau deze velden ingevoerd zouden moeten worden. Voor overige informatie kunt u de GBIF handleidingen raadplegen.

Geadviseerde meta-data velden 

Van de 12 secties in de GMP adviseert NLBIF om in ieder geval de volgende secties te beschrijven: basic metadatageographic coveragetaxonomic coveragetemporal coveragekeywords en de rechteninformatie in de additional metadata. Daarnaast vindt NLBIF het belangrijk om aan te geven welke onderzoekmethoden er gebruikt zijn en welke datamanipulaties er voor publicatie hebben plaats gevonden. Deze informatie kan opgeslagen worden in de sampling methods sectie.

In de volgende paragrafen wordt er per sectie geadviseerd hoe de metadata ingevoerd kan worden.

Basic metadata
Titledescription, publication organisation, type, de language velden en de data licence zijn verplicht. Ook een aantal contacten zijn verplicht (resource contact, resource creator, metadata provider), waarbij per contact de lastnameposition en organisation verplicht zijn.

Title: Geef een duidelijke beschrijvende titel van de dataset. Omdat de titels van de Nederlandse datasets in een internationale context online gaan, is Engels de geprefereerde taal. NLBIF hanteert een formule voor de titels van datasets: Naam organisatie - landaanduiding (ISO) - specificatie dataset (naam of korte omschrijving). Bijvoorbeeld: Natural History Museum Rotterdam (NL) - Mollusca Collection. Als de naam van de organisatie al duidelijk aangeeft dat het een Nederlandse organisatie betreft, wordt de landaanduiding overgeslagen, bijvoorbeeld: Dutch Foundation for Applied Water Research (STOWA) - Limnodata Neerlandica.

De description dient zo veel mogelijk informatie te bevatten die toch op een compacte manier is weergegeven. Neem de W-vragen als basis (van Wie, Wanneer, Waarom, Waar, Wat). Graag dus iets over de periode van datavergaring, locatie, grove taxonomische groepen en onderzoeksmethoden. Wanneer het relevant is ook zaken betreffende eigendom, onderzoeksprogramma's etc. Dit alles compact in een zin of 5 a 10.

Voor wat betreft contact gegevens:
Email: geen hoofdletters gebruiken dit geeft een onduidelijke foutmelding (in de IPT versie 2.1.1) en dus hoop zoekwerk.
Postcode: gebruik internationale notatie: NL-1090 BC
Telefoon: gebruik internationale notatie: +31 20 5255496

Basic metadata - data licence
In de basic metadata moet in het veld data licence de rechten van de data worden aangegeven. GBIF gebruikt vanaf versie 2.2 van de IPT de volgende gestandaardiseerde Creative Commons rechten declaratie:
  • CC0; geen restricties aan de data
  • CC-BY; de bron van de data wordt duidelijk vermeld bij hergebruik
  • CC-BY-NC; als hierboven met de beperking dat de data alleen non-commercieel gebruikt mag worden
Houd bij het het toekennen van de data licence in gedachte dat het gebruik van de data het beste tot zijn recht komt als er zo min mogelijk beperkingen aan de gebruiksrechten worden opgelegd. NLBIF adviseert om waar mogelijk CC0 te gebruiken en als alternatief CC-BY.

Geographic Coverage
Geef hier een accurate gebiedsbeschrijving van de waarnemingen of de herkomst van de specimen in de dataset.

Taxonomic Coverage
In deze sectie kan in elke detailniveau aangegeven worden welke organismen in de dataset te vinden zijn. NLBIF adviseert hier om zo’n detailniveau te kiezen dat je tot ongeveer 20 taxa hebt in deze sectie. Voor animalia kun je bijvoorbeeld voor de ordes kiezen en bij planten voor families.

Temporal Coverage
Geef de periode van waarnemen of bemonsteren aan.

Keywords
Hier kun je denken aan de grove taxonomische groepen, specifieke onderzoeksgebieden en specifieke onderzoeksmethoden.

Sampling method
Voor de juiste interpretatie van de data is het belangrijk dat de gebruiker weet hoe de onderzoeksdata verzameld zijn. Geef een duidelijke herhaalbare beschrijving van de onderzoeksmethode. In veel gevallen zijn er reeds publicaties geschreven met de onderzoeksdata en is in die artikelen al uitvoerig de onderzoeksmethode beschreven. Het is prima om deze informatie over te nemen (mits u daar de rechten toe heeft!) of naar de onderliggende artikelen te verwijzen in de citations sectie.

Vaak worden er manipulaties op de onderzoeksdata uitgevoerd, denk bijvoorbeeld aan conversies van georeferenties naar een internationale standaard, de toetsing van de taxonomische velden met een breed geaccepteerde soorten checklist of geografische vertroebeling. Dit is zeer belangrijke informatie voor het juist gebruiken van de data en probeer de beschrijving van deze stappen dus altijd op te nemen in de quality control en step description velden.

Data paper genereren

Met behulp van de GBIF IPT is het mogelijk om een zogenaamde datapaper te genereren. Een datapaper is eigenlijk een metadata paper, een artikel waarin je beschrijft dat er data beschikbaar zijn online, wat voor een data dit zijn en waarvoor deze data zijn gebruikt of gebruikt kunnen worden. Op basis van de metadata die in de IPT zijn ingevoerd wordt de datapaper gegenereerd. Verschillende peer-reviewed tijdschriften accepteren deze format van de datapaper automatisch. Zie hier voor meer informatie Neem contact op met de NLBIF coƶrdinator als u serieus overweegt een datapaper te publiceren, NLBIF kan u technisch, inhoudelijk en financieel ondersteunen.