Kokoelmaluetteloiden luominen ja ylläpito

Last modified by Xwiki VePa on 2024/02/07 07:36

Esimerkkejä maailmalta

PöytäkirjOJA PROJEKTIIN Liittyen

2018-12-10 Meeting notes

Nopeusarvio

Eri työvaiheiden nopeuksia/kestoja

Kokoelma

Yksilömäärä kirjattu

Nopeus lajia/tunti

Muuta

Coll. Frey: globaali erilliskokoelma

kyllä

70-150 /h

Nimet katsottu laatikkovalokuvista. Noin 3-5% nimistä jää muiden etikettien peittoon ja pitää tarkastaa kokoelmassa. Joukossa paljon käsikirjoitusnimiä yms., kirjaaminen vaati paljon rinnakkaista googlettamista.

Diptera Fennica

ei

150  /h

Kirjattu paperille kokoelmassa valmiin Suomen lajien luettelon pohjalta. Aika sisältää myös Excel-lomakkeen käyttämisen. Meni noin 30 min kokoelmassa, 30 min tietokoneella.

Diptera Holarctica

ei

70 /h

Käsin nimet kirjoittaen kokoelmassa. Noin 10% nimistä vaatii jälkitarkistuksen, ei löydy yksikäsitteisesti Systema Dipterorumista. Aika sisältää myös Excel-lomakkeen käyttämisen. Moin 15 min kokoelmassa, 15 min tietokoneella.



Työohjeet lajiluetteloiden tekemiseen

Lajiluettelon lataaminen taustatiedoksi

Suomi-luettelo Lajitietokeskuksesta

Taulukkoon ei valitettavasti tällä hetkellä saa heimotietoa mukaan.

  1. Mene lajihakusivulle (https://laji.fi/taxon), hae haluamasi ryhmä, tässä esimerkiksi Odonata
  2. Alaa taksonin sivulta kohta Lataa Suomen lajiluettelo.
  3. Klikkaa lajitaulukon oikean yläkulman rataskuviota, valitse sieltä haluamasi kentät (lähinnä Tieteellinen nimi ja Aukorit).
  4.  Valitsi sivun alareunasta kohta Lataa lajiluettelo.


(CoL osittaisten lajiluetteloiden lataus on näemmä rikki tällä hetkellä.

Maailmanluettelo, Catalogue of Life

  1. Hae haluamasi ryhmä sivulta https://www.catalogueoflife.org/data/browse
  2. Valitse tulossivulta Export search results , tallenna CSV-tiedostoksi (älä avaa suoraan Excelissä)
  3. Alaa Excelissä uusi, tyhjä taulukko. Alaa valikosta kohta Data → From Text [mikä lie suomeksi]. Valitse äsken tekemästi tiedosti.
  4. Valitse lataustyökalussa kenttäerottimseksi (Delimiter) pilkku (comma) ja klikkaile jatka, ok, valmis yms.
  5. Hienosteluna voidaan jakaa nimi ja auktori eri soluihin näillä Excel-kaavoilla, esimerkiksi rivillä 2:
    1. lajinimi: =LEFT(A2;SEARCH("   ";A2;1)) (missä A2 on koko CoL:n nimikenttä)
    2. auktori: =TRIM(RIGHT(A2;LEN(A5)-SEARCH("   ";A2)))
      Tämä toimii niin kauan kuin CoL erottaa nimen ja auktorin ainakin kolmella välilyönnillä, mistä ei ole mitään takuuta.

Raakadatan kirjaaminen kokoelmasta

  1. Hae Excel-pohja  verkkolevyltä (P:\h978\insect\TYPES IN MZH catalogues etc\MZH_taxon_lists_project\Empty_input_table.xlsx).
  2. Tallenna  Excel-pohja eri nimellä, käytä nimeä, josta muutkin tietävät, minkä osan kokoelmasta tiedosto kattaa (esim. ). Täytetyt taulukot kuuluvat P-levylle hakemistoon P:\h978\insect\TYPES IN MZH catalogues etc\MZH_taxon_lists_project\input. Alihakemistoja saa tehdä.

  3. Täyttöohje:
    • Pakollisia kenttiä ovat seuraavat. Ne on merkitty Excelissä ruskealla, jos joku on tyhjä. Muut ovat vapaaehtosia.
      • taxon int. Taksonin tieteellinen nimi ilman auktoria. Heimotason indet yms. kirjataan tyyliin "Scarabeidae indet."
      • present in collection. X = taksoni löytyy löytyy kokoelmasta; ? = epävarma tieto; tyhjä tai muu = ei löydy
      • taxon level. Terminologia kuten Kotkassa. Lisänä chironym = käsikirjoitusnimi
      • family. heimon nimi. Tyhjä jos ei tietoa.
      • record date. Kirjauspäivä-.
      • recorded by. Datan kirjannut henkilö.
      • collection. Kokoelma (Kotkassa käytetty englanninkielinen nimi)
    • Vapaaehtoisia kenttiä. Vapaaehtoisten kenttien nimi on suluissa:
      • Verbatim taxon: käytetään jos nimi jää epäselväksi, eli sitä ei pystytä tulkitsemaan, tai siihen liittyy jotain muuta kummallista
      • Count: yksilöiden (ei näytteiden!) laskettu ja arvioitu määrä
      • Coun_estimated: Y jos lajimäärä on arvioitu, N jos laskettu. Jos tyhjä, lajimäärä tulkitaan lasketuksi.
      • Author: lajin auktoritiedot
      • Notes: sekalaisia huomautuksia
      • Storage type: säilöntätapa, jos poikkeaa kokoelmalle tyypillisestä. Esim. most specimens slide-mounted
      • Geographical data: taxonin näytteiden alkuperäalue, esim. biogeografiset suuralueet ja/tai maat.
    • Jos välilehteen "Taxon list for authorship" kopioi taksonitietoja, taulukko täyttää automaattisesti sarakkeet taxon level, author ja family , jos laji löytyy tuolta välilehdeltä.
  4. Määrittämättömien aineistojen kirjaaminen ei ole välttämätöntä, mutta suositeltavaa. Niiden kohdalla geographical data on tavallistä hyödyllisempi.

Raakadatan hakeminen Kotkasta

Tähän ei ole helppoa keinoa, jos lajeja on paljon (Lajitietokeskuksen Selaa Havaintoja-haun lajiluettelotoiminto on rajattu 1000 lajiin). Vaatii yhteistyötä ICT-tiimin kanssa.

Raakadatan esikäsittely ja validointi

  1. Esimerkki, tässä voisi olla ohje: Verbatim → tulkinta

Raakadatan prosessointi julkaistavaan muotoon

Tämä osio on vielä kesken

  1. Työkalut löytyvät osoitteesta P:/h978/insect/TYPES IN MZH catalogues etc/MZH_taxon_lists_project/
  2. Käännä kaikki Excel-muodossa olevat input-tiedostot Unicode Text-muotoon (avaa Excelissä, Save As →, valitse muodoksi Unicode Text).
    1. Tähän on olemassa massakonversiotyökalu hakemistossa tools, mutta se on vielä aika hankala käyttää. Voidaan ehkä automatisoida jatkossa.
  3. Tee varmuuskopio tiedostosta mzhconfig.ini
  4. Editoi tiedostoa mzhconfig.ini. Uusien luetteloiden sisältö, rakenne yms. määräytyy tätä kautta1. [DEFAULT]-osiossa on kaikille luetteloille yhteisiä tietoja. Jokaisen niistä voi halutessaan korvata luettelokohtaisissa osissa

    1. [data1], [data2] jne. ovat luettelokohtaisia osia. Systeemi tekee jokaista tällaista palaa kohden yhden CSV- ja yhden HTML-tiedoston (jos .ini-tiedostossa vastaavat kohdat writeHTML = 1 ja writeCSV = 1.
      1. delimiter = kenttäerotin. Tyypillisesti ; tai tab
      2. enc = merkkikoodaus. Uudemmilla Excel-versiolla Unicode Text on muotoa utf16 (tai utf8)
    2. sharedhtml on nettitaulukon johdanto. CSV-tiedostolle on vastaavasti cvsfirstline.

    3. flush_GBIF_cache: Jos haluat pakottaa systeemin hakemaan uudestaan kaikki tiedot GBIF:stä, laita tähän arvoksi 1. Huom: uudelleen hakeminen on hyvin hidasta, se kannattaa tehdä esim. kerran vuodessa.

  5. Käynnistä Python-skripti input_to_output.py. Tähän kannattaa käyttää IDLE-työkalua, joka tulee Pythonin mukana, jotta saat mahdolliset virheilmoitukset talteen jne:

    Right-click → Edit with IDLE → Run → Run Module.

Yleisiä bugeja

  • Virheilmoitus "KeyError ... auth" tms: tarkasta, onko mzhconfig.ini tiedoston kohta delimiter oikein, eli onko kenttäerotin tiedostossa oikeasti se, mitä tässä sanotaan.

Luetteloiden julkaiseminen

Kesken. Tähän ohje siitä, miten tuotetut taulukot ja nettisivuteksti laitetaan museon nettisivuille.