Kokoelmaluetteloiden luominen ja ylläpito
Esimerkkejä maailmalta
- http://www.zmuc.dk/EntoWeb/collections-databaser/Diptera/dipterasites.htm
- http://www2.nrm.se/en/diptera.html
PöytäkirjOJA PROJEKTIIN Liittyen
Nopeusarvio
Eri työvaiheiden nopeuksia/kestoja
Kokoelma | Yksilömäärä kirjattu | Nopeus lajia/tunti | Muuta |
---|---|---|---|
Coll. Frey: globaali erilliskokoelma | kyllä | 70-150 /h | Nimet katsottu laatikkovalokuvista. Noin 3-5% nimistä jää muiden etikettien peittoon ja pitää tarkastaa kokoelmassa. Joukossa paljon käsikirjoitusnimiä yms., kirjaaminen vaati paljon rinnakkaista googlettamista. |
Diptera Fennica | ei | 150 /h | Kirjattu paperille kokoelmassa valmiin Suomen lajien luettelon pohjalta. Aika sisältää myös Excel-lomakkeen käyttämisen. Meni noin 30 min kokoelmassa, 30 min tietokoneella. |
Diptera Holarctica | ei | 70 /h | Käsin nimet kirjoittaen kokoelmassa. Noin 10% nimistä vaatii jälkitarkistuksen, ei löydy yksikäsitteisesti Systema Dipterorumista. Aika sisältää myös Excel-lomakkeen käyttämisen. Moin 15 min kokoelmassa, 15 min tietokoneella. |
Työohjeet lajiluetteloiden tekemiseen
Lajiluettelon lataaminen taustatiedoksi
Suomi-luettelo Lajitietokeskuksesta
Taulukkoon ei valitettavasti tällä hetkellä saa heimotietoa mukaan.
- Mene lajihakusivulle (https://laji.fi/taxon), hae haluamasi ryhmä, tässä esimerkiksi Odonata
- Alaa taksonin sivulta kohta Lataa Suomen lajiluettelo.
- Klikkaa lajitaulukon oikean yläkulman rataskuviota, valitse sieltä haluamasi kentät (lähinnä Tieteellinen nimi ja Aukorit).
- Valitsi sivun alareunasta kohta Lataa lajiluettelo.
(CoL osittaisten lajiluetteloiden lataus on näemmä rikki tällä hetkellä.
Maailmanluettelo, Catalogue of Life
Hae haluamasi ryhmä sivulta https://www.catalogueoflife.org/data/browseValitse tulossivulta Export search results , tallenna CSV-tiedostoksi (älä avaa suoraan Excelissä)Alaa Excelissä uusi, tyhjä taulukko. Alaa valikosta kohta Data → From Text [mikä lie suomeksi]. Valitse äsken tekemästi tiedosti.Valitse lataustyökalussa kenttäerottimseksi (Delimiter) pilkku (comma) ja klikkaile jatka, ok, valmis yms.Hienosteluna voidaan jakaa nimi ja auktori eri soluihin näillä Excel-kaavoilla, esimerkiksi rivillä 2:lajinimi: =LEFT(A2;SEARCH(" ";A2;1)) (missä A2 on koko CoL:n nimikenttä)auktori: =TRIM(RIGHT(A2;LEN(A5)-SEARCH(" ";A2))).Tämä toimii niin kauan kuin CoL erottaa nimen ja auktorin ainakin kolmella välilyönnillä, mistä ei ole mitään takuuta.
Raakadatan kirjaaminen kokoelmasta
- Hae Excel-pohja verkkolevyltä (P:\h978\insect\TYPES IN MZH catalogues etc\MZH_taxon_lists_project\Empty_input_table.xlsx).
Tallenna Excel-pohja eri nimellä, käytä nimeä, josta muutkin tietävät, minkä osan kokoelmasta tiedosto kattaa (esim. ). Täytetyt taulukot kuuluvat P-levylle hakemistoon P:\h978\insect\TYPES IN MZH catalogues etc\MZH_taxon_lists_project\input. Alihakemistoja saa tehdä.
- Täyttöohje:
- Pakollisia kenttiä ovat seuraavat. Ne on merkitty Excelissä ruskealla, jos joku on tyhjä. Muut ovat vapaaehtosia.
- taxon int. Taksonin tieteellinen nimi ilman auktoria. Heimotason indet yms. kirjataan tyyliin "Scarabeidae indet."
- present in collection. X = taksoni löytyy löytyy kokoelmasta; ? = epävarma tieto; tyhjä tai muu = ei löydy
- taxon level. Terminologia kuten Kotkassa. Lisänä chironym = käsikirjoitusnimi
- family. heimon nimi. Tyhjä jos ei tietoa.
- record date. Kirjauspäivä-.
- recorded by. Datan kirjannut henkilö.
- collection. Kokoelma (Kotkassa käytetty englanninkielinen nimi)
- Vapaaehtoisia kenttiä. Vapaaehtoisten kenttien nimi on suluissa:
- Verbatim taxon: käytetään jos nimi jää epäselväksi, eli sitä ei pystytä tulkitsemaan, tai siihen liittyy jotain muuta kummallista
- Count: yksilöiden (ei näytteiden!) laskettu ja arvioitu määrä
- Coun_estimated: Y jos lajimäärä on arvioitu, N jos laskettu. Jos tyhjä, lajimäärä tulkitaan lasketuksi.
- Author: lajin auktoritiedot
- Notes: sekalaisia huomautuksia
- Storage type: säilöntätapa, jos poikkeaa kokoelmalle tyypillisestä. Esim. most specimens slide-mounted
- Geographical data: taxonin näytteiden alkuperäalue, esim. biogeografiset suuralueet ja/tai maat.
- Jos välilehteen "Taxon list for authorship" kopioi taksonitietoja, taulukko täyttää automaattisesti sarakkeet taxon level, author ja family , jos laji löytyy tuolta välilehdeltä.
- Pakollisia kenttiä ovat seuraavat. Ne on merkitty Excelissä ruskealla, jos joku on tyhjä. Muut ovat vapaaehtosia.
- Määrittämättömien aineistojen kirjaaminen ei ole välttämätöntä, mutta suositeltavaa. Niiden kohdalla geographical data on tavallistä hyödyllisempi.
Raakadatan hakeminen Kotkasta
Tähän ei ole helppoa keinoa, jos lajeja on paljon (Lajitietokeskuksen Selaa Havaintoja-haun lajiluettelotoiminto on rajattu 1000 lajiin). Vaatii yhteistyötä ICT-tiimin kanssa.
Raakadatan esikäsittely ja validointi
- Esimerkki, tässä voisi olla ohje: Verbatim → tulkinta
Raakadatan prosessointi julkaistavaan muotoon
Tämä osio on vielä kesken
- Työkalut löytyvät osoitteesta P:/h978/insect/TYPES IN MZH catalogues etc/MZH_taxon_lists_project/
- Käännä kaikki Excel-muodossa olevat input-tiedostot Unicode Text-muotoon (avaa Excelissä, Save As →, valitse muodoksi Unicode Text).
- Tähän on olemassa massakonversiotyökalu hakemistossa tools, mutta se on vielä aika hankala käyttää. Voidaan ehkä automatisoida jatkossa.
- Tee varmuuskopio tiedostosta mzhconfig.ini
Editoi tiedostoa mzhconfig.ini. Uusien luetteloiden sisältö, rakenne yms. määräytyy tätä kautta1. [DEFAULT]-osiossa on kaikille luetteloille yhteisiä tietoja. Jokaisen niistä voi halutessaan korvata luettelokohtaisissa osissa
- [data1], [data2] jne. ovat luettelokohtaisia osia. Systeemi tekee jokaista tällaista palaa kohden yhden CSV- ja yhden HTML-tiedoston (jos .ini-tiedostossa vastaavat kohdat writeHTML = 1 ja writeCSV = 1.
- delimiter = kenttäerotin. Tyypillisesti ; tai tab
- enc = merkkikoodaus. Uudemmilla Excel-versiolla Unicode Text on muotoa utf16 (tai utf8)
sharedhtml on nettitaulukon johdanto. CSV-tiedostolle on vastaavasti cvsfirstline.
flush_GBIF_cache: Jos haluat pakottaa systeemin hakemaan uudestaan kaikki tiedot GBIF:stä, laita tähän arvoksi 1. Huom: uudelleen hakeminen on hyvin hidasta, se kannattaa tehdä esim. kerran vuodessa.
- [data1], [data2] jne. ovat luettelokohtaisia osia. Systeemi tekee jokaista tällaista palaa kohden yhden CSV- ja yhden HTML-tiedoston (jos .ini-tiedostossa vastaavat kohdat writeHTML = 1 ja writeCSV = 1.
Käynnistä Python-skripti input_to_output.py. Tähän kannattaa käyttää IDLE-työkalua, joka tulee Pythonin mukana, jotta saat mahdolliset virheilmoitukset talteen jne:
Right-click → Edit with IDLE → Run → Run Module.
Yleisiä bugeja
- Virheilmoitus "KeyError ... auth" tms: tarkasta, onko mzhconfig.ini
tiedoston kohta delimiteroikein, eli onko kenttäerotin tiedostossa oikeasti se, mitä tässä sanotaan.
Luetteloiden julkaiseminen
Kesken. Tähän ohje siitä, miten tuotetut taulukot ja nettisivuteksti laitetaan museon nettisivuille.