Hyönteisnäytteiden syöttäminen Kotka-tietokantaan (Luomus)

Last modified by Jere Kahanpää on 2025/01/13 12:56

Tämä ohje käsittelee hyönteisnäytteisiin liityvän, Kotka-tietokantaan tarkoitetun tiedon muotoilua, vakiotapoja ja yleisimpien virheiden välttämistä. Itse Kotkan käyttämiseen liittyvät perusohjeet löytyvät Kotkan etusivulta.

Ohjeen käyttöohje:

Jos jokin termi tai ajatus tuntuu vieraalta, hyppää kohtaan kokoelmatietokanta Kotka ja lue Kotkan rakenteesta.
MonoSpace-tyylillä on esimerkkejä Kotkaan syötettävistä asioista.
Kursiivilla on merkitty vastaava teksti etiketissä tms. alkuperäislähteessä.

Yleisohjeita

Perusperiaate kaikessa on informaation säilyttäminen tai parantaminen. Kun tietoa tulkitaan, se ei saa muuttua vähemmän tarkaksi.

Työtapoja

Yleisimmät virheet taulukkodatassa

Pidä kaikki solut tekstimuotoisena. Oletusarvoisesti Excel muutta solun 'arvausmuotoilluksi', jos sen sisältö poistetaan leikkaamalla (cut-paste)
Jos solu ei ole tekstimuotoinen, Excel saattaa tehdä yllättäviä temppuja päivämäärille.
Toinen ongelma on desimaalimuotoisten koordinaattien loppunollien katoaminen. Tällaisessa datassa 67.00 ei ole sama asia kuin 67. Jos syöttämäsi luku loppuu nollaan, katso tarkasti, miten se tallentuu! Tarvittaessa Excelin voi aina pakottaa tekstimoodiin lyömällä solun alkuuun '-merkin. Siis '67.00 niin nollat eivät katoa.

Verbatim-kentät ja muut kentät

Kotkassa on kahdenlaisia loogisesti erilaisia kenttiä: verbatim-kentät (nimessä Verbatim, merkitty syöttölomakkeessa beigellä värillä) ja muut kentät.

Verbatim-kenttiin kirjoitetaan tieto täsmälleen sellaisena, kuin se etiketissä lukee. Kirjoitusvirheitä yms. ei korjata.

Hyönteistiimin omia ohjeita verbatim-kentille:

Verbatim-tietoja tallennetaan, kun
- pyritään maksimitarkkuuteen (esim. tyyppiyksilöt)
- tiedon luokittelu tietyn tyyppiseksi tiedoksi on hankalaa/mahdotonta, mutta se halutaan silti talteen. Esim. etikettinä pelkkä "Järvelä" voi olla paikannimi tai henkilönimi.
Verbatim-tekstiin voi lisätä kommentteja []-sulkujen sisään. Tätä kautta voi esim. ilmaista epävarmuutta tai kuvata merkkejä, joita ei pysty helposti kirjoittamaan. Esimerkki: Ytterby Storb[?y/o] [unclear]. Näin voi merkitä myös virheet alkuperäisestä kopioduksi, ei kirjoittajan virheeksi: Jyväksylä [mistake on label].
Verbatim labels-kenttään kirjataan kaikki etiketit. Yksittäiset etiketit erotellaan omille riveilleen (Excelissä solun sisäisen rivinvaihdon saa Alt-Enterillä). Etikettien ylä- ja alapinta erotellaan pystyviivalla |, suomalaisella näppäimistöllä AltGr+< .

Muut kentät sisältävät tulkittua tietoa: niissä pyritään mahdollisimman selkeästi kertomaan, mitä etikettitieto (tai muualta saadut näytteeseen liittyvät tiedot tarkoittavat.

Mitä kenttiä täytän?

Vain muutamia Kotkan kentistä on teknisesti pakko täyttää.

Käytettävät kentät ovat projektikohtaisia: kysy kokoelman tai tallennusprojektin vastuuhenkilöltä, mitkä tiedot ovat pakollisia, mitkä suositeltavia, ja mitkä voi jättää tallentamatta. Kts. kohta Projekti/aineistokohtaisia ohjeita.

Hyönteisnäytteille suosittelemme seuraavaa minimiä Kotkan vaatimien tietojen jatkoksi:

Lajinimi (tms. määritys)
Löytöpaikka (provinssi, maakunta, kunta, muut paikannimet). Katso. kohta Paikkatiedot
Aika. Kts. kohta Aikatiedot.
Etikettiin kirjoitetut koordinaatit. Kts. kohta Koordinaattitiedot
Koordinaattien peruste (ovatko koordinaatit havaitsijan ilmoittamia vai myöhemmin tulkittuja): jos käytät koordinaatteja, täytä joko CoordinateSource tai GeoreferenceSource)
Havaitsija. Kts. kohta Henkilönimet.
Tyyppiyksilökenttien täyttö tyyppiyksilöille TODO: erillinen sivu tyyppiyksilöiden digitoinnille.

Hyvin hyödyllisiä ja yleensä helposti täytettäviä ovat myös

Säilöntätapa (MYPreservation). Tärkeä erityisesti mikroskooppipreparaateille ja nestenäytteille, sillä näytteen käsittelytavat ja huollon tarve riippuvat säilytysaineesta. Mahdollisimman tarkasti, jos tiedossa, esim. SlideEuparal, EthanolExFormalin. Neulatuille näytteille Pinned.
Elinkierron vaihe (MYLifeStage), varsinkin jos jokin muu kuin aikuinen.
Yksilömäärä (MYCount), ainakin nestenäytteet.

Kieli

Kotkaan syötetty dataa näkyy kaikkialle maailmaan. Paikannimet kirjoitetaan esim. englanninkielisen Wikipedian tai Google Mapsin mallin mukaan varsinkin silloin, kun nimi on translitteroitu eli käännetty kirjoitusmerkistöstä toiseen (esim. kyrillisistä latinalaisiin kirjaimiin). Esim. Kirov Oblast, ei Kirovskaja oblast tai Kirovin alue). Koska englanti on tällä hetkellä yleisin ns. maailmankieli, suosittelemme käyttämään englantia vapaateksimerkinnöissä.

Verbatim-kentät säilyttävät tietysti alkuperäiskielensä ja jos mahdollista, merkistönsä.

Kotka tukee Unicode-kirjaimistoa (UTF-8), joten tekstikentissä voi käyttää myös mm. kyrillisiä kirjaimia, sukupuolimerkkejä yms.

Paikannimet

Helppo tapa

Helpoin tapa kirjata paikat on kirjoittaa etikettien paikannimitieto sellaisenaan LocalityVerbatim -kenttään (ja koordinaatit sellaisenaan CoordinatesVerbatim -kenttään). Tulkinnan voi aina tehdä myöhemmin.

Maa

Paikat sijoitetaan siihen maahan, jossa ne tällä hetkellä ovat. Jos paikka ei ole yksikäsitteisesti jotain nykyistä maata—esim. Kuusamo ennen jatkosodan päättymistä—voidaan joko laittaa maa epävarmaksi (? Russia, suurin osa sotaa edeltävästä Kuusamon materiaalista on nykyisen itärajan taaka) tai jättää maakenttä tyhjäksi ja käyttää Higher Geography-kenttää.

Paikkakentät ja niiden käyttö

Kaikki tiedot eivät aina istu kauniisti Kotkan hierarkiseen paikkatietojen logiikkaan (country→province→county→municipality→locality). Jokaisella maalla on oma hallintonsa ja historiansa.

Locality-kenttä ei koskaan ole väärä paikka paikannimelle. Jos jokin paikka ei sovi muihin kategorioihin, laita se Localityyn.
Locality on tarkoitettu paikannimille. Ne erotellaan pilkulla.
LocalityDescripion on tarkoitettu paikan kuvauksille, jotka eivät ole paikannimiä. Esim. "35 miles E of Coocoodurry", "Mäkelän talon lähellä", "Muoniosta itään"
TODO/linjaa: Biologisten asemien nimet voidaan laskea paikannimiksi. Yleensä talojen nimet eivät kuitenkaan ole paikannimiä.
TODO/linjaa: miten käsitellä isojen saaria (Borneo) tai vuorijonona (Western Tien-Shan). Tiukasti ottaen ensimmäinen olisi Locality, toinen LocalityDescripion ?

Suomi (ml. luovutettu alue)

Kunnan nimi merkitään havaintohetken kuntajaon mukaan, jos se on tiedossa, muuten nykyhetken mukaan. Perusperiaatteesta – tieto pysyy tai paranee – näemme, että vanhentuneita paikannimiä ei pidä kadottaa, jos ne tuovat lisätietoa paikasta. Esimerkiksi etiketin Pusulaa ei pidä muuttaa pelkäksi Nummi-Pusulan kunnaksi, vanha kuntanimi on syytä säilyttää Locality-kentässä.

Yleisiä kompastuskohtia:

Etelä-Pirkkala ja Pohjois-Pirkkala olivat erillisiä kuntia: myöhemmin Pohjois-Pirkkala otti nimekseen Nokia ja Etelä-Pirkkala palasi nimeen Pirkkala.
Pyhäjärvi-nimisiä kuntia on Suomessa ollut kolme: luovutetun alueen Pyhäjärvi Vpl (Viipurin lääni), Pyhäjärvi Ol (Oulun lääni, nykyisin Pyhäjärvi) ja Pyhäjärvi Ul (Uudenmaan lääni, nykyisin Karkkilaa). Vanhoja hyönteisnäytteitä on kaikista, mutta eniten Viipurin läänin Pyhäjärvestä.

Jere on koonnut Suomen ja lähialueen paikkojen koordinaatteja Kotkaan sopivassa formaatissa Goodle Driveen (paikkain_src_Finland). Tiedosto päivittyy aika ajoin. Se on oikeastaan tarkoitettu automaattiselle georeferointiohjelmalle. Sarakkeissa A-H on hakuehtoja, sarakkeissa I-W on vastaava Kotka-paikkadata. Paikkakuntalistoja yms. löytyy myös mm. P-verkkolevyltä (esim. P:\h978\insect\digitointi_tukiaineistot\Suomen kunnat ).

Muu maailma

Käytetään ensisijaisesti moderneja nimiä ja Wikipedian tai Google Mapsin kirjoitusasuja. Kts. kohta Kieli.

Jos etikettinimi/nimet poikkeavat paljon nykyisin käytetystä 'Google maps-nimistöstä' eikä vanha nimi oli kansainvälisesti hyvin tunnettu, etiketissä oleva nimi on hyvä kirjata Verbatim-kenttään ja/tai lisätä sopivaan Notes-kenttään huomautus tulkinnasta. Sotien aikainen Petroskoin suomennettu nimi Äänislinna löytyy Google mapsista ja Wikipediasta, joten sitä ei tarvitse selittää. Sen sijaan esimerkiksi siirtomaa-ajan saksalainen Uuden Guinean paikannimistö on hyvä taustoittaa, sitä ei moderneista tietokannoista löydy.

Koordinaatit

Jos havaitsija on ilmoittanut koordinaatit, käytämme niitä, elleivät ne ole selvästi virheellisiä. Tunnettuja virheitä tai muita ongelmatapauksia on listattu sivulle Outoja hyönteisetikettejä.

Koordinaateissa on tärkeää pitää kirjaa siitä, mihin ne perustuvat. Koordinaatteja käytettäessä on aina merkittävä niiden lähde. Jos lähde on havaitsija itse (esim. etiketin kautta), lähdetieto merkitään kenttään CoordinateSource. Etikettikoordinaattien tapauksessa koordinaattien mittaustapa on melkein aina tuntematon, joten CoordinateSource = Unknown.

Jos koordinaatit lisätään jälkikäteen paikannimistä päätellen, lähde merkitään kentäään GeoreferenceSource. Sallitut arvot on lueteltu Kotkan dokumentaatiossa. Yleisiä ovat google, retkikartta, catalogue ja kotka (kotkan oma työkalu).

Lähteen lisäksi on merkittävä koordinaattisysteemi kenttään CoordinateSystem.

TODO: Koordinaattien tarkkuus ja Radius.

Nyky-Suomi

Ylivoimaisesti yleisin koordinaattisysteemi suomalaisissa näytteissä on Yhtenäiskoordinaatisto (YKJ, KKJ). Yhtenäiskoordinaatit kirjoitetaan perinteisesti kaksoinpisteellä erotettuna, pohjoiskoordinaatti ensin, eli 667:38 tai 6670:3389. Kussakin koordinaatissa on 3-7 numeroa. Numeroiden määrä kertoo ruudun koon. Virallinen, ja Kotkan käyttämä, tapa kirjoittaa yhtenäiskoordinaatit on tapa, jossa koordinaatit ovat yhtä pitkiä. Itäkoordinaatin alussa oleva numero on aina 3. Koska numero ei koskaan muutu, se on usein hyönteisetiketeissä jätetty pois, vaikka se rikkoo standardia. Eli koordinaatti 667:38 on todellisuudessa 667:338. Vastaavasti 7674:255 (Saana-tunturin huipun sisältävä ruutu) on virallisesti kirjoitettuna 7674:3255. Yhtenäiskoordinaattien nimi CoordinateSystem-kentässä on ykj.
Vuoden 2000 jälkeen tehdyissä etiketeissä näkee joskus harvoin ETRS-tm35fin -ruutuja. Nämä koordinaatit näyttävät yhtenäiskoordinaateilta, mutta itäkoordinaatti (jälkimmäinen siis) alkaa numerolla 8: 667:838. Kotkaan kirjoitettaessa etrs-tm35fin -koordinaatteja itäkoordinaatin alku-8 jätetään pois: esimerkin oikea syöttömuoto Kotkassa on siis pohjoiskoordinaatti 667, itäkoordinaatti 38, CoordinateSystem = etrs-tm35fin.

Muu maailma (astekoordinaatit)

Lähes kaikkien nettisivujen, ja uudempien etikettien (1990→) astekoordinaatit ovat WGS84-systeemin astekoordinaatteja (tai ainakin melkein niitä).

Astekoordinaatit voidaan kirjoittaa kahdella perustavalla: joko asteiden osina tai asteina, minuutteina ja sekunteina. Esimerkkejä:
- Helsingin keskustan koordinaatit asteiden osina: 60.17° N, 24.94° E. Kotkassa koordinaatit kirjoitaan ilman astemerkkiä (60.17, 24.94) ja CoordinateSystem = wgs84.
- Helsingin keskustan koordinaatit asteina, minuutteina ja sekunteina: 60° 10′ 15″ N, 24° 56′ 15″ E. Hankalien erikoismerkkien paikalle Kotkassa voi kirjoittaa d,m,s näin 60d10m15s, 24d56m15s. Kotka ymmärtää ja printtaa oikeat merkit etiketteihin. Tässä tapauksessa CoordinateSystem = wgs84dms.
Tarkkana etumerkkien kanssa! Klassinen tapa ilmoittaa, millä pallonpuoliskolla ollaan, etel
Lajinäyte
äisistä/pohjoisista leveysasteista tai itäisistä/läntisistä pituusasteista. Etiketeissä nämä on merkitty yleensä kirjaimilla N (pohjoinen), S (etelä), W (länsi), E (itä). Kotka (ja useimmat muut tietokonesysteemit) käyttävät kirjaimien sijaan etumerkkejä: eteläiset leveysasteet ja läntiset pituusasteet ovat negatiivisia. Esim. Rio de Janeiron wgs84-koordinaatit ovat noin
-22.84, -43.28
(siis 22.84° eteläistä leveyttä, 43.28° läntistä pituutta).
Tarkkana järjestyksen kanssa! Joskus koordinaatit on kirjoitettu etiketeissä tai nettisivuilla itä/länsikoordinaatti ensin, eli Helsinki voi olla merkitty 24.94° E, 60.17° N.

Aikatiedot

Kotka ymmärtää kahdenlaisia aikamerkintöjä: päiväys ja vuosi. Kotka lukee päivämäärät suomalaisittain, so. päivä.kuukausi.vuosi (31.12.2021).

Jos DateBegin-kenttään kirjoittaa pelkän vuosiluvun (1912), Kotka laajentaa sen automaattisesti muotoon DateBegin 1.1.1912 , DateEnd 31.12.1912). Kuukauden tarkkuudella kirjoiteutut aikavälit on toistaiseksi kirjoitettava auki käsin: siis VI/1986 → DateBegin 1.6.1986, DateEnd 30.5.1986. Aikaväleillä on oltava alku- ja loppuaika. Kotka ei ymmärrä yhdestä päästä avoimia ajanjaksoja ('ennen vuotta 1905', 'vuoden 1986 jälkeen').

Vinkkejä

Vanhimmat kokoelmamme hyönteisnäytteet ovat 1800-luvun alkupuolelta. Vanhimmat, joissa on päiväys etiketissä, ovat noin 1840-luvulta. Jos vuosi on kirjoitettu kahdella numerolla (28/vii 49), oikean vuosisadan voi yleensä arvata paikannimestä, kirjoitustyylistä ja paperin laadusta.
Päiväyksiä on kirjoitettu etiketteihin kaikenlaisilla tavoilla. Suomessa yleisen PP.KK.VVVV -muodon lisäksi suomalaisissa etiketeissä näkee mm. muotoja VVVV-KK-PP, VV PP/KK VV (päivä ja kuukausi upotettuna vuoteen) ja muitakin. Kuukausi merkitään usein roomalaisilla numeroilla (iii = 3, iv 4, v 5, vi 6, vii 7, viii 8, ix 9, x 10, xi 11). Muissa maissa on käytössä mm. amerikkalainen standardi KK/PP/VVVV, eli kuukausi ennen päivää.

Henkilönimet

Tulkituissa tiedoissa henkilönimet kirjoitetaan muodossa Sukunimi, Etunimet. Ei-henkilönimet kirjoitetaan sellaisinaan, epästandardit lyhenteet tarvittaessa avattuna, esim.
Expedition 1989 Univ. Bonn.

Jos etunimä ei ole etiketillä vai se on lyhennetty, täyden etunimen/etunimet voi lisätä, jos on siitä varma. Tunnettujen hyönteiskerääjien nimiä löytyy esim. vanhan Museowikin puolelta hyönteistiimin sivuilta. Kotkasta hakemalla esim. sukunimellä ja paikannimellä näkee, miten muut ovat tulkinneet nimiä.

TODO: miten etuliitteet van, von yms. käsitellään? 'von Schantz, Max' vai 'Schantz, Max von' vai 'Schantz von, Max'

Kasvatettujen yksilöiden tunnistaminen ja tallentaminen

Kasvatettujen hyönteisten etikettiin on perinteisesti laitettu kasvatuksen lähteen löytöpaikka (esim. toukan tai munitetun naaran löytöpaikka). Ajaksi sen sijaan on usein laitettu aikuisen yksilön kuoriutumisaika, joka voi olla täysin luonnollisesta poikkeava.

Sekaannusten välttämiseksi kasvatettujen yksilöiden havaintoajaksi merkitään vain vuosi: jos alkuperäinen löytövuosi on tiedossa, käytetään sitä, muuten etiketissä olevaa vuotta (joka voi olla löytö- tai kuoriutumisvuosi).

Kasvatetun yksilön tunnistaminen:

Näytteessä on elinkierron eri vaiheiden osia, esim. aikuinen perhonen ja toukkanahka tai kotelokoppa.
Etiketissä on kasvatusmerkintä ex ovo, e.o., EO, ex larva, e.l., EL, ex pupa, e.p., EP tms.
Etiketissä lukee reared, kasv., kl., kläckt tms.

Kokoelmatietokanta Kotka

Käytämme Luomuksessa kehitettyä Kotka-kokoelmatietokantaa. Kotka on suunniteltu ammattikäyttäjille: se on monipuolinen mutta monimutkainen. Kotkan etusivulla on linkit tärkeimpiin yleisiin ohjeisiin. Järjestelmää on muutettu moneen kertaan sen ollessa jo käytössä. Tärkeimmät ohjeet ovat toivottavasti silti ajan tasalla. Kotkan oma ohjesivu sisältää yleisiä ohjeita.

Uusien käyttäjien kannattaa selata läpi sivun Fields used by Kotka kaikki osat: sieltä näkee, mitä kenttiä Kotkassa on, mihin ne on tarkoitettu, ja onko sisältö vapaateksiä vai rajoitettu tiettyihin termeihin.

Kotkaan syötetty data näkyy Lajitietokeskuksessa. Lähitulevaisuudessa sen pitäisi näkyä myös kansainvälisessä GBIF-portaalissa koko maailmalle.

Kotkan tietojen looginen rakenne

Datan syöttäjän on hyvä ymmärtää Kotkan logiikan perusteet. Helpoin tapa tutustua Kotkan logiikkaan on lukea huolellisesti eläindatan syöttölomake ja sen help-kuplat (kysymysmerkki-ikonit). Kotkan logiikkaa on kuvattu tarkemmin sen omassa dokumentaatiossa. Rakenne on puumainen: yksi näyte voi sisältää useita yksilöitä; yhdellä yksilöllä voi olla useita määrityksiä jne.

kokoelmanäyte/specimen

Kotkan perusyksikkö on näyte ('specimen'). Neulatuissa hyönteisnäytteissä näytteeseen kuuluu yleensä yksi yksilö. Nestenäytteissä on usein toisin: yhden kokoelmanäytteen purkissa tai koeputkessa voi olla jopa kymmeniä tuhansia eri lajien yksilöitä. Joskus neulatuissakin näytteissä on useamman lajin edustajia, esim. peto ja sen saalis samassa neulassa.

Jokainen kokoelmanäyte saa oman uniikin näytetunnuksensa (esim. http://id.luomus.fi/GV.2143). Näytteelle yhteisiä tietoja ovat mm. keruupaikka, keruuaika, kerääjä, keruutapa. Näytteeseen sisältyy yksi tai useampia lajinäytteitä.

lajinäyte/unit

Lajinäyte (unit) koostuu kokoelmanäytteen tietyn määritetyn taksonin (usein lajin) yksilöiden tiedoista. Unit-tason tietoja ovat esim tietyn lajin yksilömäärä näytteessä, yksilöiden kehitysaste ja sukupuoli. Kokoelmaan sisältyvien lajinäytteiden näytetyyppi on PreservedSpecimen.

Jokaisella lajinäytteellä on vähintään yksi määritys. Määrityksiä ja niihin liittyviä lisätietoja (kuka määritti, milloin määritti, millä perusteella määritti jne) voi olla useita.
Lajinäyte voi olla yhden tai useamman tieteellisen nimen tyyppinäyte.

Projekti/aineistokohtaisia ohjeita

~~Kotkan kaupungin lahjoituksen digitointi linjastolla~~