Digitointi ja julkaiseminen

Last modified by mqheikki@helsinki_fi on 2024/02/07 06:49

Tyyppinäytteet ovat hajallaan tuhansissa kokoelmissa ympäri maailmaa (Speers 2005). Kun tutkimuksessa tarvitaan tyyppinäytettä, on tutkijalla perinteisesti ollut kaksi vaihtoehtoa näytteen tarkastelemiseen: tutkija voi käydä katsomassa tyyppinäytettä sen säilytyspaikassa (museossa tai muussa laitoksessa), tai pyytää näytettä lainaksi (Mayr & Ashlock 1991, Winston 1999).

Molemmat tavat ovat usein aikaa vieviä ja matkustaminen lisäksi kallista. Näyte voi myös vahingoittua tai kadota kuljetuksen aikana (Ariño & Galicia 2005), jonka takia museoilla voi olla rajoituksia näytteiden lainaamiselle (Winston 1999, keskustelu 2.4.2008, Jyrki Muona). Lisäksi muiden tutkijoiden on hankala päästä käsiksi lainassa olevaan näytteeseen. Näytteiden käyttö onkin yksi taksonomista tutkimusta hidastavista pullonkauloista (Speers 2005, keskustelu 10.3.2008, Gunilla Ståhls, Eläinmuseo, Luonnontieteellinen keskusmuseo).

Tietotekniikka on tuonut kolmannen vaihtoehdon: sen sijaan että liikuteltaisiin ihmisiä tai näytteitä, liikutellaan tyyppinäytteitä koskevaa tietoa tietoverkkojen kautta. Näytteet ja niihin liittyvät näytetiedot voidaan ensin muuttaa digitaaliseen muotoon (eli digitoida) ja sitten julkaista ne internetissä tai lähettää tietoja tarvitseville tutkijoille (Winston 1999, Speers 2005). Perimmäinen syy tiedon säilyttämiselle ylipäänsä on sen mahdollinen käyttäminen uusien hypoteesien (esim. revisioiden) tarkastelussa (Jones ym. 2006). Digitointi tukee juuri tätä.

Nykyään digitoinnin laajuus vaihtelee paljon eri organisaatioiden ja kokoelmien välillä. Eläinmuseon kokoelmista on digitoitu vain pieni osa (Hannu Saarenmaa Luonnontieteellinen keskusmuseo, julkaisematon tieto & keskustelu 15.2.2008, Olof Biström).

Digitointi voidaan määritellä eri tavoilla. Tässä työssä tarkoitan näytteiden digitoinnilla näytteeseen liittyvien erilaisten tietojen tallentamista sähköisessä muodossa tietokoneelle. Se mitä tietoja ja millä tavalla tallennetaan, voi vaihdella.

Digitointi

Digitoinnista on monia etuja näytteiden lainaamiseen ja matkustamiseen verrattuna.

Tutkimus nopeutuu kun tieto on saatavissa heti (Speers 2005, LTKM 2008).
Näytteiden lainaaminen vähenee, kun digitoitu näyte monessa tapauksessa riittää. Tällöin katoamis- ja vahingoittumisriski pienenee. Toisaalta tutkimuksen tehostuessa lainaaminen voi sitä kautta kasvaa.
Monet voivat käyttää tietoja yhtä aikaa.
Tieto on saatavissa pienemmillä kustannuksilla, mikä voi siten lisätä sen käyttöä ja uutta tutkimusyhteistyötä (LTKM 2008). Tämä voi parhaimmillaan johtaa tiedon uudenlaiseen hyödyntämiseen (Jones ym. 2006).
Myös kehitysmaiden tutkijat pääsevät helpommin käsiksi omasta ympäristöstään peräisin oleviin näytteisiin, vaikka niistä merkittävä osa onkin tallennettu länsimaihin. Kehittyneillä mailla on YK:n asettama velvollisuus tämän toteuttamiseen (Speers 2005, LTKM 2008).

Digitointi on myös tapa säilöä ja varmuuskopioida näyte ainakin osittain. Jos kokoelma tuhoutuisi, ainakin digitoitu tieto säilyisi. Vaikka näytteitä säilytettäisiin huolellisesti, ne muuttuvat ajan mittaan. Värien haalistuminen, kemialliset muutokset, tuhohyönteiset ja käsittelyn aiheuttamat vauriot muuttavat näytteitä jatkuvasti (Winston 1999, Utriainen ym. 2006). Tästä syystä näytteet tulisi digitoida nopeasti keräämisen jälkeen, jotta tulos olisi mahdollisimman luonnollinen. Tämä on tärkeää etenkin jos säilöntätapa (esim. alkoholiin säilöminen) tai eliön ominaisuudet (esim. herkästi haalistuvat värit) aiheuttavat nopean muuttumisen.

Lisäksi Suomen luonnon monimuotoisuuden suojelun ja kestävän käytön toimintaohjelmassa (Heikkinen 2007) edellytetään Luonnontieteellisen keskusmuseon aineistojen digitointia. Suomi on myös jäsenenä Global Biodiversity Information Facility -projektissa, jonka sopimus kannustaa jäsenmaita kokoelmien digitointiin (Hannu Saarenmaa, julkaisematon tieto).

Tyyppinäytteet kannattaa siis digitoida. Mitä enemmän ja useammasta organisaatiosta näytteitä digitoidaan ja julkaistaan, sitä käyttökelpoisempi kokonaisuudesta muodostuu.

Julkaiseminen

Pelkkä digitointi ei riitä, vaan tieto täytyy myös saattaa tutkijoiden käyttöön. Digitointi ja julkaiseminen ovat erillisiä asioita, vaikka julkaisemisen yksityiskohdat jäävätkin usein kirjallisuudessa digitoinnin varjoon. Julkaisemiseen on useita tapoja, jotka voidaan jakaa esimerkiksi seuraavalla tavalla:

Ei julkaista. Vaikka näytteet digitoidaan, niitä tai niihin liittyviä näytetietoja ei julkaista, vaan luovutetaan vain pyydettäessä. Tämä on nimistösääntöjen vähimmäissuositus (ICZN 1999, suositus 72F).
Tiedot julkaistaan paperilla. Tieto toimitetaan kokonaisuudeksi, joka julkaistaan paperilla (esim. Webb 1980, Louette ym. 2002, LeCroy 2005).
Tiedot julkaistaan verkossa. Digitoitu tieto kopioidaan tai toimitetaan kokonaisuudeksi, joka julkaistaan verkossa (esim. Silfverberg 2001, Warren & Harrison 2001). Tällöin verkkoa käytetään pelkästään painotuotteen kaltaisen julkaisun jakelukanavana. Nykyäänkin julkaiseminen voidaan jättää tälle tasolle esimerkiksi jos näytetietokanta ei tue seuraavaa tapaa.
Tiedot ovat saatavilla verkossa. Alkuperänen digitoitu tieto on saatavilla verkon kautta reaaliajassa. Tähän suuntaan ollaan menossa: esimerkiksi Specify-näytetietokantaan tallennettu tieto voidaan asettaa saataville verkkoon siten, että tietokantaan päivitettävä tieto on heti saatavilla myös verkon kautta (Specify Software Project 2007). Tällöin poistuu tarve erikseen kopioida tai toimittaa tietoja verkkojulkaisuksi. Tulevaisuudessa näytetietokanta voisi toimia kokonaan verkossa.

Verkkojulkaiseminen

Verkkojulkaiseminen on taksonomian historiassa uusi julkaisutapa. Julkaiseminen on monissa tilanteissa edelleen painottunut paperijulkaisuihin, esimerkiksi kasvien lajinkuvaukset täytyy julkaista paperilla, jotta ne olisivat virallisia (Winston 1999). Verkko on kuitenkin luonteva paikka julkaista tietoja tyyppinäytteistä monien etujensa vuoksi. Ajatus verkon käytöstä ei ole aivan uusi, esimerkiksi Allen pohti näytetietojen välitystä tietoverkon kautta artikkelissaan jo vuonna 1993. Samoihin aikoihin syntyi World Wide Web (WWW, verkko), jonka alkuperäisenä tarkoituksena oli nimenomaan tarjota kanava helppoon tiedonjakoon (Berners-Lee 2000). Nykyään verkon hyödyntämistä nykyistä laajemmin taksonomisen tutkimuksen edistäjänä toivotaan monissa artikkeleissa (esim. Godfray 2002, Scoble 2004, Wheeler ym. 2004). Verkon etuja ovat muun muassa:

Tietojen jakaminen verkossa on teknisesti helppoa (LTKM 2008).
Tietoa voi helposti täydentää uudella tiedolla, joka tulee heti tutkijoiden käytettäväksi, sen sijaan että uutta tietoa julkaistaisiin harvoin suurissa erissä (Scoble 2004).
Havaitut virheet voidaan korjata saman tien suoraan alkuperäisjulkaisuun, eikä korjauksia tarvitse etsiä erillisistä virheluetteloista.
Julkaisemisen kustannukset riippuvat tietomäärästä selvästi vähemmän kuin paperijulkaisuissa. Täten voidaan julkaista enemmän tietoa (esim. enemmän ja tarkempia kuvia) ja selkeämmässä muodossa (esim. ilman lyhenteitä) (Scoble 2004).
Voidaan julkaista sisältötyyppejä, jotka eivät toimi paperilla, esimerkiksi videokuvaa tai kolmiulotteisia malleja (van Zanten ym. 2005, keskustelu 11.2.2008, Jyrki Muona).
Tiedot ovat saatavissa kaikille, joilla on internet-yhteys (olettaen että tietojen käyttöä ei rajoiteta esimerkiksi tilausmaksuin).
Tietoja voi helposti linkittää keskenään, jolloin niiden käyttö on helppoa vaikka ne sijaitsisivatkin eri paikoissa (Scoble 2004). Näytetietoihin voidaan linkittää suoraan esimerkiksi revisioista, jos nekin julkaistaan verkossa, kuten Scoble (2004) ennakoi.
Tietojen avoin julkaisu internetissä voi houkutella rahoittajia (Scoble 2004).
Eläinten nimistösäännöstö suosittelee että organisaatioiden tulisi luovuttaa tietoja nimeä kantavista tyyppinäytteistään niitä pyytäville (ICZN 1999, suositus 72F). Jos tiedot ovat jo valmiiksi tarjolla tarpeet täyttävällä tavalla, ei tämän suosituksen täyttäminen toisi enää lisätyötä.
Sähköisiä artikkeleita luetaan ja niihin viitataan huomattavasti useammin kuin pelkästään paperilla julkaistuihin (Jones ym. 2006). Sama voi hyvin päteä myös näytetietoihin.
Tietoa voi hakea automaattisesti, nopeammin ja usein monipuolisemmin kuin paperijulkaisuista. Tämän ja seuraavien kohtien toteutumisen taso riippuu siitä miten julkaiseminen teknisesti toteutetaan.
Tietoja voidaan analysoida tietoteknisesti.
Julkaisemisessa voidaan hyödyntää vuorovaikutteisuutta esimerkiksi määrityskaavoissa (Scoble 2004) ja tiedon tallentamisessa.

Verkossa tietoa voi käyttää vuorovaikutteisesti. Sen sijaan että tietoa tarjottaisiin yksisuuntaisesti organisaatiosta ulos, vuorovaikutteisuuden ideana on, että tiedon käyttäjät voivat tuoda siihen oman lisänsä. Näytettä tarkastelevat tutkijat voisivat tehdä digitoituihin tietoihin korjauksia tai lisäyksiä riippumatta olinpaikastaan. Näin osa digitointityöstä siirtyisi tiedon käyttäjille. Lisäyksiä tehtäessä kuitenkin olisi ratkaistavana ainakin osallistujien ja tietojen luotettavuuden arviointi. Tämäntyyppistä vuorovaikutuksen lisääntymistä on tapahtumassa verkkopalveluissa yleisesti (Salmenkivi & Nyman 2007). Myös Luonnontieteellisen keskusmuseon Luomus-projektissa on pohdittu ulkoisen työvoiman hyödyntämismahdollisuuksia etikettitekstien kirjoittamisessa verkon kautta (Luonnontieteellinen keskusmuseo, julkaisematon tieto ja keskustelu 3.3.2008, Joachim von Schantz, ATK-jaosto, Luonnontieteellinen keskusmuseo). Myös Chapman (2005b) suosittelee palautteen hankkimista käyttäjiltä.

Verkkojulkaisemisella on myös haittapuolensa:

Tietojen käyttö vaatii toimintavarmaa internet-yhteyttä. Tämä voi merkittävästi rajoittaa käyttöä etenkin kehitysmaissa, joissa yhteyttä ei aina ole, tai se voi olla hyvin hidas ja epäluotettava (Aronson 2007).
Verkkosivujen toimivuus on joskus epävarmaa (Scoble 2004).
Jos tietoa päivitetään, aiempaan tietoon ei voida enää viitata tai palata. Tämän ongelman voi ratkaista säilyttämällä näkyvillä myös kaikki aiemmin julkaistut versiot (s. 35).
Internetissä voidaan julkaista mitä tahansa, minkä takia tiedon käyttäjän on kiinnitettävä laadunvarmistukseen on enemmän huomiota. Varmistus voitaisiin tehdä myös vertaisarviointina tiedeyhteisön toimesta (Scoble 2004).
Toteutus voi vaatia ohjelmistoja, joita ei ole halvalla tai nopeasti saatavilla. Tämä riippuu tarpeista. Toisaalta julkaisu voidaan hoitaa myös samalla ohjelmistolla, jolla pidetään kirjaa kokoelman sisällöstä (Scoble 2004). Tällaiseen käyttöön on suunniteltu esim. ilmaiseksi jaettava Specify-näytetietokanta (Specify Software Project 2007).
Palvelun ylläpito vaatii resursseja myös julkaisemisen jälkeen (Scoble 2004, Jones ym. 2006). Resurssien loppuessa sisältö katoaa, ellei sitä siirretä jonkun muun ylläpidettäväksi.
Käyttö voi olla hankalampaa kuin paperijulkaisujen. Tämä riippuu tilanteesta ja toteutustavasta, ja voi olla muuttumassa tulevaisuudessa (Scoble 2004).

Edellä esitetyn perusteella tyyppinäytteet kannattaa digitoida ja julkaista verkossa. Tätä onkin tehty jo melko pitkään. Internetistä löytyy vähintään kymmeniä sivustoja (ks. viitteet liitteessä 1), joilla esitellään eri tavoin digitoituja tyyppinäytteitä museoista ympäri maailmaa. Valokuvia tyyppinäytteistä on verkossa tuhansia (Ariño & Galicia 2005). Erilaisten taksonomiseen tutkimukseen liittyvien tietokantojen määrä museoiden ja herbaarioiden verkkosivuilla on kasvussa (Scoble 2004). Käytetyt digitointi- ja julkaisutavat ja sitä kautta tietojen laatu sekä niiden esitystapa vaihtelevat näissä kuitenkin huomattavasti.

Myös verkkojulkaisun ongelmien ratkaisemiseksi täytyy tehdä työtä monella saralla. Syvällinen tarkastelu siitä miten julkaiseminen kannattaa tehdä, ei kuitenkaan kuulu tämän työn aihepiiriin. Muun muassa Meng (2004), Scoble (2004) ja Jones ym. (2006) esittelevät monia erilaisia verkkopohjaisia palveluja ja infrastruktuuria näytetiedon välittämiseen.

Tutkijoiden ja tutkimuslaitosten tarpeita

Yksi hyvän tiedonhallinnan periaatteista on tiedon käyttäjien tarpeiden selvitys (Chapman 2005b). Osana tätä työtä selvitin kirjallisuudesta ja Eläinmuseon tutkijoilta tyyppinäytteiden käyttöön liittyviä tarpeita, joihin digitoinnilla ja julkaisemisella voidaan vastata.

Näytteiden ja lajinkuvausartikkelien etsiminen

Tyyppinäytteiden sijainnin selvitys voi olla hankalaa. Näytteitä voidaan eri tilanteissa etsiä eri kriteerien perusteella. Tyyppinäytestatusta tarkistettaessa näytettä voidaan etsiä sille designaatiossa liitetyn lajinimen mukaan, jos selvitys lähtee liikkeelle lajinkuvausartikkelista. Jos lajinimiä ei ole digitoitu tai muuten koottu yhteen, etsiminen alkaa helpoiten kuvaajan nimen perusteella käyttäen esimerkiksi Hornin ja Kahlen (1935 & 1936) luetteloita kokoelmien sijainneista (Jyrki Muona, keskustelu 2.4.2008).

Jos tarkistus aloitetaan näytteestä, tarvitaan kirjallisuusviite lajinkuvausartikkeliin, tai sen tekijän nimi ja kuvausvuosi, joiden perusteella artikkelin voi etsiä.

Kun revisiotutkimuksessa käsitellään suurempaa ryhmää (kuten sukua tai heimoa), täytyisi löytää näytteet, jotka voivat kuulua tähän ryhmään, riippumatta siitä mihin nimeen ne on designaatiossa liitetty ja mihin ylempään taksoniin sijoitettu (keskustelu 15.2.2008, Olof Biström). Tällöin tarvitaan ainakin tieto lajinimen vanhemmasta synonyymistä. Myös tieto luokitteluhierarkiasta sekä valokuvat mahdollisimman monista tyyppinäytteistä ovat hyödyksi.

Tietokantojen käyttö

Kuten edellä totesin, tietoja tyyppinäytteistä on julkaistu lukuisissa julkaisuissa ja tietokannoissa. Parasta olisi jos tietoa voisi hakea yhdestä keskitetystä paikasta useiden eri tavalla toimivien lähteiden läpikäynnin sijasta (keskustelu 15.2.2008, Olof Biström). Nykyään on suunnitteilla useita portaaleja, joiden kautta kokoelma- ja näytetietoihin pääsee käsiksi (esim. GBIF, BioCASE ja BCI, katso esim. Laihonen 2003), mutta vaikuttaa siltä, että niitä ei voi nykymuodossaan käyttää tyyppinäytteiden etsintään em. tavalla.

Ennen kuin portaalit kehittyvät riittävästi, näytteitä voi yrittää etsiä tavallisten hakukoneiden (esim. Google) avulla. Jos digitoidut tiedot julkaistaan verkossa hakukoneystävällisellä tavalla, ne voi löytää helposti näinkin. Kokeilin etsiä digitoituja tyyppinäytteitä tyyppinäytetietokannoista poimituilla lajinimillä Googlen avulla. 18 tyyppinäytettä 22:sta löytyi helposti (Liite 2). Verkkojulkaisun hakukoneystävällinen suunnittelu on kokemukseni perusteella helppoa, kunhan asia otetaan suunnittelussa huomioon alusta alkaen.

Näytteiden valinta

Tyyppinäytteiden etsiminen ja hankinta ovat yksi taksonomisen työn pullonkauloista. Valokuvien näkeminen näytteistä auttaisi päättämään mitkä näytteet ovat tutkimustyössä olennaisia. Näin voidaan sivuuttaa osa näytteistä epäolennaisina ja tutustua tarkemmin muihin. "Peruskuvatkin" auttaisivat tässä paljon, kuvien ei tarvitse olla Ariñon & Galician (2005) määritelmän mukaan "taksonomista laatua" (Speers 2005, Harvard College 2006, keskustelu 15.2.2008, Olof Biström, keskustelu 10.3.2008, Gunilla Ståhls).

Näytteiden käyttö

Eri lajiryhmillä käytetään lajinmäärityksessä erilaisia tuntomerkkejä. Näiden digitoitavuuden vaikeus vaihtelee. Esimerkiksi kovakuoriaisilla ja kukkakärpäsillä määrityksessä käytetään paljon genitaalipreparaatteja, joita on usein vaikea kuvata. Perhosilla ja linnuilla käytetään enemmän ulkoisia tuntomerkkejä, joiden kuvaaminen on helpompaa (keskustelu 11.2.2008, Jyrki Muona, keskustelu 10.3.2008, Gunilla Ståhls). Näin ollen riippuu lajiryhmästä kuinka tarkasti tuntomerkkien digitointia on järkevää yrittää. Kovakuoriaisista kannattaa ottaa yleiskuvia, ellei preparaattia ole valmiina.

Tietojen virheettömyys

Digitoitujen tietojen tulisi olla virheettömiä. Jos tieto on tarkistettu, tulisi tarkistustavasta olla merkintä (Chapman 2005b). Merkittävä tarkistuskohde on tyyppinäytestatus, koska tämän tiedon tiedetään olevan usein virheellinen tai puutteellinen (ks. s. 4).

Sijoituspaikka

Nykyään nimistösäännöstö vaatii että nimeä kantavan tyypin sijoituspaikka mainitaan lajinkuvauksen yhteydessä (ICZN 1999). Sijoituspaikkoja esitellään myös kokoelmaluetteloissa (esim. Horn & Kahle 1935 ja 1936). Jotta näytteen voisi löytää tämän tiedon perusteella vaikka sijoituspaikka olisi muuttunut, kannattaa tallentaa myös tieto aiemmista sijoituspaikoista ja kokoelmista (esim. keneltä näyte saatu lahjoituksena).

Samanaikainen käyttö

Lainattaessa näyte on käytännössä varattu yhden tutkijan käyttöön, usein pitkäksi aikaa (keskustelu 11.2.2008, Jyrki Muona). Digitointi ja julkaiseminen ratkaisevat tämän ongelman.

Tutkimustyön nopeutuminen lainojen vähentyessä

Verkkojulkaisu voi nopeuttaa tutkimustyötä, kun tieto on saatavissa heti verkosta (Speers 2005, LTKM 2008). Tästä syystä verkossa kannattaa pitää kaikkea olemassa olevaa tietoa (esim. kuvat suurikokoisina), ettei sitä tarvitse erikseen pyytää. Sen sijaan tyyppinäytteitä hallussaan pitävä organisaatio tuskin saavuttaa digitoinnilla kustannushyötyjä, sillä lainaamisen kustannukset ovat suhteellisen pieniä (keskustelu 15.2.2008, Olof Biström).

Viitattavuus

Vaikka verkkojulkaisut eivät ole yhtä pysyviä kuin perinteiset paperijulkaisut (esim. Scoble 2004), ovat ne viitattavuuden kannalta edistysaskel aiempaan verrattuna. Toisin kuin lainattavaan tai paikan päällä tutkittavaan aineistoon, verkkojulkaisuun voi viitata helposti seurattavalla tavalla. Tyyppinäytetietokantoja tulisikin tarkastella paitsi julkaisuina, myös tutkimusaineistona. Yleistyvänä käytäntönä on tutkimuksen aineiston julkaiseminen tutkimustulosten ohessa (LTKM 2008, keskustelu 11.2.2008, Jyrki Muona). Valmis verkossa julkaistu tyyppinäytetietokanta säästäisi tutkijan työtä tältäkin osin.

Viittaamista varten verkossa julkaistussa tietokannassa tulisi olla viittaamisessa tarvittavat perustiedot: tekijä, julkaisuvuosi, otsikko, julkaisijaorganisaatio (SFS 1998, AZF julkaisuaika tuntematon). Käytännössä tyyppinäytetietokantojen julkaisutiedot ovat usein puutteelliset (esim. CAS julkaisuaika tuntematon, NHM julkaisuaika tuntematon, LACM julkaisuaika tuntematon). Myös pysyvä ja yksilöllinen URL-osoite tietokannalle ja kullekin näytteelle helpottaa viittaamista. Parasta olisi että myös näytetietojen eri versioihin voisi viitata (ks. s. 35)

Kokoelmien hallinta

Tarve kokoelmien hallintaan organisaation sisällä on yksi kannustin digitointiin (Scoble 2004). Kun näytetiedot ovat sähköisessä tietokannassa, näytteet on helpompi löytää kuin jos näytetietoja ei olisi koottu mihinkään.

Tiedon pysyvyys ja vapaa käyttö

Verkkopalvelujen toimivuus ja pysyvyys ei aina ole taattua (Scoble 2004), toisin kuin paperijulkaisuilla, joiden arkistoinnista tiedon käyttäjä voi itse huolehtia. Luottamusta digitoitua aineistoa kohtaan voitaisiin parantaa tarjoamalla tutkijoille mahdollisuus aineiston tallentamiseen heille itselleen (omalle tietokoneelle). Ashburnerin (2002, artikkelissa Scoble 2004) mukaan tällainen tiedon vapaa käyttö on olennaista taksonomian kehitykselle.

Preparaatit ja analyysit

Monilla hyönteisryhmillä lajinmääritys on varminta preparaateista (usein genitaalipreparaateista). Siksi on tärkeää tietää onko näytteestä tehty preparaatteja ja missä ne ovat (keskustelu 10.3.2008, Gunilla Ståhls, keskustelu 15.2.2008, Olof Biström).

Myös näytteestä tehdyistä analyyseistä ja niiden tulosten sijainnista on hyvä liittää tieto näytteen yhteyteen, esimerkiksi sekvensoinnin geenipankkinumero ja/tai laboratoriokoodi (keskustelu 10.3.2008, Gunilla Ståhls).

Etikettitiedot

Etikettitietoja voidaan käyttää mm. näytteen yksilöinnissä tyyppistatusta selvitettäessä ja etsittäessä artikkeleita, joissa näytettä on käsitelty (keskustelu 11.2.2008, Jyrki Muona, keskustelu 15.2.2008, Olof Biström). Siksi kaikki etikettitiedot ovat hyödyksi ja kannattaa digitoida.

Digitoinnin ja julkaisemisen sisältötasot

Tyyppinäytteistä voidaan digitoida ja julkaista erilaisia tietoja. Nämä voidaan jakaa neljään eri tasoon:

Kokoelmaluettelo: Tieto minkälaisia tyyppinäytteitä organisaatiolla on. (Usein digitointi ja tietojen julkaiseminen koskee yhden organisaation, kuten museon näytteitä, mutta rajaus voi perustua myös esimerkiksi näytteiden keruupaikkaan. Esimerkiksi Crosby & Dugdale (1996) esittelevät Uudesta-Seelannista peräisin olevia näytteitä. Tässä työssä asiaa käsitellään yhden organisaation kannalta.)
Lajiluettelo: Luettelo mistä lajeista organisaatiolla on tyyppinäytteitä.
Digitoitu näyte: Ainakin näytetiedot (mitä etiketeissä lukee) ja valokuva jokaisesta tyyppinäytteestä.
Virtuaalinäyte: Niin tarkat tiedot tyyppinäytteestä että alkuperäisen näytteen käsittely on tarpeetonta.

Ensimmäisen tason täyttäminen on helpointa. Sitä kannattaa käyttää jos resursseja muiden tasojen täyttämiseen ei ole. Seuraavia tasoja on vaikeampi saavuttaa, mutta pitkän ajan kuluessa tai tutkimuksen edistämisen kannalta niiden tavoittelu voi olla parasta.

Kaikkien tasojen yhteydessä kannattaa myös suosituksen 72F (ICZN 1999) takia julkaista ohjeet siitä, miten näytteitä lainataan tai niitä voi tulla tutkimaan, sekä yhteystiedot, jotta näytteistä voi kysyä lisätietoja.

Taso 1: kokoelmaluettelo

Helpointa on julkaista pelkästään kuvailevaa tietoa siitä, minkälaisia tyyppinäytteitä organisaation hallussa on (ja mahdollisesti kuinka paljon). Näin kokoelmien olemassaolo saadaan yleiseen tietoisuuteen, mikä voi helpottaa hieman näytteiden etsimistä. Jaottelu voidaan tehdä lajiryhmän tai kerääjän perusteella. Vanhemmat kokoelmat on usein järjestetty ne keränneen tai koonneen henkilön mukaan (esimerkiksi Mannerheimin kovakuoriaiskokoelma Eläinmuseossa ja V. F. Brotheruksen sammalkokoelma Kasvimuseossa (LTKM 2004)), jolloin kerääjän mukainen jaottelu on helppoa toteuttaa.

Tietoa kokoelmista voidaan kutsua myös metatiedoksi (ks. metatiedosta s. 37). Perinteisesti kokoelmatieto on löytynyt tätä varten kootuista oppaista, esimerkiksi kokoelmien sijainnit ne keränneen henkilön mukaan Hornin ja Kahlen (1935 & 1936) oppaista.

Metatiedon aiempaa tehokkaammaksi jakelemiseksi on käynnistetty erilaisia projekteja, kuten BioCASE (BioCASE julkaisuaika tuntematon) ja The Biodiversity Collections Index (BCI julkaisuaika tuntematon). Niiden tarkoitus on koota yhteen metatietoa erilaisista kokoelmista helpommin käytettäväksi.

Taso 2: lajiluettelo

Lajiluettelo kertoo minkä lajien tyyppinäytteitä organisaatiolla on hallussaan. Tämä on perinteinen tapa julkaista tietoja tyyppinäytteistä. Luettelo voidaan julkaista tieteellisessä sarjassa tai verkossa (katso viitteet liitteessä 1).

Eläinten nimistösäännöstö suosittelee, että organisaatiot julkaisisivat tiedot nimeä kantavista tyypeistä tällä tarkkuudella (ICZN 1999, suositus 72F.4). Myös Luonnontieteellisen keskusmuseon periaatteet kokoelmatietokantojen avoimuudesta (LTKM 2008) edellyttävät digitoitujen tietojen julkaisua vähintään tällä tasolla.

Luettelossa voidaan kertoa muitakin tietoja, yleisimmin lajin kuvaajan nimi (auktori) ja kuvausvuosi (ks. Liite 1). Verkossa tila ei ole rajoitteena, joten samalla voidaan julkaista myös näytteisiin liittyviä näytetietoja ja kommentteja periaatteessa rajattomasti. Tällöin lähestytään seuraavaa julkaisemisen tasoa.

Taso 3: digitoitu näyte

Tällä tasolla tavoitteena on, että digitoitu versio näytteestä korvaa fyysisen näytteen monissa tilanteissa, joissa nykyään täytyy tarkastella todellista näytettä. Digitoituja näytteitä tarkastelemalla tutkija voi päättää mitkä näytteet ovat varsinaisessa tutkimustyössä oleellisia. Tämä taso täyttäisi nimistösääntöjen (ICZN 1999) suosituksen 72F.5 sellaisenaan, ilman että tietoja tarvitsisi aina erikseen pyydettäessä lähettää.

Yksinkertaisimmillaan digitoitu näyte voi olla valokuva näytteestä ja etiketeistä liitettynä auktorinimeen (esim. Larivière & Rhode 2002). Tällä tavalla digitoitua tietoa on kuitenkin hankala käsitellä, kuten esimerkiksi hakea. Parempi olisi, jos tiedot voitaisiin lisäksi tallentaa tietokantaan tekstimuodossa (ks. s. 25).

Digitoinnin voi myös tehdä hyvin yksityiskohtaisesti ja perusteellisesti. Kustakin näytteestä on teknisesti mahdollista esittää satoja kuvia. Monenlaisia näytetietoja voidaan koota eri lähteistä, tarkistaa, täydentää ja tulkita. On kuitenkin tarpeen miettiä, kuinka tarkkoja tietoja tarvitaan, sillä tarkka tietojen käsittely hidastaa digitointia. Toisaalta tietojen kunnollinen käsittely kerralla vaatii vähemmän työtä kuin tarkistaminen tai täydentäminen jälkeenpäin (Chapman 2005b).

Taso 4: virtuaalinäyte

Jotta todellisten näytteiden käsittelyltä vältyttäisiin, olisi näyte digitoitava niin hyvin, että digitaalinen näyte korvaisi alkuperäinen näytteen tutkimustyössä kokonaan. Virtuaalinäytteellä tarkoitan tällaista digitoinnin tulosta. Ariño ja Galicia (2005) ja Harvardin yliopiston valokuvausohjeet (Harvard College 2006) esittävät, että valokuvaustekniikka on edennyt niin pitkälle, että periaatteessa huolellisesti kuvaamalla voidaan tallentaa (ulkoiset) tuntomerkit niin hyvin, että kuva voisi korvata näytteen tutkimustyössä.

Virtuaalinäyte ei kuitenkaan liene käytännössä mahdollinen: Tällaista tilannetta voidaan tavoitella periaatteessa, muttei saavuttaa käytännössä. Valokuvasta saatava tieto rajoittuu ulkoisiin tuntomerkkeihin, eikä niistä saada tietoa esimerkiksi molekyylibiologisista tuntomerkeistä (Speers 2005). Jossain vaiheessa tulee varmasti vastaan raja, jonka jälkeen todellisen näytteen käsittely on helpompaa (riippumatta sen sijainnista) kuin vastaavan tarkkuuden saavuttaminen digitoimalla jokainen näyte ennalta (esim. sekvensoimalla sen koko genomi).

Lisäksi tieteen ja tekniikan kehittyessä keksitään todennäköisesti jatkuvasti uusia tapoja tutkia näytettä (esim. tomografiakuvaus, uudet molekyylibiologiset analyysit), sekä uusia tuntomerkkejä taksonomiassa käytettäväksi. Näitä kaikkia tuskin voidaan ennakoida (myös keskustelu 11.2.2008, Jyrki Muona). Todellista näytettä tarvitaan siis jatkossakin.

Edellä esittämäni perusteella kolmannen tason tavoittelu on suositeltavinta. Tarkempi digitointi helposti aiheuttaa enemmän työtä kuin säästää. Jatkossa käsittelen digitointia nimenomaan tällä tasolla. Tasoa neljä ei kuitenkaan tule välttää, jos sen tavoitteluun on selkeä syy. Tarkka digitointi voi olla tarpeen myös digitointiprojektin ulkopuolisissa tutkimuksissa tai projekteissa (esim. valokuvaaminen määritysoppaita varten tai sekvensointi fylogenian tutkimiseksi). Näin syntyvä tieto voidaan myös liittää muun digitoidun aineiston joukkoon.

Mitä tietoja julkaista?

Tietojen julkaisua tai näkyvyyttä verkossa voidaan tarvittaessa rajoittaa. Pääsääntöisesti kaikki digitoitu tieto kannattaa kuitenkin julkaista, koska:

Tieteessä on perusoletuksena että kokoelmat ovat koko tiedeyhteisön omaisuutta, eivät pelkästään niitä hallussaan pitävän organisaation (Mayr & Ashlock 1991). Tältä kannalta on järkevää saattaa kokoelma koko tiedeyhteisön avoimesti käytettäväksi. Useilla tieteenaloilla aineiston avoimuus on jo normi (LTKM 2008).
Avoimuuden katsotaan usein edistävän tiedettä (Ashburner 2002 Scoblen (2004) siteeraamana, Jones ym. 2006, LTKM 2008).
Luonnontieteellisen keskusmuseon periaatteena on, että museon kokoelmatietokannat ovat avoimessa yhteiskäytössä (LTKM 2008). Avoimuutta korostetaan myös ympäristön seurannan kehittämisselvityksessä (Utriainen ym. 2006) sekä Suomen luonnon monimuotoisuuden suojelun ja kestävän käytön toimintaohjelmassa (Heikkinen 2007).

Poikkeuksena ovat harkinnan mukaan paikkatiedot uhanalaisista lajeista ja meneillään olevaan tutkimukseen liittyvä raakatieto: näiden julkaisemista voidaan tarvittaessa rajoittaa (LTKM 2008). Julkaistaessa tulee myös huomioida tekijänoikeudet. Esimerkiksi valokuvien julkaisemiseen tarvitaan kuvaajan lupa.

Miten tallentaa tiedot?

Tähän mennessä on käsitelty tietojen esittämistä ihmisille suunnatussa muodossa, eli käytännössä vapaamuotoisena tekstinä ja kuvina. Usein on suotavaa, että tiedot ovat myös tietokoneiden ymmärtämässä muodossa. Tällöin niitä voidaan helpommin käyttää (analysoida, muuntaa, hakea tms.) tietokoneen avulla sekä välittää tietojärjestelmästä toiseen.

Tietokoneet vaativat tiedolta selkeämpää rakennetta kuin ihmiset. Tieto voidaan saattaa tietokoneen ymmärtämään muotoon käyttämällä tietomallistandardeja tai näytetietokantojen omia tietomalleja. Niissä tieto esitetään ennalta määritellyllä ja yhtenäisellä tavalla (Graham ym. 2004, Meng 2004, Jones ym. 2006, Utriainen ym. 2006).

Näytetietojen välitykseen tietojärjestelmästä toiseen on olemassa kaksi yleisessä käytössä olevaa tietomallistandardia: Darwin Core ja ABCD. Niiden avulla voidaan välittää tietoa hyvin vaihtelevista kohteista ja erilaisista lajiryhmistä (Utriainen ym. 2006, Berendsohn 2007, TDWG 2007). Luonnontieteellisen keskusmuseon rakenteilla oleva näytetietokanta perustuu FMNH2008-tietomalliin, joka on yhteensopiva ABCD:n version 2.06 kanssa (keskustelu 29.2.2008, Tapani Lahti, Luonnontieteellinen keskusmuseo).

Tietomallit kannattaa ottaa huomioon jo digitoitaessa, jotta tiedon käyttö myöhemmin eri tavoilla on vaivatonta. Luonnontieteellisen keskusmuseon näytteet kannattaakin suoraan digitoida FMNH2008-mallin kanssa yhteensopivalla tavalla.

Yhteensopivuus tietomallien kanssa asettaa tiedolle kolme vaatimusta. Tiedon täytyy olla

tekstimuodossa
pilkottuna sopiviin osiin (tietokenttiin)
standardoidussa muodossa (Meng 2004, Blum 2000).

Esimerkiksi pelkkä valokuva keruupaikan kertovasta etiketistä riittää välittämään tiedon ihmiselle. Tietokoneita varten sen sisältö täytyy kirjoittaa tekstimuotoon. Lisäksi ihmiselle ymmärrettävä paikan kuvaus "Suomi, Suomenlinnan lautan lähtöpaikka Helsingissä" voidaan jakaa tietokenttiin aluetasoittain (maa, kunta, paikka) ja muuttaa kukin paikannimi viralliseen perusmuotoonsa (Suomi, Helsinki, Kauppatori). Tällöin tietoa voidaan käsitellä automaattisesti, esimerkiksi hakea näytteitä kaupungin nimen perusteella. Lisäksi tieto kannattanee kääntää englanniksi, jos sitä on tarkoitus käsitellä kansainvälisesti. Digitoitaessa ainakin liitteessä 3 pakolliseksi merkityt näytetiedot kannattaa muuttaa tekstiksi.

Usein tiedon helppo käyttö vaatii vielä sen tulkintaa ja täydennystä sekä virheiden etsintää ja korjausta (Graham ym. 2004, Chapman 2005a & 2005b). Esimerkiksi, jotta keruupaikka voitaisiin sijoittaa kartalle, tarvitaan paikan koordinaatit (ks. s. 56).

Mitä tyyppinäytteitä digitoida?

Jos kaikkia tyyppinäytteitä ei voida digitoida, työtä voi priorisoida eri tavoin, esimerkiksi:

Ensin nimeä kantavat tyypit, koska niillä on suurin merkitys tutkimukselle.
Ensin tyypit, joiden tyyppistatus on varmistettu.
Järjestyksessä esimerkiksi kokoelmalaatikoittain, koska laatikoiden käsittely vie aikaa.
Digitoidaan enemmän, mutta matalammalla tasolla.

Ratkaisu kannattaa tehdä tapauskohtaisesti. Huomioon kannattaa ottaa aiheuttaako digitoinnin jättäminen myöhempään vaikeuksia, esimerkiksi jos näytteet sijoitetaan myöhemmin hankalaan paikkaan tai toisistaan erilleen.

Priorisoinnin ohella kannattaa myös digitoida ne näytteet, joita käytetään tai pyydetään lainaksi. Tällöin digitointi voi hyödyttää suoraan lainaa pyytävää tutkijaa tai tuottaa "varmuuskopion" lainatusta näytteestä.

Jos digitointi edellyttää hankalia tutkimuksia, tutkimustyötä voisi harkita jaettavan siten, että näytettä hallussaan pitävä organisaatio toteuttaa tarvittavat tutkimukset tietoja tarvitsevan tutkijan tilaamana (ja kustannuksella). Näin syntyneet tiedot voitaisiin julkaista verkossa, jolloin muutkin pääsisivät niitä käyttämään. Samalla tilaaja välttyisi aineiston julkaisemisen aiheuttamalta vaivalta, jos tutkimuksen julkaisija vaatii aineiston julkaisemista.

Pitäisiko kaikki syntyypit digitoida?

Kaikki syntyypit kannattaa digitoida, jos niitä ei ole niin paljon, että tämän vaatima lisätyö ei estä tai merkittävästi hidasta kaikkien nimeä kantavien tyyppien digitointia. Joskus syntyyppisarjasta on digitoitu tai luetteloitu vain yksi näyte edustamaan koko sarjaa (Warren & Harrison 2001, CAS 2007). Näin voidaan toimia, jos kaikkien syntyyppien digitoinnin vaatima lisätyö estäisi tai hidastaisi merkittävästi muiden nimeä kantavien tyyppien digitointia. Tällöin tieto muista syntyypeistä kannattaa merkitä muistiin digitoidun näytteen lisätietoihin.

Tässä on kuitenkin vaarana, että ainoa digitoitu syntyyppi saa käytännössä lektotyypin aseman, vaikka se ei olisikaan parhaiten lektotyypiksi soveltuva yksilö. Lektotyyppidesignaatio voi nimittäin vaikuttaa myös nimistön vakauteen. Syntyyppien joukossa on usein yksilöitä useasta lajista. Tällöin lektotyypin valinnasta riippuu mitä yksilöjoukkoa (käytännössä lajia) lajinkuvauksessa oleva nimi jatkossa tarkoittaa. Designaatio voi johtaa vakiintuneiden nimien muutokseen, jos lektotyypiksi valittavalla yksilöllä on jo vakiintunut, mutta kuitenkin nuorempi nimi (keskustelu 2.4.2008, Jyrki Muona).

Hypoteettinen esimerkki: Vuonna 1800 kuvatun mutta sittemmin tyystin unohdetun lintulajin nimeltään Aaba beeba tyyppinäytteenä toimii viiden syntyypin tyyppisarja. Nyt huomataan että kolme syntyypeistä kuluukin lajiin, josta käytetään vuonna 1810 annettua nimeä Cygnus cygnus (laulujoutsen). Jos tässä tilanteessa lektotyypiksi valitaan yksilö näiden kolmen joukosta, muuttuu nimi Cygnus cygnus nimen Aaba beebanuoremmaksi synonyymiksi. Tällöin prioriteettiperiaatteen mukaisesti laulujoutsenen oikea nimi on näistä vanhempi, eli Aaba beeba. Jos laji on vielä sukunsa tyyppilaji, myös koko suvun nimi muuttuu muotoon Aaba. Muutos aiheuttaisi paljon sekaannusta, joka voitaisiin välttää vain pyytämällä nimistökomiteaa konservoimaan nimi Cygnus cygnus (ICZN 1999). Nimistön vakauden kannalta olisikin parempi, että lektotyypiksi valittaisiin jompikumpi kahdesta muusta syntyypistä. Tällöin laulujoutsenen nimi ei muuttuisi.

Jos syntyypeistä kuitenkin valitaan yksi digitoitavaksi, kannattaa valinnassa noudattaa nimistösäännöstön suosituksia 74B, D ja E lektotyypin valinnasta. Jos se on mahdollista, edustajaksi kannattaa valita yksilö

josta on kuva lajinkuvausartikkelissa (Mayr & Ashlock 1991, ICZN 1999)
jonka keruupaikka tiedetään varmasti (Mayr & Ashlock 1991, ICZN 1999)
jossa on oleelliset tuntomerkit (Winston 1999). Tämä voi tarkoittaa esimerkiksi hyväkuntoisinta, helpoimmin valokuvattavaa yksilöä, tai yksilöä, josta on tehty digitoitavissa olevia lisätutkimuksia (esim. genitaalipreparaatti).

Myös ikäluokalla ja sukupuolella voi olla merkitystä, esimerkiksi kärpäsillä koiras on parempi määrityksen kannalta (keskustelu 10.3.2008, Gunilla Ståhls). Tervettä järkeä tulee käyttää, esimerkiksi selvästi poikkeavaa yksilöä ei kannata valita edustajaksi.

Syntyypit voidaan myös digitoida yhtenä kokonaisuutena, jos niiden perustiedot (esim. keruupaikka ja -aika) ovat samat. Tällöin vaihtuvat tiedot (esim. sukupuolijakauma) voidaan merkitä lisätietoihin. Myös tieto syntyyppien lukumäärästä kannattaa merkitä muistiin.

Pitäisikö myös para- ja paralektotyypit digitoida?

Para- ja paralektotyypit kannattaa digitoida vasta nimeä kantavien tyyppien jälkeen, koska niiden merkitys taksonomiselle tutkimukselle on pienempi. Usein näitä ei olekaan mukana tyyppinäyteluetteloissa tai -tietokannoissa (esim. Triebel 2001, Weir 2007, Perkins ym. 2006). Para- ja paralektotyyppejä kuitenkin tarvitaan jos nimelle valitaan neotyyppi (ICZN 1999).

Kadonneet holo- ja lektotyypit

Digitoijan saatavilla voi olla tietoja (esim. etikettejä tai kirjallisuudesta ja kortistoista poimittuja tietoja) holo- tai lektotyypistä, vaikka itse näyteyksilö olisi kadoksissa. Tällöin nämäkin tiedot kannattaa digitoida. Niistä on hyötyä jos nimelle valitaan neotyyppi, koska se tulisi kerätä mahdollisimman läheltä tyyppipaikkaa (ICZN 1999). Tiedoista on myös hyötyä, jos holo- tai lektotyyppi myöhemmin löytyy.