Näytetietojen digitointi käytännössä

Last modified by mqheikki@helsinki_fi on 2024/02/07 06:49

Näytetiedoilla tarkoitan näyteyksilöön liittyviä oheistietoja kuten keruupaikkaa ja -aikaa, kerääjää sekä lajinmääritystä. Hyönteisnäytteiden näytetiedot on yleensä merkitty hyönteisneulaan kiinnitettyihin pieniin paperilappuihin, eli etiketteihin (engl. label). Tilanpuutteesta johtuen tietoja on usein vähän ja lyhenteitä käytetään runsaasti (ks. myös Kuva 4 ja 5).

Yleisesti biologisia näytteitä pidetään sitä arvokkaampina, mitä enemmän niistä on tallennettuna tietoja. Se mikä tieto on oleellista, riippuu näytetyypistä, esimerkiksi eliöryhmästä (Utriainen ym. 2006). Tyyppinäytteisiin liittyy tavallisten näytetietojen lisäksi niille ominaisia erikoistietoja (ks. s. 41). Utriainen ym. (2006) suosittelevat, että jokaisesta näytteestä tulisi tallettaa ainakin tietoja näytteestä (esim. lajinimi) sekä keruupaikasta ja -ajasta. Sen sijaan esimerkiksi Mannerheimin kokoelman näytteissä ei juuri ole päivämääriä. Vanhojen näytteiden digitoinnissa ollaankin riippuvaisia jo olemassa olevista tiedoista. Etikettien lisäksi näytetietoja voi löytää muistakin lähteistä, kuten kerääjän muistivihoista (keskustelu 5.3.2007, Jyrki Muona). Tietoja on voitu kerätä myös näyterekisteriin, kuten paperikortistoon tai -vihkoon (Downton 2005, keskustelu 27.3.2008, Ritva Talman).

Todellisten tarpeiden tulisi määritellä mitä tietoja näytteistä digitoidaan ja miten tietoja käsitellään. On turhaa koota tietoja joita ei tarvita (nyt tai tulevaisuudessa), mutta ei pitäisi myöskään jättää huomiotta tutkijoiden (ja muiden käyttäjien) tarpeita.

Virheet ja tarkistus

Museonäytteisiin liittyvä tieto ei ole virheetöntä. Etenkin lajinmäärityksen oikeellisuus vaihtelee paljon, eikä useimpien museonäytteiden identiteettiä ei ole tarkistettu taksonomisella analyysillä (Mayr & Ashlock 1991, Scoble 2004, keskustelu 5.3.2007, Jyrki Muona). Muusta näytetiedosta suurin osa on luotettavaa (Rasmussen & Prŷs-Jones 2003), mutta myös väärää tietoa esiintyy säännöllisesti siinäkin (Rasmussen & Prŷs-Jones 2003, Chapman 2005b). Lisäksi virheitä on kirjoitusasussa. Esimerkiksi paikan- ja kerääjien nimissä on huomattavan usein kirjoitusvirheitä, etenkin jos käytettävä kieli on näytetietojen kirjoittajalle vierasta (ks. esim. Viette 1991).

Rasmussen ja Prŷs-Jones (2003) ja Chapman (2005a & 2005b) esittelevät erilaisia virhetyyppejä ja niiden lähteitä. Chapman myös antaa ohjeita miten korjata virheitä ja välttää uusien syntymistä digitoinnin aikana. Tehdyt korjaukset kannattaa dokumentoida metatietoihin (ks. s. 37, Chapman 2005b).

Virheiden korjaamisen voi yhdistää digitointiin, jotta syntyvä aineisto olisi mahdollisimman hyvälaatuista. Tarvittava tiedon laatu kuitenkin riippuu tiedon käyttötarkoituksesta. Vaikka tieto olisi liian huonoa yhteen tarkoitukseen, voidaan sitä silti käyttää toisenlaiseen tarkoitukseen (Chapman 2005b). Tyyppinäytteisiin liittyvän tiedon pitäisi pystyä täyttämään edellä esitettyjä tutkijoiden tarpeita.

Tyyppinäytteistä on oleellista tietää mm. niiden tyyppistatus. Tämä tieto on usein merkitty virheellisesti kokoelmiin (ks. s. 4), joten se kannattaisi tarkistaa. Koska tarkistaminen ja merkitsemättömien tyyppinäytteiden etsiminen on monimutkaista ja vaihtelee eri eliöryhmillä (keskustelu 2.4.2008, Jyrki Muona), en käsittele sitä tässä työssä. Tarkistaminen vie myös paljon aikaa (Chapman 2005b) ja on siksi digitointia merkittävästi rajoittava tekijä. Koska tehokas digitointi on tavoiteltavaa, voi olla hyväksi että tiedot digitoidaan ja julkaistaan vaikka niitä ei olisi tarkistettu. Epävarmatkin perustiedot voivat hyödyttää muita tutkijoita, ja heiltä voi saada apua tarkistus- ja täydennystyössä (ks. vuorovaikutus s. 16). Tiedon laatu ja laadunvarmistustavat on kuitenkin dokumentoitava ja kerrottava rehellisesti ja selkeästi, jotta käyttäjät osaisivat varautua mahdollisiin virheisiin (Chapman 2005b).

Tulkinta

Digitoitaessa näytetietoa usein tulkitaan, eli digitoija tekee arvion siitä, mitä näytetieto tarkoittaa. Tulkinta voi olla esimerkiksi käsin kirjoitetun tekstin muuttamista digitaaliseksi, tai nimen muuttamista nykyään käytettävän kirjoitusasun mukaiseksi (Chapman 2005b, Spencer ym. 2006). Etikettien tulkinnan apuna voidaan käyttää taustamateriaalia, esimerkiksi kerääjän muistiinpanoja, käsialanäytteitä (Spencer ym. 2006) tai tulkintaa varten koottuja oppaita, esimerkiksi Vietten (1991) opas Madagaskarilta kerättyjen hyönteisnäytteiden kerääjätietojen ja paikannimien tulkintaan. Olisi myös hyödyksi, jos digitoitavien tietojen tallennusjärjestelmä osaisi auttaa tulkinnassa. Järjestelmään voitaisiin syöttää esimerkiksi luettelo yleisistä kerääjien nimistä tai tavallisimmista kirjoitusvirheistä, jolloin se osaisi kertoa, mitä tiedot todennäköisesti merkitsevät. Joka tapauksessa tulkinnassa syntyy kuitenkin säännöllisesti virheitä (Chapman 2005b, Rasmussen & Prŷs-Jones 2003).

Aikaisemmin oli myös tavallista, että oleellisina pidettyjä näytetietoja kopioitiin uusille etiketeille, jonka jälkeen vanhat etiketit hävitettiin (Rasmussen & Prŷs-Jones 2003). Vanhoja tietoja on myös pyyhitty pois uusien tieltä (Mayr & Ashlock 1991). Tällöin on jälkikäteen mahdotonta palata vanhempaan tietoon, mikä olisi oleellista tietoja tarkistettaessa (Rasmussen & Prŷs-Jones 2003).

Tulkinta voi myös muuttaa tiedon merkitystä. Esimerkiksi jos näytteessä oleva kuntanimi Toijala muutettaisiin nykyiseksi nimeksiAkaa, muuttuisi paikkatieto epätarkemmaksi. Entinen Toijala kattaa nimittäin vain osan nykyisestä Akaan kunnasta (VM julkaisuaika tuntematon)

Tietoja tulkittaessa ja korjattaessa onkin oleellista säilyttää myös alkuperäinen tieto (Chapman 2005b). Digitoitaessa tämä tarkoittaa etikettien valokuvaamista (ja tietysti myös kaikkien etikettien säilyttämistä kokoelmassa). Valokuvaaminen säilyttää tiedon etiketin ominaisuuksista (esim. paperilaadusta, asettelusta, käsialasta), joita voidaan myös käyttää apuna tarkistuksissa.

Virhelähteitä Mannerheimin kokoelmassa

Etikettien tai näytteiden sekoittuminen voi myös johtaa virheelliseen tietoon. Mannerheimin kokoelmassa useimmissa näytteissä ei ole lajinimietikettiä, vaan näytteet on järjestetty säilytyslaatikoissa ryhmiin taksoneittain. Laatikkoon kiinnitetyt etiketit kertovat kunkin taksonin nimen. Tällöin näytteen tai nimilapun virheellinen sijoittaminen laatikossa (kenen tahansa näytteitä käsitelleen toimesta) voi aiheuttaa ongelmia. Esimerkki tästä on laatikko 42-1 (Kuva 2), josta on hankala sanoa mikä etiketti viittaa mihinkin yksilöön.

Kuva 2: Vasemmalla tyypillinen Mannerheimin kokoelmalaatikko (nro 44-3), jossa näytteet on sijoitettu siististi sarakkeittain luokittelun mukaisesti. Oikeanpuoleisessa laatikossa (42-1) järjestystä on muutettu, minkä takia ei ole enää selvää mihin lajiin tai ylempään taksoniin kukin näyte kuuluu.

Vanhojen etikettien käsin kirjoitettu teksti voi olla vaikeaselkoista (Kuva 3). Spencer ym. (2006) suosittelevat että etikettitietoja tulkitsevat henkilöt tutustuisivat ensin aikakauden kirjoitustapaan ja kirjoittajan käsialan yksityiskohtiin, jotta virhetulkintojen määrä vähenisi.

Kuva 3: Sukunimietikettejä Mannerhemin kokoelmasta. Teksti voi olla vaikeaselkoista jos käsialaa ja lyhenteitä ei tunne entuudestaan. Paljon esimerkkejä vaikeammista etiketeistä on esimerkiksi Hornin ja Kahlen (1935 & 1936) julkaisuissa.

Etiketeissä on usein käytetty lyhenteitä tai muita merkintöjä, joiden merkitys ei ole itsestään selvää. Mannerheimin kokoelmassa moniin näytteisiin on liitetty pieni lappu, jonka muoto ja väri kertovat keruupaikan (Kuva 4). Lappujen merkitys selviää avaimen avulla (keskustelu 10.2.2008, Jyrki Muona). Nimet on usein myös lyhennetty. Koska useimmat lyhentämättömätkin nimet on päätetty pisteellä, ei pisteestä tai sen puuttumisesta voida päätellä onko nimi lyhenne vai kokopitkä (Kuva 4).

Aina ei myöskään ole selvää tarkoittaako etiketillä oleva teksti esimerkiksi paikannimeä, kerääjää tai jotain muuta (Viette 1991). Esimerkiksi Madagaskarilta kerätyissä hyönteisnäytteissä "Sikora, Madagaskar"_tarkoittaa Sikoran keräämää näytettä, kun taas _"Sihanaka, Madagaskar" tarkoittaa Sihanakasta kerättyä näytettä (Viette 1991). Mannerheimin kokoelmassa näytteisiin on monesti liitetty useita etikettejä, joissa on kussakin yksi tai useampi sana (Kuva 4). Tietojen merkityksiä ei ole millään tavoin eritelty ja ne voivat merkitä ainakin keruupaikkaa, näytteen kerääjää tai henkilöä, joka on välittänyt näytteen kerääjältä Mannerheimille. Tulkintaan tarvitaan historiallisia taustatietoja kokoelman synnystä ja nimien merkityksistä.

Kuva 4: Etikettejä (vas.) ja keruupaikkalappuja (oik.) Mannerheimin kokoelmasta. Etikettien tietojen merkitystä ei ole mitenkään eritelty. Taustatietojen (Silfverberg 2008; käytännössä metatietoja) perusteella "Falderm." tarkoittaa hyönteistutkija Faldermannia, jolta näyte on saatu. "Erivan." on siis ilmeisesti keruupaikka (Armenian pääkaupunki Yerevan?).

Uudemmissa näytteissä on usein käytetty vakiomuotoisia etikettejä, joissa keruupaikka ja kerääjän nimi on merkitty aina samaan kohtaan. Usein kerääjän merkitään lisäksi lyhenteellä "leg" (Kuva 5). Taustatieto erilaisten etikettimallien tiedoista (esim. miten elinympäristö on luokiteltu tai mitä koordinaattijärjestelmää käytetään) kannattaa kuitenkin kirjata muistiin.

Kuva 5: Nykyaikainen etiketti Eläinmuseon hyönteiskokoelmista. Tietojen merkitys selviää etiketistä helpommin kuin useista erillisistä pikkuetiketeistä. Tulkintaan tarvitaan kuitenkin taustatietoa esimerkiksi siitä, mitä "ad luc." tarkoittaa.

Vanhojen versioiden säästäminen

Näytetiedot muuttuvat vääjäämättä, kun virheitä korjataan ja tietoja täydennetään. Tieteen tarkistettavuuden ja toistettavuuden kannalta olisi kuitenkin parasta, että myös vanhoihin tietoihin pääsisi käsiksi. Tällöin nähtäisiin mitä tietoja aiemmilla tutkijoilla on tutkimusta tehdessään ollut käytettävissään. Myös tieto jokaisen muutoksen alkuperästä säilyisi, jos tietojen muokkaaja ja aika tallennetaan.

Muun muassa Wikipedian pohjana toimivassa Mediawiki-ohjelmistossa tämänkaltainen versionhallinta on otettu hyvin huomioon. Järjestelmä tallettaa kaikki aikaisemmat versiot siinä olevista tiedoista, sekä muutosajankohdat ja muutoksen tekijät. Jokainen versio saa oman tunnisteensa ja sitä voi helposti palata tarkastelemaan (Mediawiki 2008). Muutoksen yhteyteen voi myös tallentaa lisätietoja, esimerkiksi muutoksen syyn. Saman toimintalogiikan voisi ottaa käyttöön myös näytetietokannassa.

Jos käytettävä tietokanta ei tue historiatietojen säilyttämistä, voidaan tietokannasta tallettaa säännöllisesti tilannekuvia.

Yleistä tietojen tallentamisesta

Yksittäisten tietojen tallennuksessa tulisi noudattaa standardeja, jos sellaisia on olemassa. Esimerkiksi päivämäärä kannattaa tallettaa ISO 8601 -standardin mukaisesti vvvv-kk-pp (ISO 2004).

Monet tiedot toistuvat samanlaisina eri näytteissä. Tällaisia ovat esimerkiksi paikkojen ja taksonien nimet sekä kirjallisuusviitteet. Näiden tietojen tallennus voidaan keskittää yhteen paikkaan (Utriainen ym. 2006). Esimerkiksi Luonnontieteellisessä keskusmuseossa on tekeillä taksonominen tietokanta (keskustelut 1-2/2008, Tapani Lahti ja Hanna Koivula, ATK-jaosto, Luonnontieteellinen keskusmuseo) nimistötietoa varten. Paikannimien hallinnassa voidaan ehkä käyttää Semantic Computing Research -ryhmän kehittämää Suomen ajallista paikkaontologiaa (Kauppinen & Hyvönen 2005).

Olematon tieto vs. tuntematon tieto

On tärkeää erottaa olematon tieto tuntemattomasta tiedosta, jos olematon tieto on periaatteessa mahdollista käsiteltävässä asiassa.

Esimerkiksi jokaisella näytteellä on aina jokin löytöpaikka. Löytöpaikka voi olla tunnettu (esim. "Helsinki", "Eurooppa" tai "Mars") tai sitten tuntematon. Olematon tieto ei tässä asiassa ole mahdollinen, koska jokainen näyte on varmasti peräisin jostakin.

Jokaisella näytteellä ei kuitenkaan ole tyyppinäytestatusta. Tyyppinäytestatus voi siis olla paitsi tunnettu (esim. "holotyyppi" tai "syntyyppi") tai tuntematon, myös olematon (jos on todettu että näyte ei ole minkäänlainen tyyppinäyte). Tällöin olematon tieto pitää merkitä muistiin niin, että sen voi erottaa tuntemattomasta tiedosta.