Näytetunnisteet
Englanninkielinen sivu: Specimen Identifiers
Tällä sivulla kuvataan mitä museonäytetunnisteet ovat, millaisia tunnisteita Kotkaan tallennettaville näytteille luodaan ja miten tämä tehdään.
Lyhyesti: jokaisella näytteellä on yksilöllinen HTTP-URI -tunniste tyyliin http://tun.fi/JAA.123. Näitä voidaan luoda eri tavoilla, jotka sopivat hieman eri tilanteisiin. Lisäksi näytteen perinteinen tunnistenumero (esim. H-numero tai vastaava) tallennetaan erilliseen kenttään Original catalogue number. Näytteitä voidaan etsiä näillä molemmilla, mutta näytteeseen kannattaa aina viitata HTTP-URI-tunnisteella tai molemmilla.
Myös kaikki muut resurssit, kuten organisaatiot ja kokoelmat, saavat samankaltaiset uniikit tunnisteet Kotkassa.
Kotkan ylläpitäjiltä saa apua tunnisteisiin liittyvissä asioissa <kotka(ät)luomus.fi>
Yleistä
Jokaisella tietokantaan tallennettavalla näytteellä pitää olla yksilöllinen, pysyvä ja vakaa tunniste.
HTTP-URI -tunnisteet
Kotka käyttää tunnisteita, jotka ovat ns. HTTP-URI-standardia.
Esimerkki tällaisesta tunnisteesta on:
http://id.luomus.fi/GP.92636,
missä:
- http:// on skeeman tunniste, joka kertoo että kyseessä on HTTP URI
- id.luomus.fi on domainin nimi, sitä kontrolloi Luomus. Tämä takaa sen, että kukaan muu ei voi tehdä samanlaisia tunnisteita ja siten tunnisteet ovat globaalisti uniikkeja (kunhan kaikki noudattavat standardia)
- GP on nimiavaruuden tunniste (aina isoilla kirjaimilla)
- 92636 on ns. object ID -osa. Yleensä numeroita, voi siältää myös kirjaimia.
- http:// on skeeman tunniste, joka kertoo että kuseessa on HTTP URI
Tunniste näyttää webbiosoitteelta ja toimii sellaisena. Sitä kautta saa lisätietoja näytteestä, jos sen tiedot on tallennettu Kotkaan. HTTP-URI-tunnisteessa on se etu moniin muihin tunnistestandardeihin verrattuna että sitä voidaan lisäksi käyttää osoitteena, jonka kautta pääsee automaattisesti käsiksi näytettä koskevaan lisätietoon. Käyttäjän (ihminen tai tietokone) ei siis tarvitse ensin tietää mistä tietokannasta näytettä pitäisi lähteä etsimään. Tunniste on kuitenkin vain merkkijono, joka ei sinällään tarkoita mitään eikä siitä voi päätellä mitään. Se ei muutu vaikka lisätiedon sijainti muuttuisi. Tunnisteen "tyhmyydestä" on hyötyä, ainakin teoriassa:
- sitä ei tarvitse muuttaa, mikäli jokin näytteessä muuttuu. Esim. jos näyte lahjoitetaan kokoelmasta toiseen, ei sen tunnistetta tarvitse muuttaa.
- Tällä tavoin yhteys näytteen ja tietojen välillä säilyy
- Tyhmän tunnisteen luominen on myös helppoa, koska sitä luotaessa ei välttämättä tarvitse olla mitään tietoa esim. näytteen lopullisesta sijoituspaikasta tai kokoelmille myönnetyistä numerosarjoista.
Taustaa tunnisteista biodiversiteetti-informatiikassa
- The Trouble with Triplets in Biodiversity Informatics: A Data-Driven Case against Current Identifier Practices. http://dx.doi.org/10.1371/journal.pone.0114069
- Community Next Steps for Making Globally Unique Identifiers Work for Biocollections Data: http://dx.doi.org/10.3897%2Fzookeys.494.9352
Periaatteita ja sääntöjä tunnisteille
- Yksilöllisyys: millään muulla asialla ei koko maailmassa ole samaa tunnistetta
- Useat näytteet eivät voi jakaa samaa tunnistetta (poikkeus: useita näytteitä samassa dokumentissa), eikä niitä voi käyttää uudelleen.
- Pysyvyys: näytteelle annettu tunniste viittaa aina samaan näytteeseen eikä tunnistetta muuteta koskaan
- näytteelle kerran annettu tunniste viittaa siihen pysyvästi (eli tunnisteen kohde ei ikinä muutu)
- itse tunnistetta ei koskaan muuteta (tarvittaessa näytteelle voidaan antaa uusi tunniste, mutta tätä kannattaa välttää)
- Pysyviin tunnisteisiin viitataan joskus lyhenteellä PID (persistend Identifier)
- Tunnistetta ei pidä lyhentää jättämällä siitä osia pois
- Selvitettävyys (ns. resolvaus, "resolving" tai "dereferencing"): tunnisteen avulla voidaan hakea automaattisesti lisää tietoa näytteestä
- Tyhmyys: tunnistet eivät sisällä merkityksiä. Teknisesti tunniste on vain jono numeroita, kirjaimia ja muita merkkejä.
Tunnisteen verkkotunnusosa
Kotkan HTTP-URI-tunnisteiden verkkotunnusosa on oletuksena http://tun.fi. Tämän alle luodaan tunnisteita kaikkien osallistujien kaikille tietueille (näytteille, kokoelmille, organisaatioille, lainoille jne.). Luomus vastaa tun.fi –verkkotunnuksen ylläpidosta ja siihen perustuvien tunnisteiden selvitystoimivuudesta (siis siitä että tunnisteen perusteella voidaan automaattisesti hakea tietoa sen kohteesta). Luomus ylläpitää myös toista, Kotkassa käytettävää verkkotunnusta http://id.luomus.fi, jota käytetän Luomuksen näytetunnisteissa.
Muut organisaatiot Kotkassa ylläpitävät omia verkkotunnuksia:
- University of Turku: http://mus.utu.fi
- University of Oulu herbarium: http://id.herb.oulu.fi
- University of Oulu zoology: http://id.zmuo.oulu.fi
Näiden organisaatioiden on itse huolehdittava tämän verkkotunnuksen rekisteröinnistä itselleen, hallinnoinnista ja ylläpidosta pitkällä aikavälillä. Liikenne verkkotunnuksesta tulee ohjata Kotkan ylläpitäjien osoittamalle palvelimelle selvitystoiminnallisuutta varten.
Kullekin Kotkan käyttäjälle määritellään oletusverkkotunnus, jonka alle hänen kirjaamansa tietueet oletusarvoisesti tallentuvat. Käyttäjät voivat tallentaa tietueita myös muiden verkkotunnusten alle, mutta tällöin verkkotunnuksen lyhenne pitää tallennusvaiheessa kirjata nimiavaruustunnisteen yhteyteen. Tämän takia organisaatiolla kannattaa olla vain yksi verkkotunnus, ei erillistä esim. joka kokoelmalle.
Tunnisteiden verkkotunnusosan muoto tai hallintatapa on vain tekninen kysymys, se ei vaikuta esim. näytteiden omistajuuteen tai käyttöoikeuksiin.
Verkkotunnukset
Verkkotunnukset
Domain lyhenne | Domain | Organisaatio |
tun: | kaikki muut | |
luomus: | Luomus | |
utu: | Turun yliopisto | |
zmuo: | Oulun yliopisto, Eläinmuseo | |
herbo: | Oulun yliopisto, Kasvimuseo |
Tunnisteiden luominen
HTTP-URI -tunnisteita voidaan luoda useilla eri tavoilla, joista voi valita tilanteeseen sopivimman. Kaikissa oleellista on että tunniste on yksilöllinen ja virheitä ei synny (esim. etiketille kirjattaisiin eri tunniste kuin tietokantaan). Tunnisteida voidaan luoda Kotkassa kahdella tavalla
A) Manuaalisesti
Tässä mallissa jokaisella näytteitä Kotkaan tallentavalla henkilöllä on henkilökohtainen nimiavaruustunniste. Nimiavaruustunnisteista pidetään kirjaa osoitteessa https://triplestore.luomus.fi/namespaces. Nimetyllä vastuuhenkilöllä on vastuu pitää tunnisteet yksilöllisinä nimiavaruuden sisällä. Tämä tapa sopii tilanteeseen, joissa näytteet etiketöidään ennen kuin ne tallennetaan Kotkaan (eli ennen kuin Kotka voisi luoda tunnisteen automaattisesti tai valvoa sen yksilöllisyyttä). Tiedot voi talletaa Kotkaan etiketöinnin jälkeen käyttäen Excel-importia tai www-lomaketta. Esimerkiksi näytteiden perustietoja voidaan aluksi kirjata Exceliin, tulostaa välillä etiketit ja liittää ne näytteisiin, ja sitten vielä jatkaa tietojen kirjaamista ennen niiden tallennusta Kotkaan. Nimiavaruustunniste kirjataan kenttään "Namespace ID" ja itse annettu merkkijono kenttään "Object ID".
- Pyydä nimiavaruustunniste Kotkan ylläpidolta kotka(at)luomus.fi. Tunniste on yleensä 2-3 kirjaiminen. Kun pyydät tunnistetta, kerro käytetäänkö sitä:
- Eläin-, kasvi, mikrobi, puutarhan vai paleontologisille näytteille vai kaikille.
- minkä domainin alle tunnisteita luodaan (tun.fi, id.luomus.fi, utu.fi, herbo vai zmuo)
- Näytteitä tallentaessa kirjoita nimiavaruustunniste NamespaceID -kenttään (webbilomakkeella ja Excelissä)
- huom: jos luot tunnisteita eri domaineista, kirjoita nimiavaruuden eteen jokin näistä: "luomus:", "tun:", "utu:", "herbo:" tai "zmuo:"
- Anna jokaiselle näytteelle numero, ObjectID, joka on yleenäs juokseva numero, alkaen ykkösestä. Kirjoita tämä ObjectID -kenttään (sekä webbilomakkeella että Excelissä)
On omalla vastuullasi huolehtia, ettei samaa juoksevaa numeroa anneta tietojen syöttövaiheessa useille näytteille. Kun data tallennetaan Kotkaan (Excel-import), Kotka tarkistaa tunnisteet ja estää tallennuksen jo käytetyillä/samoilla tunnisteilla.
Nimiavaruustunnisteen voi siirtää toisen henkilön käyttöön ilmoittamalla siitä osoitteeseen kotka(ät)luomus.fi (esimerkiksi työsuhteen päättyessä).
Esimerkkejä:
http://id.luomus.fi/GV.123 http://id.luomus.fi/GP.123
B) Automaattisesti webbilomaketallennuksessa
Kun näyte tallennetaan Kotkaan käyttäen www-tallennuslomaketta, voi tallentaja jättää "Namespace ID" ja "Object ID" -kentät tyhjäksi. Tällöin Kotka antaa näytteelle automaattisesti uuden yksilöllisen tunnisteen. Kotka luo tunnisteen juoksevana numerona HT-nimiavaruuden alle. Useissa tapauksissa on kannattavaa antaa Kotkan generoida tunnisteet automaattisesti. Kotka luo varmasti uniikit tunnisteet ja digitoijan vastuulle jää liittää oikea etiketti/tunniste oikeaan näytteeseen
Tätä tapaa kannattaa käyttää kun näytteet tallennetaan ja/tai etiketit tulostetaan Kotkan avulla (tai muun HTTP-URI -tunnisteita myöntävän tietojärjestelmän avulla). Koska Kotka huolehtii tunnisteista, ovat ne varmasti yksilöllisiä. Digitoijan vastuulla on yhdistää etiketit oikeisiin näytteisiin.
Esimerkki:http://id.luomus.fi/EIG.359http://id.luomus.fi/HT.5181
HUOM. Tunnisteita ei luoda automaattisesti Excel-importissa, koska tällöin olisi liian helppoa tallentaa sama aineisto vahingossa useita kertoja eri tunnisteilla. Kotka ei voisi tarkistaa onko sama näyte jo viety sisään aiemmin, jos se saa uuden tunnisteen. Näytetietojen identtisyys ei ole validointiperuste, koska on olemassa paljon todellisia duplettinäytteitä.
Entä jos näytteellä on jo tunniste?
Jos näytteellä on jo olemassa tunnistenumero (jota kutsutaan myös nimillä catalogue number, voucher number tai museum id), kirjataan se kenttään Original catalogue number tai Additional IDs. Sitten näytteelle luodaan HTTP URI -tunniste ylläolevilla tavoilla. Tunniste toimii näytteen täsmällisempänä tunnisteena.
Jos näytteiden uudelleenetiketöinti olisi liian työlästä ja näytteillä halutaan käyttää mahdollisimman samanlaisia tunnisteita kuin ennenkin, voidaan vanhaa tunnistetta käyttää HTTP-URI-tunnisteen pohjana. Huom. Ole kuitenkin aina yhteydessä Kotkan ylläpitoon ennen tällaisten tunnisteiden luomista, koska näitä on syytä harkita aina yhdessä tapauskohtaisesti. Vanhan tunnisteen sisällyttäminen osaksi uutta tunnistetta voi aiheuttaa monenlaisia ongelmia ja sivuvaikutuksia.
Jos käytät Luomuksen herbaariokokoelmien ns. H-numeroa objectID-osana, käytä nimiavaruutta HA. Esim. http://id.luomus.fi/HA.H0003706
Tunnisteiden käyttö
Kun näytteeseen viitataan (esim. artikkelissa, näyteluettelossa, GBIF:ssa), tulee se tehdä sen kokopitkällä, virallisella HTTP-URI-tunnisteella eikä vain tunnisteen loppuosalla. Ei siis "JA.123" vaan "http://id.luomus.fi/JA.123". Tunniste voidaan lyhentää vain jos se on välttämätöntä esim. pienen tilan takia. Jokaisella etiketillä pitää kuitenkin aina olla kokopitkä tunniste tekstimuodossa (ei pelkästään viivakoodina).
Lyhentäminen voi johtaa siihen että:
- Näyte sekaantuu muihin näytteisiin
- Näytteen tietoja ei voi etsiä muista lähteistä (esim. "missä julkaisuissa viitattu näytteeseen http://id.luomus.fi/JA.123 ?")
- Näytteen tietoja ei voi hakea tai linkittää keskenään automaattisesti (esim. GBIF:n, Genbankin, BOLD:in tai Lajitietokeskuksen kautta)
Tunnisteen lyhentämistä siihen viitattaessa voisi verrata siihen että katuosoitteesta jätetään postinumero ja -toimipaikka pois, ja luotetaan että käyttäjä tietää missä kaupungissa 'Keskustie 13' on. Kokenut ammattilainen ehkä osaa sen arvata asiayhteyden perusteella, mutta muut eivät, tietokoneet etenkään.
Julkaisuilla on erilaisia käytänteitä tunnisteiden käyttämsieen ja painamiseen artikkeleihin. Jos täyspitkä URI-tunniste veisi liikaa tilaa varsinaisesta printtijulkaisusta, joissain julkaisuissa liitetään tunnisteet liitteisiin ja joissain ne upotetaan artikkelin PDF-versioon linkkeinä, esimerkiksi.
Näytteiden alkuperäisiä tunnisteita on perinsteisesti käytetty viitattaessa näytteisiin julkaisuissa. Tätä ei kuitenkaan suositella, sillä nämä eivät aina ole yksilöllisiä, eivät ole koneluettavia (esim. data-analyyseissä käytettäväksi), eikä muiden kuin biologien/taksonomien ymmärrettävissä.
Huomioita ylläpitäjille:
Every user can have their default domain prefix set into MA.defaultQNamePrefix on Triplestore. If none is set, the default is "luomus".
If user prefixes Namespace ID when saving specimens, it will override MA.defaultQNamePrefix.
Namespaces are maintained on Triplestore editor.