LSID-tunnisteet

Last modified by mqheikki@helsinki_fi on 2024/02/07 06:49

TÄMÄN SIVUN SISÄLTÖ ON VANHENTUNUTTA.

Tässä käsitellään LSID-tunnisteita Luonnontieteellisen keskusmuseon näkökulmasta.

Yleistä

LSID:ssä on kyse kahdesta asiasta: objektien nimeämisestä yksilällisesti koko maailman mittakaavassa (identification scheme, naming standard) ja niitä koskevan metadatan välityksestä (LSID resolution, data access protocol). LSID tarjoaa yhtenäisen tavan nimetä tietoa ja paikallistaa sitä verkon kautta. [11]

LSIDs must be assigned to at most one resource, and are never reassigned. It is intended that the lifetime of an LSID be permanent. That is, the LSID will be globally unique forever, and may be used as a reference to an object well beyond the lifetime of the object it identifies. [4]

Täten LSID:n käyttöönotto kokonaisuudessaan tarkoittaisi kahta asiaa: objektien nimeämistä LSID-tunnisteilla ja authority-palvelun pystyttämistä. Tämän palvelun avulla objekteista voidaan sitten tarjota tietoa (metadataa ja varsinaisen tiedon sijainti) maailmalle. Toinen vaihtoehto on käyttää jonkun muun ylläpitämää LSID authorityä. (Merkitseekö tämä että silloin käytettäisiin tuon toisen tuottamia LSID-tunnisteita?)

LSID:n käytöstä tiedonhakumekanismina on syntynyt jonkin verran keskustelua [6, 7, 8]. Toisena vaihtoehtona on esitetty HTTP URI:en (eli käytännössä URL:ien) käyttöä. Tällöin ei tarvitsisi rakentaa erillistä järjestelmää tunnisteiden ratkaisemiseen (resolving). Myös Suomalaisessa semanttisen webin projektissa objektien tunnistamiseen käytetään URL:ia, esim. talitiaisen tunniste on http://www.yso.fi/onto/yso/p12931 [9].

URL:ia käytettäessä LSID urn:lsid:luomus.fi:GAA:12345 voisi muuttua muotoon http://luomus.fi/GAA:12345.

TDWG päätti suositella LSID:n käyttöä URL:ien sijaan [6]. LSID:n etuna on riippumattomuus käytettävästä protokollasta, riippumattomuus ratkaisumekanismista. URL:n ottaminen käyttöön vaatisi suunnitelman metadatan liittämisestä ja formaatista. Lisäksi eivät luota URL:ien säilymiseen muuttumattomina [6]. LSID onkin "tyhmä tunniste" (spesifikaationsa mukaan "opaque"), joka ei sisällä tietoa esim. sijainnista, vaan toimii vain tunnisteena. Tieto sijainnista ym. metadata on tallennettuna muualle.

Voidaanko kuitenkin varautua tilanteeseen että LSID:n käyttö loppuu ja tunnisteissa siirrytään URL:eihin? Periaatteessa silloin LSID:stä voidaan jättää etuliite "urn:lsid" pois ja muuttaa ensimmäinen kaksoipiste kauttaviivaksi, jolloin saadaan URL. Tähän URL:iin voidaan sitten sijoittaa tietoa objektista (tai palvelimelle sijoittaa palvelu, joka palauttaa tietoa objektista). Täytyykö tässä vaiheessa miettiä onko esim. em. osoite teknisesti toimiva, vai tarvitaanko nimiavaruuden tunnisteen eteen lisämerkkejä? ("lsid/?lsid=" olisi kätevä, mutta pelkkään varautumiseen varmaankin liioittelua.)

LSID voi toimia tunnisteena tiedolle tai abstraktille asialle. LSID:n kohde on muuttumaton: jos kohde muuttuu, täytyy sille antaa uusi versionumero tai tunniste. Kohdetta koskevaa metadataa voidaan päivittää. [4]

LSIDs are intended to be semantically opaque, in that the LSID assigned to a resource should not be counted on to describe the characteristics or attributes of the resource that the LSID refers to. [4]

LSID-tunnisteilla on seuraavia URN:ien ominaisuuksia [3, 4]:

  • Global scope: A LSID is a name with global scope that does not imply a location. It has the same meaning everywhere.
  • Global uniqueness: The same LSID will never be assigned to two different objects.
  • Persistence: It is intended that the lifetime of an LSID be permanent. That is, the LSID will be globally unique forever, and may be used as a reference to an object well beyond the lifetime of the object it identifies or of any naming authority involved in the assignment of its name.
  • Scalability: LSIDs can be assigned to any data element that might conceivably be available on the network, for hun-dreds of years.
  • Legacy Support: The LSID naming scheme must permit the support of existing legacy naming systems, insofar as they meet the requirements specified below.
  • Extensibility: Any scheme for LSIDs must permit future extensions to the scheme.
  • Independence: It is solely the responsibility of a name issuing authority to determine conditions under which it will issue a name.
  • Resolution: A URN will not impede resolution (translation to a URL).

Nimeäminen

LSID-tunniste muodostetaan tietyn kaavan mukaan. Tunniste ei itsessään välitä tietoa.

LSIDs are intended to be semantically opaque, in that the LSID assigned to a resource should not be counted on to describe the characteristics or attributes of the resource that the LSID refers to. [3, 4]

LSID-spesifikaation mukaan pienillä ja suurilla kirjaimilla on merkitystä (case-sensitive) nimiavaruuden, objektin ja version tunnisteen kohdalla [4]

LSID-tunniste koostuu seuraavista osista [4, 11]:

  1. "URN"
  2. "LSID"
  3. authority-tunniste (authority identification)
  4. nimiavaruuden tunniste (namespace id)
  5. objektin tunniste (object id=
  6. versiotunniste (revision id; vapaaehtoinen)

Authority-tunniste

The authority identification is usually an Internet domain name. In this case it is recommended that it be owned by the organization that assigns an LSID in question. Such organization is responsible for ensuring the uniqueness of the string created from the namespace, object and revision identifications. [4]

In the case where the authority identification string is not an Internet domain name, the authority should take care to ensure that it is a unique string and if possible, register that unique string with the organization that is currently the authority for the URN Namespace Identifier (NID) "lsid". [4]

Käytettävän verkkotunnuksen ei tarvitse osoittaa LSID-palvelimen IP-osoitteeseen [1].

Nimiavaruus

The namespace identification is an alphanumeric sequence that constrains the scope in which the subsequent object identification is resolved. [4]

Nimiavaruuden tunniste saa sisältää ainakin merkkejä - _ . [4].

Nimiavaruus on vain tapa estää saman tunnisteen antaminen useammalle kohteelle. Sen tunniste ei itsessään merkitse mitään. Jos tunnisteeksi valitaan jotakin merkitsevä merkkijono, vaarana on että se tulkitaan metadataksi. Tämän välttämiseksi nimiavaruuden tunnisteen ei tulisi merkitä mitään.

Objektin tunniste

The object identification is an alphanumeric sequence. [4]

Samoin kuin nimiavaruuden tunniste, myöskään objektin tunniste ei merkitse itsessään mitään.

Versiotunniste

The revision identification is an alphanumeric sequence. It is an optional component of the LSID. [4]

Versiotunnisteen (vapaaehtoinen) avulla voi kertoa että kohde on muuttunut. Tunnisteena käytetään yleensä numeroa, mutta siinä voi olla muitakin merkkejä.

Metadata ja Resolution

LSID:n kohteesta voidaan välittää metadataa RDF-muodossa. On suositeltavaa että metadataviittaukset tehdään molmepiin suuntiin, jotta kohde löydettäisiin vaikka käytettävissä olisi vain osa metadatasta. [1]

LSID:n käyttö kokoelmanäytteiden yksilöinnissä

LSID on tarkoitettu datan identifiointiin sitä vaihdettaessa. Sitä ei ole suunniteltu ensisijaisesti käytettäväksi manuaalisesti, eikä liitettäväksi todellisiin objekteihin (esim. näytteisiin). Miten LSID:t sopivat todellisten näytteiden merkintään? LSID:n käyttö näytteiden tunnistamiseen

GBIF:n tavoitteena on että myös näytteet merkittäisiin LSID-tunnisteilla [Hannu, ks. myös 11]. Ei kuitenkaan ole yleisesti hyväksyttyä mielipidettä, pitäisikö näiden tunnisteiden toimia myös näytettä koskevien tietueiden tunnisteina. Toinen vaihtoehto on että näytteen tunniste liitetään tietokannassa toiseen tunnisteeseen, joka on nimenomaan tietueen tunniste [Hannu].

On myös ratkaisematta miten tulisi toimia, jos yhdestä näytteestä useita tietueita (esim. usean digitointiprosessin tuloksena) [Hannu, 10]? Liitettäisiinkö näytteeseen tällöin useampi tunniste-etiketti, vai olisiko molemmilla tietueilla sama LSID? Jälkimmäisessä tapauksessa tietueilla tulisi olla myös toinen tunniste (edellä mainittu toinen vaihtoehto).

Miten näytteille tulisi antaa LSID-tunnisteita, jotta valittu toimintatapa olisi sovelias riippumatta käytetäänkö tunnistetta? Tällä ei ole merkitystä, koska LSID-tunnisteiden tulee joka tapauksessa olla uniikkeja koko maailman mittakaavassa.

Mitä jos tietueen tietosisältö muuttuu, mutta sen kohde ei? (Eli jos näytteen tietoja päivitetään.) Jos tämä voidaan hoitaa versionumerolla, voitaisiin versionumerona käyttää juoksevaa numeroa (tai esim. aikamerkintää sekunnin tarkkuudella.) Tätä ei ole syytä kirjata etiketille, vaikka näytteen tunniste olisi sama kuin tietueen tunniste.

LSID-tunnisteen merkintä etiketille

Miten tunniste merkitään etikettiin? Tilanpuute aiheuttaa tässä rajoituksia tunnisteen pituudelle. Etenkin hyönteisillä tulisi käyttää mahdollisimman pieniä etikettejä kokoelman tarvitseman tilan minimoimiseksi. Jos etiketille liitetään viivakoodi, se vie lisää tilaa. Pitkät viivakoodit ovat myös lukulaitteille vaikeampia kuin lyhyet.

Mikä olisi kätevin tapa merkitä näytteet?

  • Helppolukuinen ihmisille
  • Ei sisältäisi erikoismerkkejä, jotta ei syntyisi ongelmia merkistöjen, viivakoodistandardien tai viivakoodilukijoiden kanssa
  • Ei sisältäisi pienaakkosia, koska jotkut voivat (vahingossa tai tietoisesti) tulkita ne suuraakkosiksi
  • Lyhyehkö (alle n. 15 merkkiä)
  • Yhteensopiva jo olemassa olevien tunnisteiden kanssa.

Näytteitä myös lainataan museon ulkopuolelle ja niihin viitataan etiketissä olevan tunnisteen avulla (esim. tyyppinäytteisiin lajinkuvaus- ja revisioartikkeleissa). Tästä syystä olisi hyvä että näyte löydettäisiin tällä tunnisteella myös museon ulkopuolisissa tietojärjestelmissä. Tämä lienee kuitenkin helposti toteutettavissa, vaikka tietueen tunniste eroaisi näytteen tunnisteesta: LSID-resoluutiopalvelun tulee tuntea myös näytetunnisteet.

Yhtenä vaihtoehtona viivakoodilla esitettävästä näytteen LSID-tunnisteesta voidaan jättää pois kaikki muut osat paitsi nimiavaruuden ja objektin tunniste. Tällöin viivakoodi ei ole liian pitkä. Mutta miten tässä tilanteessa erotetaan LSID-viivakoodit muista viivakoodeista, joita museolla jo on? (Minkä verran?) Ratkaisuna voisi olla käyttää etu- tai välimerkkiä, jota ei ole käytetty muissa viivakoodeissa. Välimerkkiä käyttämällä nimiavaruuden pituudella ei ole väliä, sillä viivakoodi voidaan jakaa osiin välimerkin kohdalta.

Esimerkiksi GAAX12345, jossa GAA on nimiavaruuden tunniste, X välimerkki ja 12345 objektitunniste.

Lyhymmillään tunniste voi olla muotoa GX1, joka on täyspitkänä LSID-tunnisteena urn:lsid:luomus.fi:G:1

Tunniste on merkittävä etiketille myös selväkielisenä, jotta sen luku onnistuu ilman viivakoodinlukijaa. Jotta tunniste olisi käyttökelpoinen myös museon ulkopuolella, tulisi tunnisteen olla kirjoitettu täydellisenä.

Viitteet

[1] http://www-128.ibm.com/developerworks/opensource/library/os-lsidbp/

[2] http://www.bio-itworld.com/archive/011204/lsid.html

[3] http://xml.coverpages.org/lsid.html

[4] http://www.omg.org/cgi-bin/doc?dtc/04-05-01

[5] http://wiki.gbif.org/guidwiki/images/GUID-1Report.pdf

[6] http://www.tdwg.org/fileadmin/subgroups/tip/GUID2Report.pdf

[7] http://www.nodalpoint.org/node/1571

[8] http://lists.w3.org/Archives/Public/public-semweb-lifesci/2004Apr/0000.html

[9] Sematic Web Seminar, 1/2008.

[10] http://circa.gbif.net/Public/irc/gbif/dadi/library?l=/architecture/globallyuniqueidentifier/_EN_1.0_&a=d

[11] http://www.gbif.org/Stories/STORY1143196078