Kotkan käyttöönotto

Last modified by akuusija@helsinki_fi on 2024/02/07 06:51

Englanninkielinen sivu: Starting to use Kotka

Tässä kuvataan prosessi, jolla uusi sähköinen aineisto viedään Kotkaan organisaation ottaessa Kotkan käyttöön.

(LTK = Luomus/Lajitietokeskus, Asiakas = tiimi/organisaatio, joka on ottamassa Kotkaa käyttöön.)

Yleiskuvaus

  1. Tavataan, tutustutaan dataan ja suunnitellaan. Kirjataan mitä kukin tekee.
  2. Asiakas hoitaa oman osuutensa (datan siivouksen, dokumentoinnin ja muunnokset). Datan päivitys lopetetaan vanhassa järjestelmässä.
  3. LTK hoitaa oman osuutensa (Kotkan uudet ominaisuudet, datan siivouksen ja muunnokset).
  4. Asiakas tekee datalle välitarkistuksen, jos näin on sovittu.
  5. LTK siirtää datan Kotkaan ja arkistoi sen raakamuodossa Lajitietokeskuksen tietoarkistoon. LTK toimittaa asiakkaalle raportin datan siirrosta tiimille.
  6. Asiakas sulkee vanhan järjestelmän ja ottaa datasta oman arkistokappaleen itselleen. Asiakas ryhtyy käyttämään Kotkaa.

Tiimin tai kokoelman siirtyminen

1) Sopiminen

Ensin LTK ja asiakas tapaavat (kasvokkain tai etänä), tutustuvat dataan ja sopivat miten asiassa edetään.

Aluksi asiakkaan kannattaa toimittaa data tai osa siitä LTK:lle tutustuttavaksi. Samalla olisi hyödyksi tehdä kuvaus ja toimittaa datarakenteen dokumentaatio: mitä eri tietokentät tarkoittavat, millaisia arvoja niihin on tallennettu, mahdolliset sudenkuopat ja vaikeasti ymmärrettävät asiat, sekä mahdolliset suunnitelmat ja toiveet. LTK tutustuu tämän perusteella dataan ennen kuin etenemisestä sovitaan.

  • Sovitaan kuka on asiakkaan yhteyshenkilö (joka mm. huolehtii että tiimi ei muokkaa dataa samaan aikaan kuin LTK)
  • Selvitetään mitä työvälineitä ja/tai tallennuspaikkoja käytetään nyt, ja mitkä näistä korvataan Kotkalla ja muilla Lajitietokeskuksen palveluilla. Tutustutaan datan rakenteeseen ja laatuun.
    • Näytteet
    • Lainat
    • Taksonomia
    • Muu data (esim. tutkimushankkeiden)
  • Sovitaan mitä dataa siirretään, sekä siirretäänkö koko kokoelma kerralla vai pikku hiljaa
    • Kerralla: datan siirto teettää työtä ja vie aikaa (ks. alla), mutta ei tarvitse käyttää kahta järjestelmää yhtä aikaa
    • Pikku hiljaa: ominaisuuksia voi kehitellä kokemusten perusteella, aloittamaan päästään heti
  • Sovitaan yleisistä asioista
    • Sovitaan mitä verkkotunnusta käytetään tunnisteiden osana? (id.luomus.fi, tun.fi vai organisaation oma)
    • Sovitaan minkä organisaation tai osaston omistukseen kokoelma ja näytteet tilitetään
  • Selvitetään mitä uusia ominaisuuksia tarvitaan ja kuinka oleellisia nämä ovat (must/should/nice to have). 
    • Kentät
    • Etiketit
    • Raportit
    • Salaukset (huomaa että salausperusteen täytyy tulla laista)
    • Onko erityisiä ongelmia, joita Kotkalla voisi ratkaista?
    • Muuta?
  • Sovitaan kummankin vastuista
    • Datan irroitus alkuperäislähteestä (oletus: asiakas)
    • Datan siivoaminen / laadun parantaminen, ja kuinka perusteellisesti tätä tehdään (oletus: asiakas) 
    • Datan muunnos Kotkan/LTK:n tallennusmuotoon (oletus: asiakas)
    • Haluaako asiakas tarkistaa datan ennen lopullista siirtoa Kotkaan/LTK:een (oletus: ei, koska on itse hoitanut muunnokset)
    • Datan vienti Kotkaan (oletus: LTK, jos > 20.000 näytettä tai jos vanhan kokoelman muokkauspäivämäärät & -henkilöt halutaan säilyttää)
    • Siirtoprosessin dokumentointi (oletus: kukin oman osansa, LTK kokoaa yhteen)
    • Uusien ominaisuuksien tekeminen Kotkaan (oletus: LTK)
    • Taksonomian ylläpito (oletus: Luomus)

2 ja 3) Datan muokkaaminen

Data muokataan mahdollisimman pitkälle Kotkan käyttämään Excel-tallennusmuotoon ennen vientiä Kotkaan. Jos datan vie asiakas, datan täytyy olla täsmälleen Kotkan vaatimassa muodossa. Jos data poikkeaa Kotkan muodosta (esim. se ei täytä validointisääntöjä, tai vanhat luonti- ja muokkauspäivämäärät halutaan säilyttää haettavina), vie LTK datan Kotkaan erikseen sovittavalla tavalla.

Ennen muokkausta kannattaa päättää kuinka paljon sitä siivotaan, eli kirjoitusasuja yhtenäistetään (erityisesti paikan- ja henkilönimet), tietoja pilkotaan omiin kenttiinsä (erit. lisätietokentistä) ja ilmeisiä virheitä korjataan (erit. päivämääriä). Kannattanee aluksi tähdätä näytetietojen sujuvaan siirtoon, ja siivota vain suurimmat ja yleisimmät ongelmat. Laatua voi parantaa myöhemminkin, ja Kotkassa on tätä tukevia haku- ja tilastointiominaisuuksia.

Riippumatta kumpi datan muokkauksen hoitaa, sujuu se suunnilleen samalla tavalla. Se voidaan tehdä erilaisilla työkaluilla ja niiden yhdistelmillä, esim. alkuperäisen tietokannan välineillä, Open Refinellä, skripteillä (R, Python...) tai Excelillä. On tärkeä huolehtia että vain yksi henkilö muokkaa dataa kerrallaan!

Tutustu myös datan muuntamisen ja siivoamisen yleisiin peraatteisiin sekä checklistiin tehtävistä asioista.

  1. Tutustu dataan (Open Refinellä tm.), sen dokumentaatioon sekä aiemmin sovittuihin asioihin, sekä kirjaa muistiin
    1. Mikä kenttä mapataan mihinkin
    2. Epäselvät asiat
    3. Kentät, joita ei ole Kotkassa sellaisenaan
  2. Kysy kun on kysyttävää, tavoitteena saada selville
    1. Ratkaisu epäselviin asioihin
    2. Tarvitaanko uusia kenttiä, vai hoidetaanko vanhoilla (mihin uusia käytettäsiin ja kuinka usein?)
    3. Pitääkö dataa täydentää uusilla näytteillä tai tarkemmilla tiedoilla
  3. Siivoa dataa ja muunna Kotkan muotoon
    1. Ks. laajempi Datansiirto-checklist
    2. Kirjaa muistiin listaksi mitä datalle tehty
    3. Kirjaa muistiin mitä muokkauksia ja poikkeuksia LTM:n mahdollisesti pitää tehdä kun data viedään Kotkaan
    4. Ota datasta ajoittain varmuuskopio (esim. parin tunnin välein)
  4. Kokeillaan importata testi-Kotkaan näytteitä (muutama sata satunnaista). Palataan muokkaamaan dataa, jos tarpeen.

4) Tarkistus

LTK toimittaa muunnetun datan tarkistettavaksi asiakkaalle, mikäli näin on sovittu. Jos tiedoissa on virheitä, palataan kohtiin 2 ja 3 korjaamaan virheet.

5) Tallennus Kotkaan

Data tallennetaan Kotkaan. Jos LTK tekee tallennuksen ja siinä on erikoisuuksia, hoitaa LTK nämä aiemmin sovitun mukaisesti. Lopuksi raakadata arkistoidaan ja siirto dokumentoidaan niin että myöhemmät tutkijat voivat ymmärtää datan erikoisuuksia ja jäljittää siirrossa mahdollisesti tapahtuneita virheitä.

  1. LTK arkistoi alkuperäisen ja muunnetun datan (sekä mahdolliset muunnosskriptit) LTK:n data-arkistoon.
  2. LTK ja asiakas kokoavat loppuraportin
    1. Raportti toimitetaan asiakkaalle ja LTK:lle
    2. LTK arkistoi raportin LTK:n data-arkistoon
  3. LTK kirjaa muistiin opitut asiat ja soveltaa niitä (esim. muokkaamalla tätä ohjetta paremmaksi)

6) Siirtyminen käyttämään Kotkaa

  • Asiakkaan edustajat siirtyvät käyttämään Kotkaa.
  • Asiakas sammuttaa vanhan järjestelmän ja mahdollisesti arkistoi sen (esim. asennuspaketin, skriptit).
  • Asiakas arkistoi vanhan järjestelmän datan tilanteeseen sopivalla tavalla (esim MySQL-export-tiedosto, Excel-tiedostot).

Yleistä muunnoksista

Muista että jokaiselle näytteelle tarvitaan

  • recordType: yleensä PreservedSpecimen
  • Jonkinlainen paikkatieto
  • Kokoelma, johon kuuluvat
  • Tagi, jolla importoitu aineisto tunnistetaan kokonaisuudessaan
  • Digitariumin digitoimat näytteet liitetään lisäksi omaan tagiinsa GX.270

Päivämäärien ja henkilönimien käsittely

Siirretty -> Entering specimen data

Muunnostyökaluja