Datan siivous ja muokkaus

Last modified by Anniina Kuusijärvi on 2024/02/12 16:08

Englanninkielinen sivu: Data cleaning and transformation

Tämä ohje kertoo miten vanhaa kokoelmanäytedataa tulisi siivota ennen Kotkaan tallentamista. Ohjetta voi soveltaa muihinkin aineistoihin.

Yleistä

Tavoitteena on

  • Muokata data Kotkan käyttämään muotoon:
    • jakaa data oikeanlaisiin sarakkeisiin
    • muuttaa data käyttämään vakioitua sanastoa tietyissä kentissä
  • Korjata virheitä
  • Täydentää, jos tarpeen
  • Yhtenäistää dataa mahdollisuuksien mukaan niin, että vapaatekstillä ilmaistavat asiat esitetään samoin periaattein

Siivoamisesta vastaa kukin tiimi itse, mutta siivoaminen kannattaa suunnitella yhdessä ICT-tiimin kanssa. Tiimi auttaa etenkin suurimpien ja monimutkaisimpien aineistojen kanssa.

Sähköisessä muodossa oleva data voidaan viedä Kotkaan kahdella tavalla:

A) Tallentamalla se itse Excel-tiedostoon, joka viedään Kotkaan . Tämä on suositeltava tapa, jos dataa on enintään muutamasta tuhannesta näytteestä. Data täytyy muuntaa Kotkan Excel-formaattiin, jotta sen tallennus onnistuu. Valmiit tallennuspohjat ja datan kuvaus löytyvät Kotkasta.

B) Sopimalla  ICT- tiimin kanssa että data viedään sisään sen toimesta . Näin kannattaa tehdä jos dataa on tuhansista näytteistä. Datan vienti onnistuu sitä helpommin mitä paremmin se vastaa Kotkan Excel-formaattia. 

Tärkeitä periaatteita

  1. Siivoamisessa on  yksi nimetty vastuuhenkilö , joka päättää kuka muokkaa dataa missäkin vaiheessa ja miten.
  2. Siivottavaa dataa ei lähetellä Luomuksen sisällä henkilöltä toiselle sähköpostitse, eikä tallenneta omalle työasemalle, vaan se pidetään verkkolevyllä. (Luomuksen ulkopuolella dataa joudutaan luonnollisesti lähettämään sähköpostilla, mutta tämä pyritään pitämään minimissä)
  3. Aineistoa siivotessa täytyy olla tarkkana mikä on sen primäärikopio (ns. ”master-data”).  Kaikki muutokset ja lisäykset tehdään vain ja ainoastaan primäärikopioon . Näin vältytään tilanteelta jossa datasta on useita erilaisia kopioita, joista yksikään ei sisällä kaikkia korjauksia ja lisäyksiä. Primääritiedosto merkitään lisäämällä tiedostonimeen sana PRIMARY. Jos tästä tiedostosta tehdään kopioita, niistä tämä sana poistetaan.
  4. Jos dataan tehtyjä  muutoksia halutaan jotenkin korostaa, siivoaja tekee  datataulukkoon uuden  sarakkeen Muutettu , johon merkitsee numeron 1 niille riveille, joita on muutettu. Näin muutetut rivit voi helposti löytää ja suodattaa erilleen. Muutetun solun voi korostaa esim. värillä, mutta väri ei saa olla ainoa merkintätapa, koska väreillä on vaikea hakea eivätkä värit säily esim. OpenRefineen vietäessä.

Dokumentointi ja arkistokopiot

Siivoustyön edetessä datasta kannattaa tehdä säännöllisin väliajoin arkistokopioita ja kirjata (karkeasti) muistiin mitä muutoksia kuhunkin kopioon on tehty. Näin aiempaan dataan voidaan aina palata (esim. jos osa datasta vahingossa tuhotaan).

Siivoustyön edetessä kirjataan muistiin millaisia siivoustoimia datalle on tehty. Tavoitteena on että datan myöhemmät käyttäjät voivat jäljittää mahdollisia epäselvyyksiä ja arvioida datan laatua. Mieti mitä itse haluaisit kysyä tutkimustyössä käyttämäsi datan aiemmilta käsittelijöiltä? Esim. 

  • onko dataa haettu muista lähteistä, kuten keruupäiväkirjoista tai julkaisuista
  • onko alkuperäisiä lyhenteitä kirjoitettu auki (henkilönimiä, muuttujia)
  • onko paikannimiä modernisoitu
  • tehtiinkö dataan jotain tulkintoja

 Jos dataa muokataan Open Refinella, otetaan siitä talteen muokkaushistoria Extract Operation History -työkalulla.

Työkalut

Pieniä datan korjauksia voi tehdä esim.  Excelissä . Suurempaan siivoukseen soveltuu esim. OpenRefine-ohjelma (ent. Google Refine), jolla voi helposti etsiä poikkeavaa dataa, yhtenäistää kirjoitustapoja, pilkkoa ja yhdistellä sarakkeita ym. OpenRefinellä tehdyt muutokset kannattaa tallentaa asetustiedostoon, joka säästetään dokumentaation ohessa.

Muistiinpanot voi kirjoittaa  tekstieditorilla  tai  Word -tiedostoon

Apua datan muokkaukseen ja siivoukseen

  • kotka(at)luomus.fi
  • OpenRefine-tutoriaali ja siihen liittyvä datatiedosto Luomuksen datalla

Excel-tiedosto: kts. attachments-osio