SSH-alojen aineistonhallinnan (RDM) käsikirja 2024
SSH-alojen aineistonhallinnan (RDM) käsikirja (versio 20240118_01)
Tässä dokumentissa työversio viidestä SSH-alojen RDM-käsikirjan osasta - saman versiot luettavissa myös word-dokumentteina tässä kansiossa:
https://helsinkifi-my.sharepoint.com/:f:/g/personal/miojanen_ad_helsinki_fi/ErkeaD2phK5IrGrKdSIEBwkBbIXthXBUmTZxLyNlouEo3w?e=CTUAzc
Tällä hetkellä valmiina ovat A/V-aineistojen, Tuktimuskäyttöön jalostettavien tekstiaineistojen, Some-aineistojen, Kyselyaineistojen ja Rekisteriaineistojen ohjeet. Lisää käsikirjoja nyt katveeseen jääneistä alueista tuotetaan jatkohankkeisssa näistä pilottikäsikirjoista saadun käyttäjäpalautteen rikastamana.
Käsikirjojen osat ovat modulaarisia ja noudattelevat seuraavaa jäsennystä:
1. Aineiston määritelmä
2. Tutkimuksen suunnittelu
3. Lainsäädännölliset kysymykset ja sopimukset
4. Tutkimuseettiset kysymykset ja tutkimusluvat
5. Aineiston keruu
6. Aineiston esikäsittely ja analysointi
7. Dokumentaatio
8. Aineiston säilytys projektin aikana
9. Aineiston avaaminen, arkistointi ja hävittäminen
Käsikirjat julkaistaan HSSH-instituutin sivuilla osoitteessa: [LINKKI JULKAISTUUN VERSIOON TÄHÄN] sekä HSSH-instituutin Datapankki/Zenodo-yhteisö -kokoelmassa (joka tuottaa käsikirjoille pysyvän viitattavissa olevan tunnisteen sekä versionhallinnnan): [LINKKI TÄHÄN JOS/KUN SELLAINEN JOSKUS LUODAAN].
Johdanto
[Yksittäisissä ohjeissa olevat yhteiset asiat, jotka kaikissa on siis syytä esittää samalla tavalla, kootaan tähän alkuun johdannoksi] - esim:
Pidä huolta datanhallinnan osaamisestasi. Datanhallinnan taidot ovat tutkijan perustaitoja. Yhdessä aineistonhallinnan suunnittelun kanssa ne varmistavat, että tutkija tunnistaa ja hallitsee aineiston käsittelyyn liittyvät riskit (esim. tietosuoja, tietoturva, aineiston käyttöoikeudet, aineiston säilytys). Helsingin yliopiston Datatuki järjestää tutkijoille maksutonta datanhallinnan koulutusta [https://www.helsinki.fi/fi/tutkimus/palvelut-tutkijoille/datatuki/kurssit-ja-tyopajat]. Datatuki myös ohjeistaa ja kouluttaa sekä tarjoaa työkaluja aineistonhallinnan suunnitteluun [https://www.helsinki.fi/fi/tutkimus/palvelut-tutkijoille/datatuki/aineistonhallinta].
Henkilötietojen käsittelyyn liittyy sekä juridisia että eettisiä seikkoja. Henkilötietojen laillinen käsittelyperuste on eri asia kuin henkilötietojen käsittelyyn liittyvät tutkimuseettiset seikat. Aineistotyypit eroavat toisistaan erityisesti näissä kohdissa ja tästä syystä tutkimuksen juridisiin ja tutkimuseettisiin asioihin keskitytään omissa osioisssaan. Merkittävin sekaannusta aihettava asia on tutkimukseen osallistumisen suostumus, joka on eettinen asia. Henkilötietoja voidaan yleisen edun nimissä kerätä ja käsitellä, kunhan rekisteröityjä (ts. tutkimukseen osallistuvia) on informoitu. Informointia varten ei tarvita allekirjoitettua suostumuslomaketta. Tutkimuseettinen seikka puolestaan koskee sitä, että rekisteröidyillä on oikeus tietää, että he osallistuvat tutkimukseen. Salaa henkilötietoja käsittelevää tutkimusta ei siis saa tehdä - paitsi poikkeustapauksessa, jolloin tutkimusasetelmasta pitää saada lausunto oman tieteenalan eettisen ennakkoarvioinnin toimikunnalta. Eettinen lausunto ei ole tutkimuslupa - tutkimuseettinen vastuu säilyy aina tutkimuksen tekijällä. / Helsingin yliopiston / Datatuki: Henkilötietotesti [https://redcap.link/kk9w7k2k]
Tutustu myös kansalliseen arkaluonteisten aineistojen käsittelyn ohjeeseen (päivitetty 2024 / LINKKI TÄHÄN KUN OPAS ON VALMIS).
SELVITÄ esim. LOTALTA, ONKO JOKU ERITYINEN SYY VALITA JOISSAIN TAPAUKSISSA HENKILÖTIETOJEN LAILLISEKSI KÄSITTELYPERUSTEEKSI SUOSTUMUS. Ts. miksi emme aina vain neuvo käyttämään yleistä etua?
Osio\Käsikirja | xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx A/V-aineistot | xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Tutkimuskäyttöön jalostettavat tekstiaineistot | xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Some-aineistot | xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Kyselyaineistot | xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Rekisteriaineistot |
| 1. Aineiston määritelmä | Tässä oppaassa video- ja äänitallenneaineistoilla tarkoitetaan tutkimusta varten kuvattuja videoita ja äänitallenteita, joissa esiintyy ihmisiä. | Tämä opas käsittelee laajoihin tekstiaineistoihin – erityisesti rakenteiseen muotoon jalostettaviin tekstisisältöihin – liittyviä tutkimusaineistonhallinnan kysymyksiä. Tekstisisällöt voivat olla peräisin tutkimusryhmän ulkopuolisesta lähteestä – esimerkiksi eri muistiorganisaatioilta, tai tutkimusryhmien itse keräämiä – esimerkiksi skannatut kirjat ja muut dokumentit. Tässä käsitellään erityisesti ryhmän ulkopuolelta tulevan tekstiaineiston parissa työskentelyä, mutta ehdotetut ratkaisut ovat sovellettavissa itsekerätyn tai projektissa tuotetun aineiston kanssa työskentelyyn. Erityishuomiota kiinnitetään aineiston RDF-muotoon (Resource Description Framework, eli standardoitu malli tiedon vaihtoon erityisesti verkkosovellusten välillä) muuttamisen sekä semanttisen webin käyttöliittymän (ks esim. Biografiasampo) luomiseen. Tässä oppaassa käytetään termejä raakadata (luonnollista tai rakenteista tekstiaineistoa), lähdeorganisaatiot (tahot, joilta käsiteltävä raakadata saadaan) jalostettu data (rakenteiseen muotoon muutettu tekstiaineisto), prosessointiputki (ohjelmisto, jolla raakadata muutetaan jalostettuun muotoon), portaali (loppukäyttäjän käyttöliittymä). | Tämä opas käsittelee sosiaalisen median alustoilta tutkimuskäyttöön kerättävää sisältöä (somedata) sekä muita digitaalisia jalanjälkiä. Tutkijan kannalta oleellista on tuntea oman tutkimuksen kohteena olevan sosiaalisen median alustan toimintaperiaatteet. Tärkeää on myös seurata aktiivisesti sosiaalisen median alustojen muutoksia, sillä ala muuttuu poikkeuksellisen nopeasti. Sosiaalinen media on tutkimusympäristönä vielä varsin nuori. Nämä erityispiirteet aiheuttavat sen, että huomioitavia yksityiskohtia on paljon. Tämän ei kuitenkaan kannata antaa lannistaa, vaan somedataa kannattaa hyödyntää tutkimuksessa. Ks. myös Toolkit for Digital Methods: https://wiki.helsinki.fi/xwiki/bin/view/TDM/ | Tässä oppaassa kyselyaineistolla tarkoitetaan valitulle ihmisjoukolle lähetetyllä (sähköisesti tai kirjeitse), annetulla tai puhelimitse tai kasvokkain tehdyllä, samat kysymykset sisältävällä kyselyllä kerättyä aineistoa. Aineisto voi olla kvantitatiivista tai kvalitatiivista riippuen kysymyksistä tai kyselylomakkeen kentistä. Kvantitatiivisen tutkimuksen kyselyssä kyselyjen muoto on tyypillisesti väite tai kysymys, jota seuraa mitta-asteikko, esimerkiksi Likert-asteikko tai kyllä/ei-asteikko. Kysely voidaan antaa tutkittaville kerran tai useita kertoja erilaisilla aikaväleillä, esimerkiksi kokemusotantatutkimuksessa useita kertoja päivässä lyhyen ajanjakson ajan, pitkittäistutkimuksessa joitakin kertoja useiden vuosien sisällä. | Tämä opas käsittelee viranomaisten hallinnon ja suunnittelun tarpeisiin keräämiä yksilötasoisia rekisteriaineistoja, joita ei alun perin ole kerätty tutkimuskäyttöä varten. Aineistoja ylläpitävät rekisterinviranomaiset, joista keskeisimpiä ovat Tilastokeskus [https://tilastokeskus.fi/tup/mikroaineistot/index.html] sekä toisiolain alaiset julkiset rekisteriviranomaiset, jotka on listattu Findatan verkkosivulle [https://findata.fi/aineistot/#mita-aineistoja-findatan-kautta-on-saatavilla]. Findata on tietolupaviranomainen, jonka kautta toisiolain alaisia, eli sosiaali- ja terveysalan, rekisteritietoja voi hakea. Muita kuin toisiolain alaisia rekisteritietoja haetaan kultakin rekisteriviranomaiselta erikseen (esim. Tilastokeskus, Opetushallitus, Digi- ja väestötietovirasto, Puolustusvoimat, Oikeusrekisterikeskus, ORK). Yksilötasoisia rekisteritietoja voi käyttää tutkimukseen joko sellaisinaan tai niitä voi yhdistää muihin tietoihin, kuten kyselyihin (ks. ”Rekisteriaineistojen yhdistäminen kyselyihin -ohje”). Yksilötasoisten tietojen yhdistely eri rekistereiden sekä muiden tietolähteiden välillä on mahdollista henkilötunnuksella, joka yksilöi kaikki Suomessa vakituisesti asuvat henkilöt. |
| 2. Tutkimuksen suunnittelu | Suunnittele etukäteen aineiston keruu, aineiston säilyttäminen ja käsittely tutkimuksen aikana sekä aineiston arkistointi tai hävittäminen tutkimuksen jälkeen. Jos aineistojen hallintaan ei ole varattu aikaa tai sitä ei ole suunniteltu etukäteen, aineistoista huolehtiminen jää usein julkaisemisen jalkoihin. Seurauksena on, että tutkimuksen kannalta arvokkaiksikin koettuja aineistoja jää järjestelemättömänä eri paikkoihin ja niiden jatkokäyttö voi olla vaikeaa tai mahdotonta. Aineiston jatkokäyttö on huomioitava jo aineistonhallinnan suunnitteluvaiheessa (esim. jatkokäyttölupien ja metadatan tuottamisen takia). Muun muassa Kielipankilta löytyy tiivis muistilista aineistonhallinnan suunnitteluun [https://www.kielipankki.fi/tuki/aineistonhallintasuunnitelma/] sekä kattavampi konkreettinen ohjeistus aineiston tuottajalle [https://www.kielipankki.fi/tuki/ohjeita-sisallontuottajille/]. | Julkaistava data tutkimustuotoksena samassa asemassa kuin artikkeli tai kirja. Projektissa syntyvän jalostetun datan julkaiseminen korostuu laajojen rakenteisten tekstiaineistojen tutkimuksessa enemmän kuin tyypillisissä tekstiaineistoihin perustuvan tutkimusotteen projekteissa. Tutkimusartikkeleiden ja muiden perinteisten tutkimusjulkaisujen ohella myös rakenteiseen muotoon jalostettu data pyritään poikkeuksetta tekemään käytettäväksi erillisessä käyttöliittymässä tai julkaisemaan sellaisenaan. Tutkimusprojektissa syntyvän rakenteisen datan julkaisemisen mahdollistamiseksi datanhallinnan ennakointiin on syytä kiinnittää huomioita. Datan ja tutkimusprosessin dokumentointi tärkeää. Jotta datan saattaminen julkisesti muiden käytettäväksi on mahdollista, data ja tutkimusprosessi pitää dokumentoida tarkasti. Mahdollisimman varhaisessa vaiheessa on syytä kirjata muistiin, kuinka data kerätään ja jalostetaan, mitä mahdollisia puutteita käsittelyssä tulee vastaan jne. Monitieteisyys ja useat organisaatiot. Tutkimusta tehdään yleensä usean organisaation kesken ja monitieteisesti – esim. dataa jalostavat tietojenkäsittelytieteen tutkijat, syntyvästä datasta tutkimusta tekevät historioitsijat. Mitä huolellisemmin ja varhaisemmin tutkimusryhmä suunnittelee projektin ja sen datanhallinnan, sitä vähemmän resursseja tarvitsee käyttää projektin aikana prosessointien, ohjelmointien tai muiden työnkulkujen toistamiseen. Alle on listattu tärkeimpiä kysymyksiä, jotka tulisi ratkoa ennen tutkimuksen aloittamista. Tärkeimpiä etukäteen suunniteltavia asioita ovat:
| Somedatan keruulle ennalta yhdessä sovitut suuntaviivat helpottavat tutkimuksen tekoa. Koska somedatan keruu aloitetaan yleensä nopeasti kiinnostavan ilmiön havaitsemisen jälkeen, datanhallinnan onnistuminen riippuu työryhmän kesken ennalta sovituista suuntaviivoista. Suunnittelemalla datankeruun etukäteen tutkimusryhmäsi säästää paljon arvokasta aikaa, vaivaa ja resursseja. Alle on listattu keskeiset kysymykset, joihin kannattaa sopia valmiit ratkaisut tutkimusryhmän kesken etukäteen. Muussa tapauksessa ratkaisut joudutaan tekemään kiireessä ja tämä voi johtaa ongelmiin välittömästi (kerätty data sopii huonosti tutkimuksen päämäärien saavuttamiseen) tai pidemmällä tähtäimellä (datan prosessointi vaikeutuu huonosti yhteensopivien työkalujen vuoksi). Kiinnittäkää siis huomioita näihin mahdollisimman varhaisessa vaiheessa. (ks. myös Venturini ym. 2018.) Tärkeimpiä etukäteen suunniteltavia ja selvitettäviä asioita ovat:
Aiheuttaako suunnittelemasi tietojen käsittely korkean riskin tutkimukseen osallistuville? Arvioinnin apuna voit hyödyntää "Tarvitseeko tutkimukseni vaikutustenarviointia"-lomaketta (Helsingin yliopiston kontekstissa tutkijan tietosuojaohjeiden yhteydessä Flammassa: https://flamma.helsinki.fi/s/HRgMA) | Suunnittele etukäteen aineiston keruu, säilyttäminen ja käsittely tutkimuksen aikana sekä aineiston arkistointi tai hävittäminen tutkimuksen jälkeen. Aineistonhallintasuunnitelmaa laatiessa kiinnitä huomiota kysymysten tyyppiin ja laatuun (esimerkiksi kohdistuvatko kysymykset intiimeihin teemoihin tai voivatko vastaukset paljastaa vastaajan henkilötietoja), käytettyyn aineistonkeräysmenetelmään (esimerkiksi online-kyselylomakkeen tietoturvaan), ja kyselyaineiston säilyttämisen ja jakamisen käytäntöihin. Tyypillisen tutkimusprosessin elinkaari on noin 3–5 vuotta. Jos aineistojen hallintaan ei ole varattu aikaa tai sitä ei ole suunniteltu etukäteen, aineistoista huolehtiminen jää usein julkaisemisen jalkoihin. Seurauksena on, että tutkimuksen kannalta arvokkaiksikin koettuja aineistoja jää järjestelemättömänä eri paikkoihin ja niiden jatkokäyttö voi olla vaikeaa tai mahdotonta. Aineiston jatkokäyttö on huomioitava jo aineistonhallinnan suunnitteluvaiheessa (esim. jatkokäyttölupien ja metadatan tuottamisen takia). | Rekisteriaineistojen hallinta vaatii suunnittelua etäkäytöstä huolimatta. Yksilötasoiset rekisteriaineistot sisältävät usein henkilötietoja, joista yksilöt ovat tunnistettavissa. Suurimmat rekisteriviranomaiset (Tilastokeskus, Findata) eivät luovuta yksilötasoisia aineistoja tutkijoille, vaan tarjoavat mahdollisuuden pseudonymisoitujen aineistojen käsittelyyn etäyhteydellä omassa tietoturvallisessa käyttöympäristössään (Tilastokeskuksen Fiona, Findatan Kapseli). Näissä tilanteissa monet aineistonhallinnan yksityiskohdat ovat rekisteriviranomaisten vastuulla. Tutkija siis toteuttaa osaltaan vastuullista datanhallintaa noudattamalla etäkäyttöjärjestelmän tietosuojasääntöjä. Näissäkin tilanteissa rekisteriaineistojen käyttöön liittyy kuitenkin huomioitavia asioita, kuten riittävät ajalliset ja rahalliset resurssit – näiden huomioiminen on tärkeää jo aineistonhallintasuunnitelmaa (data management plan, DMP) tehdessä. Henkilötietojen ja sensitiivisten tietojen käsittely suunniteltava tarkkaan. Henkilötietojen ja sensitiivisten tietojen kohdalla tulee arvioida aineiston käsittelyyn liittyvät riskit, toisin sanoen, kuinka isoa haittaa tietojen paljastumisesta voi olla yksilölle tai yhteisölle. Hyvä työkalu riskitason arviointiin on aineiston käsittelyn vaikutusten arvioinnin (data processing impact assessment, DPIA) tekeminen. Aineiston käsittelyä suunnitellessa on erityisen tärkeää tunnistaa, missä kohtaa käsittelyä voi olla riskejä, esimerkiksi mahdollisuus aineiston vuotamiselle ulkopuolisille. Tässä on tärkeää huomioida kaikkien aineistoa käsittelevien huolellinen perehdytys. Huolellinen käsittely koskee myös aineistojen etäkäyttöä. Tärkeää on myös turvallisten säilytyspaikkojen valinta (ks. ”Aineiston säilytys projektin aikana”). Yhdistettäessä rekisteriaineistoja esimerkiksi kyselyaineistoihin kannattaa varata aikaa juristien konsultoimiseen. Varaa riittävästi aikaa hakuprosessiin ja huomioi kustannukset. Rekisteriaineistolla tehtävän tutkimuksen suunnittelussa keskeistä huomioitavaa on sekä ajallisten että taloudellisten resurssien riittävyys. Tilastoviranomaisten aikataulut ja hankintakulut on syytä selvittää jo tutkimuksen suunnitteluvaiheessa. Aineistojen hakuprosessit ovat tyypillisesti hitaita (usein yli vuoden mittaisia). Aineistojen hankinta- ja käyttökustannukset kasvavat jatkuvasti. Hinnat ja aikataulut riippuvat aineistojen laajuudesta, monimutkaisuudesta ja aineistoa käyttävän tutkimusryhmän koosta sekä siitä kuinka monta rekisteriviranomaista on mukana prosessissa. Hinta muodostuu käyttöluvista, aineiston muodostamisesta ja mahdollisista etäkäyttöjärjestelmän käyttökustannuksista. Suurimmat rekisteriviranomaiset julkaisevat sivuillaan hinta- ja aikatauluarvioita tyypillisiä aineistoja koskien: Tilastokeskuksen aikatauluarviot [https://tilastokeskus.fi/tup/mikroaineistot/index.html] ja hinnoittelu [https://tilastokeskus.fi/tup/mikroaineistot/aineistojen-ja-palveluiden-hinnat.html]; Findatan jonotilanne [https://findata.fi/#stats] ja hinnoittelu [https://findata.fi/hinnasto/]. Tarkista oman kotiorganisaation käytännöt kustannusten kattamisen osalta – tietyt tiedekunnat ovat varanneet budjettiinsa rahaa aineistojen käyttöoikeuksien maksamiseen. Tutkimusyhteistyön tekeminen säästää resursseja. Pitkien lupaprosessien ja aineistojen hintojen vuoksi rekisteriaineistojen käyttö kannattaa mahdollisuuksien mukaan aloittaa jo olemassa olevien tutkimushankkeiden puitteissa tutkimusyhteistyötä tehden. Tutkimusryhmillä käytössä oleviin aineistoihin on mahdollista hakea käyttölupia uusille tutkijoille. Yhteistyömahdollisuuksista ja aineistoja jo hyödyntävistä muista tutkijoista voi kysellä tietoja omasta kotiorganisaatiostaan ja samaa alaa tutkivilta kollegoilta.
|
| 3. Lainsäädännölliset kysymykset ja sopimukset | Henkilötietojen keräämistä varten on tehtävä tietosuojailmoitus. Henkilön kuva ja ääni ovat henkilötietoa, joten video- ja äänitallennetun aineiston kerääminen edellyttää tietosuojailmoitusta. Ilmoituksen voi toimittaa tutkittaville myös ennakkoon, ja sitä on hyvä pitää esillä myös tutkimushankkeen verkkosivuilla. Minimoi henkilötietojen keruu. Tietosuoja-asetuksen mukaan ”tutkimus tulee toteuttaa ilman henkilötietoja aina kun mahdollista”. Henkilötietojen tarpeellisuus on arvioitava mahdollisimman varhaisessa vaiheessa tutkimusta ja kerättävien ”henkilötietojen on oltava riittäviä, olennaisia ja välttämättömiä käsittelyn tarkoituksen kannalta”. (Ks. esim. Tietosuoja: https://tietosuoja.fi/henkilotietojen-minimointi-tieteellisessa-tutkimuksessa) Sovi aineistojen omistus-, käyttö- ja tekijänoikeuksista myös tutkimusryhmän ja tutkimuksen suorituspaikan kesken. Ennen aineistonkeruuta on tärkeää sopia tutkimusprojektin kumppaneiden kanssa vähintään aineistojen omistus- ja käyttöoikeuksista, käsittelystä, säilyttämisestä ja mahdollisesta avaamisesta. Sopimuksia voi tarkentaa tutkimuksen edetessä. Mitä tulee tekijänoikeuksiin ja lähioikeuksiin, Kielipankin sivuilla on tiivis tietopaketti, ”Alkuperäisen aineiston tekijänoikeus ja lähioikeudet” [https://www.kielipankki.fi/tuki/keruuvaiheen-luvat/]. | Rutiinia sopimusten tekemiseen. Laajoja tekstiaineistoja käsittelevä tutkimus perustuu usein toiselta organisaatiolta saatavaan tekstikorpukseen, minkä takia datanhallintaan liittyvät sopimukset ovat tärkeitä. Sekä tutkimusta tekevän ryhmän että tekstikorpuksen tarjoavan organisaation etujen mukaista on, että datan käyttämiselle ja julkaisemiselle on olemassa selkeä, kirjallinen ja yhdessä sovittu sopimus. Datan käsittelyä koskevien sopimusten tekemisestä kannattaa muodostaa rutiini. Sopimuksen ei tarvitse olla monimutkainen, mutta tärkeää sille on selkeys ja yksiselitteisyys: mitä dataa annetaan, kenelle, millä ehdoilla, mitä dataa voidaan julkaista, millä lisenssillä tai missä repositoriossa data voidaan julkaista, ja niin edelleen. Sopimuksen laatimisen apuna voi käyttää esimerkiksi Helsingin yliopiston intranetistä löytyviä ohjeistusta [https://flamma.helsinki.fi/s/M42y8] sekä esitietolomaketta [https://flamma.helsinki.fi/documents/37201/0/Questionnaire+for+MTA%2C+incoming+material+%281%29.pdf/96913b6b-8ae3-91f1-bf42-a2b2c140bede?t=1661341567736]; sopimukset tulisi käydä läpi myös oman organisaation juristien kanssa ennen allekirjoittamista. Pahimmassa tapauksessa epäselvä sopiminen voi johtaa väärän aineiston julkaisemiseen, ylimääräiseen työntekoon ja sovittujen sanamuotojen merkitysten arvuutteluun, mitkä kuluttavat tarpeettomasti resursseja puolin ja toisin. Sopimusten määrittämät rajat. Tutkimustoiminnan rajoja määrittelevät sekä sopimukset että lainsäädäntö. Laajoja tekstiaineistoja tutkittaessa lähdeorganisaatioiden kanssa tehdyillä sopimuksilla on merkittävä painoarvo, koska lähdeorganisaatiot antavat teksti- tai metadatakorpuksen tutkimusryhmän käytettäväksi eikä tutkimusta voi tehdä ilman lähdeorganisaation lupaa. Onkin erityisen tärkeää, että tutkimusryhmä on tietoinen lähdeorganisaation kanssa solmitun sopimuksen asettamista rajoista. Tyypillisiä vaatimuksia ovat elossa olevien ihmisten suodattaminen (filtteröinti) pois datasta sekä jonkin osan tai kokonaisuuden poistaminen datasta ennen julkaisua. Lainsäädännön määrittämät rajat. Lainsäädännön näkökulmasta erityisesti EU:n yleinen tietosuoja-asetus (GDPR) määrittelee, kuinka elossa olevaa henkilöä koskevia ja häneen yhdistettävissä olevia tietoja voidaan käsitellä ja julkaista. Henkilöllä, jonka tietoja käsitellään (GDPR:n mukaan rekisteröity henkilö), on oikeus tulla informoiduksi muun muassa siitä, mitä tietoja hänestä kerätään, miten niitä käytetään ja kenen toimesta. Tutkimusryhmälle on ensiarvoisen tärkeää olla tietoinen GDPR:n ja muun lainsäädännön vaatimuksista ennen datan tai portaalin julkaisua, sillä pahimmassa tapauksessa julkaisu on lainvastainen. Kuinka suhtautua yleisen tietosuoja-asetuksen (GDPR) vaatimuksiin? Mikäli data koostuu kuolleiden ihmisten henkilötiedoista (esim. Sotasammon menehtyneet [https://www.sotasampo.fi/fi/casualties/]) tai aineisto on luonteeltaan läpinäkyvästi julkista (esim. Parlamenttisampo [https://parlamenttisampo.fi/fi]) EU:n yleinen tietosuoja-asetus (GDPR) ei vaikuta jalostetun datan tekemiseen tai julkaisemiseen. Sen sijaan harmaalla alueella olevia tapauksia GDPR:n näkökulmasta ovat datakokonaisuudet, joissa kuolleiden lisäksi on elossa olevien ihmisten tai heidän läheistensä henkilötietoja (esim. Biografiasampo [http://biografiasampo.fi/]). Biografiasammon esimerkkitapauksessa tiedot eivät ole sisällöltään erityisen arkaluonteisia tai korkeariskisiä, mutta kuitenkin henkilötietoja. Tärkeä kysymys onkin, tuoko datan jalostaminen uuden tiedollisen tason esillä olevaan henkilötietoon: jos katsotaan, että rakenteiseen muotoon jalostamalla datasta paljastuu muutoin pimentoon jääviä arkaluonteisia tietoja (ts. tietosuoja-asetuksen määrittelemiin erityisiin henkilötietoryhmiin kuuluvia tietoja), on datan käsittelyyn kiinnitettävä erityistä huomiota. Erityisesti tällaisissa tapauksissa portaalille on luotava oma tietosuojailmoitus – muissakaan tapauksissa tietosuojailmoituksesta ei ole haittaa. Datajulkaisujen kohdalla on joko otettava yhteyttä kaikkiin datan kohteina oleviin henkilöihin tai varmistettava, miten lähdeorganisaatio on informoinut henkilöitä henkilötietojen käytöstä. Lähdeorganisaatioiden tietosuojaratkaisut määrittävät tutkimusryhmien toiminnan rajoja. Lisäksi tulisi ottaa varhaisessa vaiheessa yhteys oman organisaation tietosuojavastaavaan ja juristeihin, jotka varmistavat suunnitellun tutkimuksen, datajulkaisun ja portaalin oikeudellisuuden.
| Somedatan keräämistä määrittelee developer-sopimus. Somedatan keruu tapahtuu paljolti sosiaalisen median alustojen ehdoilla, ja tutkijan onkin tyypillisesti allekirjoitettava kyseisen alustan developer-sopimus, joka määrittää datan keruulle ja säilyttämiselle tarkat rajat. Developer-sopimuksen allekirjoittamalla tutkija saa somedataa käyttöönsä ohjelmointi- tai muun tutkimusrajapinnan (jatkossa API; application programming interface) kautta. Alustojen API:t saattavat olla maksullisia, mikä on syytä ottaa huomioon hankkeen budjettia laadittaessa. Sosiaalisen median alustojen käyttösäännöt kieltävät skreippaamisen, eli koneavusteisen tai automatisoidun datan keruun julkisilta verkkosivuilta. Skreippaamalla tutkija voi teoriassa kiertää developer-sopimuksen määrittelemät rajoitteet, vaikka se onkin tyypillisesti kielletty useiden alustojen käyttösäännöissä (ToS; terms of service). Käyttösäännöt muuttuvat ja ovat alustakohtaisia, minkä vuoksi niiden määrittämät toiminnan rajat onkin aina syytä tarkistaa säännöllisesti. Tiedeyhteisö käy myös keskustelua siitä, onko eettistä noudattaa alustojen käyttösääntöjä, jos tavoite on tutkia yhteiskunnallista keskustelua tai disinformaatiota (ks. esim. Bruns 2019; Rogers 2018; Sandvig 2017). Tutustu kulloisenkin alustan loppukäyttäjän lisenssisopimukseen (EULA). Sosiaalisen median alustojen loppukäyttäjän lisenssisopimukset (jatkossa EULA; end-user license agreement) ja käyttösäännöt määrittävät developer-sopimusten ohella myös tutkimustoimintaa, vaikka alustan EULAssa ei välttämättä mainita tutkimuskäytöstä mitään erityistä. Näissä tapauksissa lisenssisopimusta ja käyttösääntöjä on syytä verrata ajankohtaiseen lainsäädäntöön tai erilaisiin kohtuullisen käytön linjauksiin (vrt. Fair use Yhdysvaltojen tekijänoikeuslainsäädännössä, sitaattioikeus tai yksityiskäyttöoikeus Suomen lainsäädännössä). (Ks. esim. Laaksonen & Salonen 2018; Obar & Oeldorf-Hirsch, A. 2020.) Kaupallisilta tahoilta hankittuun somedataan liittyvät erilliset sopimukset. Somedataa voi hankkia tutkimuskäyttöön myös ostamalla valmiiksi kerättyä dataa kaupalliselta toimijalta. Tämä edellyttää sopimuksen tekemistä kaupallisen toimijan kanssa, ja tämä sopimus voi olla yhtä rajoittava kuin developer-sopimus. Tutustu sopimukseen huolellisesti ennen allekirjoittamista. Kompromissiratkaisu yleisen tietosuoja-asetuksen informointivaatimuksen noudattamiseen on pitää meteliä omasta tutkimuksestaan tai poiketa informoinnista. Yleisen tietosuoja-asetuksen (GDPR) mukaan tutkimukseen osallistuvia pitää informoida heitä koskevan henkilötiedon keräämisestä ja käyttämisestä. Periaatteessa somedatan tapauksessa informointivaatimus täyttyy, kun käyttäjä on hyväksynyt alustan EULA:n ja käyttösäännöt. Kuten yllä todettu, vain harva käyttäjä on tutustunut EULA:an tai käyttösääntöihin, jolloin informointi jää tutkijan vastuulle. Tutkijan puolestaan on kuitenkin käytännössä mahdotonta informoida jokaista tutkimusaineistoon päätynyttä käyttäjää siitä, että heidän julkaisunsa ovat valikoituneet osaksi tutkimusta – somedataa kerätään tyypillisesti useilla kielillä sadoilta, tuhansilta tai jopa miljoonilta käyttäjiltä. Voi olla, että kaikkia käyttäjätilejä ei ole enää olemassa. Tutkittavien informoinnista voidaan myös poiketa tietyissä rajatuissa tapauksissa – esimerkiksi kun tiedot on saatu muualta kuin tutkittavilta itseltään ja informointi osoittautuu mahdottomaksi tai vaatisi kohtuutonta vaivaa. Mikäli tutkittavien informointi osoittautuu mahdottomaksi, tutkija tai tutkimusryhmä voi tiedottaa datankeruusta somealustalle, jossa tutkimusta tehdään, tutkimuksen omilla kotisivuilla tai muulla tavoin pitämällä meteliä tutkimuksestaan. Tutkija tai tutkimusryhmä voi esimerkiksi julkaista tutkittavaan aiheeseen liittyvällä aihetunnisteella varustettuja twiittejä, joissa kerrotaan käynnissä olevasta tutkimuksesta. Huolimatta siitä, että informoinnista on poikettu tai tyydytty vain ylläkuvattuun yleiseen tutkimuksesta tiedottamiseen, tietosuojailmoitus pitää tehdä ja toimittaa arkistoitavaksi kotiorganisaation tietosuojavastaavalle (Helsingin yliopistossa sähköpostilla osoitteeseen tietosuoja@helsinki.fi). Tietosuojailmoitus toimii myös osoitusvelvollisuutta toteuttavana dokumenttina. Pohja dokumentille löytyy Helsingin yliopistossa Flammasta.
| Henkilötietojen keräämistä säätelee yleinen tietosuoja-asetus (GDPR). Mikäli vastaajien henkilötietoja (”personal data”), kuten nimi, osoite, puhelinnumero tai henkilötunnus kerätään, tälle täytyy olla laillinen käsittelyperuste. Suositeltava käsittelyperuste tieteellisessä tutkimuksessa on yleinen etu. Kyselyaineisto saattaa sisältää tunnisteellista henkilötietoa. Tunnisteelliset henkilötiedot on poistettava aineistosta heti, kun se on tutkimuksen puolesta mahdollista, ja vastaajia on informoitava siitä, miten heidän henkilötietojaan käsitellään. Mieti, mitkä henkilötiedot ovat tarpeellisia tutkimuksesi kannalta. Älä kerää turhaa tietoa tai tietoa varmuuden vuoksi, eli muista noudataa tiedonkeruun minimointiperiaatetta. Avovastaukset vaarantavat kyselyn anonymiteetin. Kysely voi olla anonyymi, jos sillä ei kerätä henkilötietoja, kerättyjä tietoja ei voi yhdistää muulla tavalla kerättyyn henkilötietoon tai kysely ei sisällä avokenttiä. Avokentät eivät sinänsä tee aineistosta tunnisteellista tai arkaluonteista, mutta erityistä huomiota kannattaa kiinnittää siihen, että avokenttiin vastaajat voivat kirjoittaa niihin mitä vain – myös jotain sellaista, mistä ilmenee heidän henkilöllisyytensä tai arkaluonteista tietoa. Mikäli avoimissa vastauksissa tulee esiin tietoja, joiden perusteella vastaaja voidaan identifioida, kyselyaineistoa on kohdeltava tunnisteellisia henkilötietoja sisältävänä. Yhdistettäessä kyselyaineistoa rekisteridataan, tulee noudattaa myös rekisteridatan käsittelyn eettisiä ja lainsäädännöllisiä periaatteita. [linkki rekisteridataohjeeseen tähän] Kyselytutkimusten on perustuttava vastaajien informointiin ja suostumukseen. Miten informoit tutkittavia? ”Yleisen tietosuoja-asetuksen mukaisen informoinnin tarkoitus on antaa rekisteröidylle selkeässä ja ymmärrettävässä muodossa tiedot siitä, miten hänen henkilötietojaan käsitellään tutkimuksessa. Informoinnissa on huomioitava, että se on lyhyttä ja ytimekästä ja informaatio kirjoitettu siten, että tutkimuksen kohderyhmä ymmärtää, mistä tietojen käsittelyssä on kyse. Ymmärrettävään kieleen on kiinnitettävä erityistä huomiota silloin, kun tutkimuksen kohteena on lapsia, senioreita tai muutoin haavoittuvassa asemassa olevia henkilöitä. Tutkittavia on informoitava ennen päätöstä osallistua tutkimukseen (näin he antavat tietoisen suostumuksen tutkimukseen osallistumiseen). Tämän voi toteuttaa esimeriksi toimittamalla tietosuojailmoitus ennakkoon tutkittaville tai lisäämällä linkki tietosuojailmoitukseen kyselyn oheen. Tietosuojailmoitusta on hyvä pitää esillä myös tutkimushankkeen mahdollisilla verkkosivuilla.” https://flamma.helsinki.fi/fi/group/tutkimuksen-tuki/tutkimuksen-tietosuoja-asiat#menu7 Flammassa on valmiita tietosuojailmoituspohjia. Jos tarvitset juristien apua, varaudu siihen, että heidän vastaustaan joutuu usein odottamaan usean viikon – kysy ajoissa ja käytä odotusaika jonkun muun asian edistämiseen. | Rekisteriaineistoihin liittyvä lainsäädäntö. Yksilötasoisia rekisteritietoja voi käyttää joko sellaisinaan tai niitä voi yhdistää muihin tietoihin, kuten kyselyihin. Pelkästään rekisteritietoihin perustuvia aineistoja ja muihin tietoihin linkattuja aineistoja koskevat erilaiset datanhallinnan säännökset ja periaatteet. (ks esim. toisiolaki eli Laki sosiaali- ja terveystietojen toissijaisesta käytöstä [https://www.finlex.fi/fi/laki/alkup/2019/20190552]; Flamma-sivu: Sosiaali- ja terveystietojen, ns. sote-tiedot, toisiokäyttö tutkimuksessa: [https://flamma.helsinki.fi/s/9YASA]). Viranomaistietoihin perustuvia ryhmätasoisia tilastotietoja (kuten määriä, keskiarvoja jne.) koskevat omat datahallinnan säännökset ja periaatteet (Laki tilastokeskuksesta [https://finlex.fi/fi/laki/ajantasa/1992/19920048]). Rekisteriaineistoihin perustuva tutkimus ei edellytä informointia. Pelkästään rekisteriaineistoihin perustuvaan tutkimukseen ei tarvita tutkittavien informointia. Rekisteriaineistojen kohdalla ei voi olettaa, että kohtuullisella vaivalla tavoitetaan rekisterissä olevat ihmiset, esimerkiksi koko Suomen väestö. Tilanne muuttuu, jos tietyn rekisterin tietoihin yhdistetään muita tietoja; esimerkiksi kyselyyn yhdistäminen edellyttää informointia. Ota huomioon, että rekisteriaineisto on usein sensitiivistä. Luvanvaraisissa rekisteriaineistoissa tiedot ovat usein yksilötasolla, ja tällainen aineisto on sensitiivistä. Aineiston käyttöluvan saadakseen tutkijan on tutustuttava ja sitouduttava rekisteriviranomaisten tietoturvasäännöksiin. Vaikka dataa käsiteltäisiin etäkäyttöjärjestelmässä, tutkijalla on vastuu aineiston käsittelystä. Tutkija toteuttaa osaltaan vastuullista datanhallintaa etäkäyttöjärjestelmän sääntöjä noudattamalla. Tutkijalta edellytetään rekisterinpitäjänä vastuullista datanhallintaa. Rekisteritutkimusta tehdessä joko tutkija tai tutkimusta toteuttava organisaatio on myös rekisterinpitäjä, jolta edellytetään vastuullista datanhallintaa: ”Rekisterinpitäjä päättää aineiston käsittelystä, vastaa henkilötietojen käsittelyn turvallisuudesta ja tarkoituksenmukaisuudesta sekä aineiston asianmukaisesta hävittämisestä tai arkistoinnista tutkimuksen päättyessä. Tutkijan ollessa työ-, virka- tai palvelusuhteessa tutkimusta toteuttavassa organisaatiossa rekisterinpitäjänä toimii tutkimusta toteuttava organisaatio. Tutkijan tai tutkimusryhmän tehdessä tutkimustyötä itsenäisesti voivat tutkija tai tutkimusryhmä toimia rekisterinpitäjinä itse." (Findatan UKK: Mitä tarkoitetaan rekisterinpitäjällä? [https://findata.fi/aineistot/#ukk]; ks . myös Tilastokeskus: ”Käyttöoikeuden haltija rekisterinpitäjänä” [https://tilastokeskus.fi/tup/mikroaineistot/ohjeita_tutkijalle.html])
|
4. Tutkimuseettiset kysymykset ja tutkimusluvat | Aineiston tuottamiseen tarvitaan tutkittavien suostumus. Aina kun tutkimukseen osallistuvia taltioidaan ääni- tai videotallenteelle, täytyy huolehtia, että tutkittavat ymmärtävät osallistuvansa tutkimukseen ja antavat luvan tallenteiden tekemiseen. Allekirjoitettua suostumuslomaketta ei tarvita, vaan riittää, että tutkittavia informoidaan tutkimuksen tarkoituksesta. Aineiston keruu saattaa edellyttää eettistä ennakkoarviointia tai etukäteen hankittua tutkimuslupaa. Jos keräät aineistoa esimerkiksi koulussa, tutkimuslupaa pitää hakea kyseisen kunnan opetus- tai vastaavasta virastosta. Alle 15-vuotiaita koskevaan aineistoon saatetaan tarvita eettinen ennakkoarviointi. Huolehdi luvista ennen aineistonkeruun aloittamista. Tutkimukseen mahdollisesti tarvittavat luvat ja eettinen ennakkoarviointi on selvitettävä ennen tutkimusaineiston keruun aloittamista. Jos aineisto on tarkoitus sijoittaa hankkeen jälkeen eritysesti tutkimusaineistojen vastuulliseen säilyttämiseen tai julkaisemiseen erikoistuneeseen palveluun, riittävät oikeudet jakaa aineistoa edelleen kolmansille osapuolille on varmistettava jo aineistoa kerätessä. Lupia on vaikea tai mahdotonta saada jälkikäteen.
| [toistaiseksi tyhjä; eettiset seikat siirrättävissä esim. 3. luvusta soveltuvin osin omaksi kappaleekseen tähän] | Somedata on pääasiassa matalariskistä henkilötietoa, mutta voi sisältää myös sensitiivistä tietoa. Somedata on henkilötietoa, joka voi olla myös sensitiivistä, sillä käyttäjät tuovat esiin esimerkiksi poliittisia näkemyksiään tai uskonnollisia vakaumuksiaan. Somedata on kuitenkin usein luonteeltaan julkista (kuka vain internetissä voi nähdä sen) tai puolijulkista (kaikki palvelun käyttäjät voivat nähdä sen), mikä madaltaa datan riskiastetta. Teoriassa jokainen sosiaalisen median alustan käyttäjä on hyväksynyt alustalle liittyessään EULA:n ja käyttösäännöt, jotka määrittelevät julkaisut oletusarvoisesti julkisiksi tai puolijulkisiksi. Harva keskivertokäyttäjä on kuitenkaan tutustunut EULA:n tai käyttösääntöjen yksityiskohtiin (ks. esim. Obar & Oeldorf-Hirsch 2020). Näin ollen ei voida olettaa, että he tietäisivät julkaisujensa olevan yhtä julkisia kuin esimerkiksi sanomalehtien mielipidekirjoitukset. Tämä on tutkimuseettisesti ongelmallista ja aiheuttaa haasteen tutkittavien informointivaatimuksen noudattamiselle. (Ks esim. AoIR: https://aoir.org/reports/ethics3.pdf.) Somedatan tai sieltä otettujen suorien lainausten anonymisointi on usein mahdollista murtaa fraasihaulla. Tutkimusta julkaistaessa on otettava huomioon, että anonymisointi on usein mahdollista murtaa tekemällä hakukoneella fraasihaku. Jos kyseessä on julkisesti internetissä oleva someaineisto (esim. twiitti, Reddit-julkaisu), fraasihaku murtaa anonymisoinnin suurella todennäköisyydellä ja pienellä vaivalla. Yksinkertaisella fraasihaulla murrettu anonymisointi tekee aineistosta tunnisteellista, jolloin se ei täytä GDPR:n vaatimuksia henkilötiedon anonyymistä käsittelystä. Täydellinen anonymisointi vaatisi myös linkitettyjen tai mainittujen tilien poistoa. Tutkittaessa tarkkarajaisia tai harvinaisia someilmiöitä henkilöiden tunnistettavuus vaarantuu. Tutkittavien anonymiteettiä voi vahvistaa esimerkiksi kääntämällä (jos aineistojen kieli on jokin toinen kuin tutkimuksen kieli) someaineistot toiselle kielelle ja olla tarjoamatta alkukielistä versiota. Toinen mahdollisuus on käyttää parafraaseja, eli ilmaista sisältö sen alkuperäiselle ilmaisulle uskollisesti muttei sanatarkasti (ks. esim. Markham 2012). Näillä ratkaisuilla päästään lähemmäs tutkimuseettisempää luentaa GDPR:n vaatimuksista.
| [toistaiseksi tyhjä; eettiset seikat siirrättävissä esim. 3. luvusta soveltuvin osin omaksi kappaleekseen tähän] | Rekisteriaineistoihin perustuva tutkimus ei aina edellytä ennakkoarviointia. Pelkästään rekisteriaineistoihin perustuvaan tutkimukseen ei tarvita eettistä ennakkoarviointia: ”Eettisen toimikunnan arviointia ei edellytetä julkisten ja julkistettujen tietojen, rekisteri- ja asiakirja-aineistojen ja arkistoaineistojen tutkimukseen." (Ks. Ihmiseen kohdistuvan tutkimuksen eettiset periaatteet ja ihmistieteiden eettinen ennakkoarviointi Suomessa. Tutkimuseettisen neuvottelukunnan ohje, 2019: 16 [https://tenk.fi/sites/default/files/2021-01/Ihmistieteiden_eettisen_ennakkoarvioinnin_ohje_2020.pdf]). Tilanne voi muuttua, jos tietyn rekisterin tietoihin yhdistetään muita tietoja, esimerkiksi kyselyaineistoja. Tällöin tutkimukselta voidaan edellyttää eettistä ennakkoarviointia. Eettisestä ennakkoarvioinnista löytyy tietoa Helsingin yliopiston sivulta [https://www.helsinki.fi/fi/tutkimus/palvelut-tutkijoille/tutkimuksen-eettinen-ennakkoarviointi/ihmistieteet]. HSSH-instituutti voi auttaa eettisen ennakkoarviointitoimikunnan lausunnon pyytämisessä. Tietyissä tapauksissa eettistä lupaa pitää hakea sekä rekisteriviranomaiselta että kotiorganisaatiolta. Odotusajat lupien käsittelyssä saattavat olla pitkiä. Jonoon kannattaa ilmoittautua ajoissa. |
| 5. Aineiston keruu | Hyödynnä yliopiston tarjoamia palveluita aineiston keruussa. Jos keräät aineistoa kentällä, voit lainata laitteistoa HSSH:n pienlaitelainaamosta [ https://www.helsinki.fi/fi/helsingin-yliopiston-humanistis-yhteiskuntatieteellinen-instituutti/tutkimuksen-tuki/pienlaitelainaamo]. Lainaamo neuvoo mahdollisuuksien mukaan sopivan laitteen valinnassa. Aineiston keruuta voi tehdä myös Humanistis-yhteiskuntatieteellisen instituutin (HSSH) Interlab-laboratoriossa [https://www.helsinki.fi/fi/infrastruktuurit/multimodaalisen-yksilo-ja-vuorovaikutustutkimuksen-laboratorio], joka tarjoaa mahdollisuudet audiovisuaaliseen työhön (videointi ja haastattelut). Varmista, että aineisto on jatkokäytettävää. Aineiston jatkokäytön kannalta kannattaa kiinnittää huomiota aineiston tekniseen laatuun ja tallennusformaatteihin, jotta ne ovat yhteensopivia myöhemmän säilytyspaikan kanssa. Nämä tulee huomioida jo aineistonkeruuvaiheessa. Suositeltavimpia ovat laajasti käytössä olevat ja monissa ohjelmissa tuetut formaatit. (Ks. esim. Kielipankin ohje aineiston teknisen muodon valintaan [https://www.kielipankki.fi/tuki/tekninen-muoto/] ja aineiston keruuseen: [https://www.kielipankki.fi/tuki/aineiston-keraaminen/].) Huomioi metadatanäkökulma jo aineiston keruun aikana. Aineistonkeruu kulkee käsi kädessä kuvailutietojen eli metadatan tuottamisen kanssa. Projektin aikana dokumentointia ovat mm. muuttujien ja koodien selitteet (tietohakemistot, koodikirjat) ja readme-tiedostot. Lisäksi dokumentaatioon liittyvät tiedostojen nimeämiskäytännöt, versionhallinta ja kansiorakenne. On hyvä kuvata menetelmät, lähteet ja paikat, joista aineisto on tarkoitus kerätä. Datanhallinnan perusoppaasta [https://libraryguides.helsinki.fi/datanhallinta/jarjestys] löytyvät metadatan tuottamiseen liittyviä perusasioita. Perinpohjaisia ohjeita on myös Tietoarkiston oppaassa [https://www.fsd.tuni.fi/fi/palvelut/aineistonhallinta/aineiston-kuvailu-ja-metadata/]. | Kerättävään aineistoon mieluummin liikaa tietokenttiä kuin liian vähän. Koska tekstiaineistoja tyypillisesti kerätään useista eri lähdeorganisaatioista, data on luonteeltaan heterogeenistä. Näin ollen dataa joutuu yhdenmukaistamaan tutkimukselle hyödylliseen eli mahdollisimman rakenteiseen muotoon. Jotta yhdenmukaistaminen olisi mahdollisimman tehokasta, lähdeorganisaatioilta tulisi pyytää luovuttamassaan aineistossaan mieluummin liikaa kuin liian vähän tietokenttiä. Tämä säästää potentiaalisesti merkittävästi aikaa tutkimuksen tekemisessä, kun samoja työvaiheita ei tarvitse toistaa työn edetessä. Tekstin tulisi olla mahdollisimman rakenteista. Kun laajoja tekstiaineistoja jalostetaan, aineistojen tulisi olla mahdollisimman rakenteisia. Esimerkiksi taulukkomuotoinen (esim. .csv) tiedosto on rakenteisempi ja näin ollen helpommin käytettävä kuin teksti- (esim. .docx) tiedosto. Täysin rakenteeton eli luonnollinen teksti on erityisen haasteellista jalostettavaa, mikä tulee ottaa huomioon tutkimuksen suunnittelussa ja aikatauluttamisessa. Tutkimuksen sujuvuuden mahdollistamiseksi lähdeorganisaatioilta on hyvä pyytää mahdollisimman rakenteista tekstiaineistoa, esimerkiksi .csv-muodossa. Rutiinin puutteesta syntyy aikaa vievää selvittelyä. Kuten sopimustenkin kanssa, myös datan hankkimiseen lähdeorganisaatioilta liittyy paljon muun muassa rutiinien puutteesta johtuvaa lähdeorganisaatioiden sisäisiä selvittelyjä. Nämä selvittelyt saattavat hidastaa tutkimuksen käynnistämistä. Yhtenä mahdollisena keinona prosessin sujuvoittamiseen on laatia tutkimusryhmässä yhteydenottopohja, jossa kerrotaan perusasiat pyydettävästä datasta, sen jalostamisesta, suunnitteilla olevista julkaisuista (portaali, datajulkaisu ja tutkimusjulkaisut) ja niin edelleen. Yhteydenottopohjan suunnittelun keskiössä on hyvä pitää lähdeorganisaatioiden selvittelyprosessien sujuvoittaminen. Lähdeorganisaatioiden vaatimusten toteuttamiselle vaadittava aika. Lähdeorganisaatioilla saattaa olla vaatimuksia siitä, mitä osaa tekstiaineistosta saa käyttää tai julkaista portaalissa tai datajulkaisuna. Tyyppiesimerkki on elossa olevien henkilöiden poistaminen aineistosta yleisen tietosuoja-asetuksen vaatimuksesta. Näiden vaatimusten toteuttaminen voi olla aikaa vievää, josta johtuvat ongelmat voidaan välttää etukäteisellä suunnittelulla ja varaamalla tähän työvaiheeseen riittävästi aikaa. | Somedataan perustuvan tutkimuksen läpinäkyvyys paranee dokumentoimalla kaikki tehdyt toimet. Somealustojen API:t, datankeruuseen käytettävät ohjelmistot ja muut apuvälineet saattavat muuttua, päivittyä ja vanheta, mikä tekee datankeruun toistamisen mahdottomaksi. Tutkimuksen läpinäkyvyys ja toistettavuus kärsivät, jos datankeruuta ei voida toistaa. Dokumentoimalla tehdyt toimet – esimerkiksi käytetyn API:n version, käytetyt ohjelmistot ja skriptit jne. – läpinäkyvyys ja toistettavuus paranevat merkittävästi. Toistettavuuden ongelmia lisää myös se, että sosiaalisen median alustoilta katoaa sisältöä käyttäjien lähtiessä alustoilta tai poistaessa niiltä sisältöjä. Samoin käyttäjät saattavat jälkikäteen muuttaa vanhoja julkaisujaan siten, että niiden asiasisältö muuttuu toisenlaiseksi. Dokumentoinnissa onkin syytä mainita, milloin keruu on tehty. Keruuprosessin läpinäkyvyys vaarantuu hankittaessa somedata kaupalliselta taholta. Kaupalliselta taholta dataa ostettaessa, tutkija ei välttämättä tiedä, millä periaatteilla kaupallinen toimija on hankkinut datan alustalleen. Etenkin suurien datamäärien kohdalla tutkijan on vaikea tietää tarkasti, kuinka data on kerätty. Keruuprosessin läpinäkyvyyden vaarantuminen lisää tutkijan tietämättömyyttä siitä, kuinka kaupallisen toimijan alusta valikoi datan tutkijalle. Valikoimisen tekevät algoritmit voivat olla määritelty liikesalaisuuksiksi. Tämä synnyttää tutkimuksen kannalta haitallisia sokeita pisteitä, joita tutkija itsekään ei välttämättä havaitse tai tiedosta. (Joseph ym. 2014; Morstatter ym. 2013.) Tehokas tapa kerätä somedataa on hyödyntää keräimiä. Internetissä on olemassa useita valmiita ja ilmaisia keräimiä, joilla somedatan saa kerättyä tutkimuskäyttöön helpoiten. Yleensä keräimet perustuvat Python- tai R-paketteihin ja avoimeen lähdekoodiin – esimerkiksi X:n aineistojen keruun tapauksessa paljon käytetty keräin Twarc [https://twarc-project.readthedocs.io/en/latest/]. Keräimien käyttöönotto vaatii tutkijalta developer-sopimuksen sekä vähintään perustason ohjelmointiosaamista tai dokumentaatioon tutustumista. Erityisen suositeltavaa on tutustua keräimen dokumentaatioon ja tarvittaessa lähdekoodiin (esim. Twarcin dokumentaatioon voi tutustua täällä [https://twarc-project.readthedocs.io/en/latest/] ja lähdekoodiin täällä [https://github.com/DocNow/twarc]). Somedatan keruun läpinäkyvyyttä voi lisätä ohjelmoimalla keräimet itse. Omien keräinten ohjelmointi vaatii tutkijalta merkittävää ohjelmointiosaamista sekä ajallista panostusta. Yleisimmin käytetyt keräimet ovat olleet niin laajassa käytössä, että ne ovat käytön myötä käyneet läpi kattavan testauksen, joka jää puuttumaan tutkijan itse ohjelmoimista keräimistä. Vastapainona on, että tutkija tietää täsmällisesti, kuinka somedatakokonaisuus muodostuu. Tutkija voi halutessaan myös jakaa käyttämänsä keräimet ja skriptit eteenpäin (esim. GitHubissa [https://version.helsinki.fi/users/sign_in]), mikä entisestään parantaa keruun läpinäkyvyyttä. | Hyödynnä valmiita aineistoja. Ennen uuden aineiston keräämistä, on hyvä selvittää, onko jo olemassa aineistoa, jota voi hyödyntää. Monissa maissa kerätään koordinoidusti ja keskitetysti isoja kyselyaineistoja. Näitä keräyksiä ovat muun muassa World Value Survey ja European Social Survey [HUOM! voisiko esim. liitteeksi, taulukkoon tms listata avoimia datoja ja niiden sisältöjä ja mistä löytää vastaavia datoja lisää? / Myös kotimaisia avoimia aineistoja kannattaa hyödyntää; näistä voisi olla esimerkkejä / EUROSTAT-aineistojen hankinnan ohje HYssa tähän?] Näissä keräyksissä on hyvä dokumentaatio kaikesta tarvittavasta: keräyksen yksityiskohdista itse dataan. Kerääjien sivustoilla voi ladata dataa tai tehdä analyysejä datasta ilman, että lataa datan koneellensa. Jos käytät jonkun toisen keräämää dataa, viittaa siihen hyvien tieteellisten käytäntöjen mukaisesti. Keruun voi ulkoistaa myös kaupalliselle toimijalle. Keruun toteutettaessa kaupallisen toimijan avulla on syytä kiinnittää huomiota muun muassa kilpailutukseen ja tietoturvaan. On myös oltava tarkkana, miten ulkoista tahoa ohjeistetaan keruun vaiheista, datan tallentamisesta ja toimittamisesta ja mitä hintaan sisältyy. Osana hankintasopimusta tehdään myös erillinen aineistonhallintasopimus, jossa sovitaan muun muassa dataan liittyvästä keruunaikaisesta säilytyksestä sekä luovuttamisesta tutkimusryhmälle. Kyselyaineisto kerätään antamalla tai lähettämällä kysely tutkittaville tai haastattelemalla heitä. Kysely voi olla paperikysely, puhelinhaastattelu tai verkkolomake, jonne ohjaa linkki, joka voi olla saatavilla monella tavalla, esim. uudelleenohjaamalla verkkosivulle. Kyselytyökalun ominaisuudet vaikuttavat työnkulkuun. Ennen kuin aloitat kyselytyökalun käyttämisen, tarkista, sisältääkö se tarvitsemasi toiminnallisuudet. Voiko esimerkiksi kyselyn tai työkalun käyttöliittymän kääntää toiselle kielelle? Onko siinä monikielisyystuki? Jos kysely tulee kääntää useammalle kielelle, ota se huomioon miettiessäsi aineistonhallinnan vaatimia resursseja (aika, raha). Mikäli tutkimuksessa pitää mitata vastaamiseen menevää aikaa, tarkista, onko työkalussa tähän tarvittavat ominaisuudet. Mihin kyselyaineisto tallentuu keruun yhteydessä? Erittäin tärkeää on tarkistaa, mihin keräämäsi aineisto työkalusta tallentuu. Henkilötietoja ei saa tallentaa pilvipalveluun ja yleinen tietosuoja-asetus rajoittaa tietojen siirtoa tai luovutuksia EU:n ulkopuolelle. Tarkoituksena on turvata rekisteröityjen yksityisyys ja asianmukainen tietojen käsittely yhtä hyvin kuin EU:n alueella, vaikka niitä käsiteltäisiin EU:n ulkopuolella. (https://flamma.helsinki.fi/fi/group/tutkimuksen-tuki/tutkimuksen-tietosuoja-asiat#menu10) Myös kaupallisista kyselytyökaluista pitää tarkistaa, mihin mahdollisesti kerättävä henkilötieto tallentuu. EU:n yleisen tietosuoja-asetuksen (GDPR) mukaan henkilötietoja ei saa tallentaa EU:n ulkopuolelle. Selvitä, pitääkö sinun jakaa oikeuksia kyselyyn, ja onnistuuko se kyseisellä työkalulla. Tarvitaanko oikeuksien saamiseen organisaation tunnukset vai miten se on toteutettu? Ota huomioon työkalun opetteluun kuluva aika, jos käytät sitä ensimmäistä kertaa. Ota huomioon esimerkiksi seuraavat seikat:
Helsingin yliopistossa kaikki voivat käyttää E-lomake- ja Redcap-ohjelmistoja. Tiedustele tiedekunnastasi tai yksiköstä, onko siellä hankittuna jokin kyselytyökalu. E-lomake ei sovellu arkaluonteisen aineiston keräämiseen: ”E-lomakkeelle tallennetut tiedot sijaitsevat turvallisesti Helsingin yliopiston omilla palvelimilla, mutta järjestelmässä ei ole kaikkia henkilötietojen käsittelyssä GDPR:n vaatimia lokitusominaisuuksia, joten arkaluonteisia henkilötietoja sillä ei tule tallentaa lainkaan (kuten ei tähänkään asti ole ollut tarkoitus). Tätä vaatimusta tähdennetään nyt ohjeistuksessa.” https://blogs.helsinki.fi/e-lomake/2018/03/06/tarkeaa-e-lomake-ja-eun-tietosuoja-asetus-gdpr-25-5-2018-alkaen/ Redcap-ohjelmalla sen sijaan voi kerätä arkaluonteista aineistoa. | Rekisteriaineiston tuottavat ja tarjoavat tutkimuskäyttöön rekisteriviranomaiset. Tutkija ei kerää näitä aineistoja, vaan määrittelee aineistolupahakemuksessaan, mitä rekisteriaineistoja hän tutkimuksessaan tarvitsee. Hakemukseen liitetään myös muuttujaluettelo sekä tutkimussuunnitelma, jossa haettavien aineistojen tutkimuskäyttö perustellaan. Käyttöön haettaville aineistoille on myös syytä hakea riittävän pitkä käyttöaika, jotta esimerkiksi tutkimuksen verifiointi tai hankkeen tutkimusjulkaisujen arviointikierrokset ehditään järjestää, ennen aineistojen tuhoamista. KS erilliset ohjeet Rekisteriaineistojen hakemisesta ja Rekisteriaineistojen yhdistäminen kyselyaineistoihin Rekisteriaineiston hakeminen -ohje
Rekisteriaineistojen yhdistäminen kyselyihin -ohje:
Tilastokeskuksen ja Findatan rekisteriaineistojen yhdistämisen kyselyihin tekee kyseinen rekisteriviranomainen omassa etäkäyttöjärjestelmässään. Henkilötunnuksen sisältävät kyselyaineistot lähetetään rekisteriviranomaiselle, joka vastaa kyselyaineiston pseudonymisoinnista. Pseudotunnisteilla kyselyyn voi linkata rekisteritietoja etäkäyttöjärjestelmässä. |
| 6. Aineiston käsittely ja analysointi | Hyödynnä yliopiston tarjoamia palveluita aineiston käsittelyssä ja analysoinnissa. Humanistis-yhteiskuntatieteellisen instituutin (HSSH) Interlab-laboratoriossa [https://www.helsinki.fi/fi/infrastruktuurit/multimodaalisen-yksilo-ja-vuorovaikutustutkimuksen-laboratorio] on työvälineitä audiovisuaalisen aineiston käsittelyyn ja analysointiin (myös litterointiin ja annotointiin). Aineistojen litterointiin ja annotointiin löytyy ohjeita Kielipankin sivulta [https://www.kielipankki.fi/tuki/annotaatio/]. Kielipankin ohjeissa ei mainita keskusteluntutkimuksessa paljon käytettyä litterointiohjelma Transanaa, joka on käytettävissä InterLabissa. | Huolellisesta suunnittelusta ja selkeistä sopimuksista huolimatta jalostettavaksi päätyvä raakadata ei ole virheetöntä. Tyypillisiä ongelmia ovat esimerkiksi tekstintunnistukseen (optical character recognition, OCR) liittyvät virheet ja epätarkkuudet. Periaatteessa tutkija tai tutkimusryhmä voi itse korjailla näitä virheitä, mutta pitkällä tähtäimellä parempi ratkaisu on ottaa yhteyttä lähdeorganisaatioon ja pyytää heitä muuttamaan raakadataansa. Näin tutkijan tai tutkimusryhmän ei tarvitse tehdä samoja korjauksia uudelleen, kun raakadata ajetaan uudestaan prosessointiputken läpi. Tätäkin silmällä pitäen on suositeltavaa jättää aikatauluihin väljyyttä, koska lähdeorganisaatiolla saattaa kestää virheiden korjaamisessa. Prosessointiputken pitää olla toistettava, dokumentoitu ja automatisoitavissa. Etenkin silloin kun suunnitteilla on käyttäjäportaali, jonka elinkaari on useita vuosia, datan jalostava prosessointiputki on suunniteltava toistettavaksi ja automatisoitavaksi. Tämä tarkoittaa sitä, että kun lähdeorganisaation raakadata muuttuu syystä tai toisesta, nuo muutokset näkyvät portaalin jalostetussa datassa ajamalla raakadata uudelleen prosessointiputken läpi. Prosessointiputken ohjelmoinnista ja toiminnasta onkin tärkeää luoda kattava dokumentaatio, jonka avulla mahdollisesti rikkoutuvia ominaisuuksia voidaan korjata, vaikka tutkimusryhmän kokoonpano muuttuisikin. Tutkimusryhmän sisäisen kommunikaation selkeyteen kannattaa panostaa. Koska laajoja tekstiaineistoja tutkitaan pääsääntöisesti monia organisaatioita kattavissa tutkimusryhmissä, tutkimusryhmän sisäiseen kommunikaatioon kannattaa panostaa myös datanhallinnan näkökulmasta. Selkeällä ja yksiselitteisellä kommunikaatiolla varmistetaan, että kaksi tutkijaa eivät tee samoja prosessointeja samalle aineistolle ja että versionhallinnan parissa ei ilmene epäselvyyksiä. | Raakasomedatan siistimiseen kuluu helposti paljon aikaa. Raakasomedata sisältää paljon tutkimukselle ylimääräistä tietoa, jota tutkijan on kyettävä karsimaan, jotta data saadaan hyödyllisempään muotoon. Lisäksi data ei välttämättä tule sellaisessa tiedostomuodossa, jota tavalliset toimisto-ohjelmistot pystyisivät käsittelemään, ja siksi se täytyykin usein kääntää type the link labelsuunnitella, mitä analyysiä sillä pyritään tekemään, koska analyysin muoto ja lopputulos määräytyvät käsitellyn datan perusteella. Ilman suunnittelua siivoamisesta voi joutua tekemään uudelleen osan tai kaiken, mikä kuluttaa tutkimuksen resursseja tarpeettomasti. Raakadatan siistimiseen kuluvan ajan määrää voi olla vaikea ennustaa, mutta siihen kuluu helposti viikkoja tai kuukausia – etenkin heikkotasoisella tai olemattomalla suunnittelulla. Raakadatan muuttaminen tutkimukselle hyödylliseen muotoon saattaa heikentää tutkimuksen läpinäkyvyyttä ja toistettavuutta, jos työprosesseja ei ole dokumentoitu. Millä tavalla raakadataa on käsitelty ja muokattu tutkimukselle sopivampaan muotoon? Millaisia skriptejä on käytetty? Kun jokaisen työvaiheen jälkeen kirjoitetaan ylös vastauksia tämänkaltaisiin kysymyksiin, tutkimuksen läpinäkyvyys paranee merkittävästi. Dokumentoimalla työprosessit pystytään myös parantamaan työryhmän sisäistä viestintää ja toimintaa, sillä toisen tutkijan skriptien ymmärtäminen ilman dokumentaatiota voi olla erittäin haastavaa, aikaa vievää ja turhauttavaa. Tutkimusprosessin dokumentaation voi ajatella tutkimuksen metadatana, joka on yleensä julkaistavissa, vaikka dataa itseään ei voitaisikaan julkaista. | Aineistoa ei tyypillisesti analysoida kyselytyökalussa, vaan erilaisilla tilasto-ohjelmilla. Analysointia varten aineisto siis siirretään kyselytyökalusta toiseen ympäristöön. Siirrettäessä pitää huolehtia tietoturvasta. Myös aineiston käsittelyohjelman (esim. tilasto-ohjelma) tietoturvaan pitää kiinnittää huomiota – varmista esimerkiksi, ettei ulkopuolisilla ole pääsyä aineistoon. Jos kyseessä on arkaluonteista henkilötietoa, siirrä aineisto kyselytyökalusta tietoturvalliseen tallennusympäristöön (Helsingin yliopistossa esim. Umpio) ja tee analyysit siellä olevilla ohjelmilla. Pystytkö itse analysoimaan eri kielillä tehtyjä kyselyjä vai tarvitsetko käännöspalveluja? Käännöspalvelun kanssa on tehtävä sopimus ja sen käytöstä on myös informoitava tutkittavia | Rekisteriaineistojen säilytys ja käsittely etäkäyttöjärjestelmässä. Rekisteriaineistoja ei voi siirtää käsittelyä varten pois rekisterin ylläpitäjän tarjoamasta etäkäyttöjärjestelmästä. Tilastokeskuksen etäkäyttöjärjestelmän käytölle on maakohtaisia rajoituksia, eikä se ole mahdollista esim. Yhdysvalloista. Tilastokeskuksen Fionan ja Findatan Kapselin käyttöympäristöt ovat Tieteen tietotekniikan keskus CSC:n tuottamia. Eri järjestelmissä on omat ohjelmansa aineiston käsittelyyn ja niihin voi myös pyytää asentamaan omia analyysityökaluja ja -koodeja. Etäkäyttöjärjestelmässä kaikilla samaan aineistoon käyttöluvan saaneilla projektin tutkijoilla on pääsy tutkimusprojektin kaikkeen aineistoon. Jos pääsyä on tarpeen rajoittaa, projekti on jaettava pienempiin projekteihin. Projektin sisältä kansioita ei pysty hallitsemaan: etäkäyttöjärjestelmässä kaikki pääsevät myös toistensa työkansioihin. Etäkäytössä olevaa rekisteriaineistoa ei luovuteta ulos järjestelmästä, tuotettuja analyysituloksia saa tietyin ehdoin. Itse rekisteriaineisto pysyy rekisterin ylläpitäjän suljetussa ympäristössä, mutta etäkäyttöjärjestelmästä saa ulos ryhmiä koskevia analyysituloksia, kuten ryhmäkeskiarvoja, regressiokertoimia jne. Ulos tilattavat tulosteet käyvät läpi tietosuojatarkastusprosessin, ennen kuin ne lähetetään tutkijalle (ks. Tarkastusprosessista esim: ”Mikroaineistojen käyttö FIONAssa” [https://www.stat.fi/tup/mikroaineistot/etakaytto.html]). Ota huomioon etäkäyttöjärjestelmien rajallinen kapasiteetti aineiston käsittelyyn. Rekisteriaineistot ovat usein suuria, jopa miljoonia havaintoja ja satoja muuttujia sisältäviä kokonaisuuksia. Paljon muistia vaativissa analyyseissa ja jopa analyysiaineistojen säilyttämisessä etäkäyttöjärjestelmän rajat voivat tulla nopeasti vastaan (esim. Tilastokeskuksen järjestelmässä käyttömaksut on porrastettu sen mukaan, kuinka tehokas kone on käytössä). Datanhallinnassa on hyvä tiedostaa jo etukäteen rajalliseen käsittelykapasiteettiin liittyvät työskentelyn ongelmat, ja sopia samaa aineistoa käyttävän tutkimusryhmän kesken esimerkiksi analyysin välivaiheiden tuhoamiseen liittyvistä käytännöistä. Varaa runsaasti aikaa aineistojen esikäsittelyyn ja yhdistelyyn. Viranomaistietoihin perustuvat rekisteriaineistot ovat usein ns. raakadataa, joka sopii paremmin hallinnon tarpeisiin ja tietojärjestelmiin kuin tutkimukseen. Raakadatan muokkaaminen tutkimusaineistoksi esimerkiksi tutkimusväestöä ja tutkimusjaksoa rajaamalla, tietoja eri lähteistä yhdistämällä ja tutkimuksen käsitteitä olemassa oleviksi tiedoiksi operationalisoimalla on hidasta ja paljon päätöksiä edellyttävää käsityötä. Myös eri rekisteritietojen kertymisen prosesseja ja rekisteritietojen saatavuutta ja laatua, sekä näiden mahdollisia muutoksia ajassa täytyy monesti selvittää rekisteriviranomaisilta erikseen. Tässä tutkimusyhteistyöstä on usein apua, sillä monet rekisteritutkijat painivat samanlaisten kysymysten parissa ja ratkaisuihin voi saada ideoita ja neuvoja muilta. |
| 7. Dokumentaatio | Aineistojen kuvailu on suunniteltava ja resursoitava. Aineistojen kuvailu edistää aineistojen jatkokäyttöä. Dokumentointiin tarvittavat resurssit on varattava hankkeen budjetissa ja aikataulussa. Aineistosta tulee kerätä riittävän tarkat kuvailutiedot, jotka voidaan julkaista esimerkiksi CSC:n tuottamassa ja Kielipankin käyttämässä Meta-Share-palvelussa [http://metashare.csc.fi/] – Kielipankki ohjeistaa Meta-Sharen käytössä [https://www.kielipankki.fi/tuki/kuvailutiedot/]. Suunnittele versioiden hallinta etukäteen. Tutkimuksen aikana aineistosta syntyy tavallisesti eri versioita. Versioiden hallinta on tärkeää tutkimusprosessin aikana ja sen jälkeen, jos aineisto on relevantti jatkokäytön kannalta. Kielipankin verkkosivulla kerrotaan versioiden hallinnasta erityisesti aineiston avaamisen ja jatkokäytön näkökulmasta, muun muassa uusien versioiden syntymiseen liittyen [https://www.kielipankki.fi/tuki/kielivarojen-versiointi/]. | Prosessointien, ei datan itsensä dokumentaation tärkeys. Koska laajojen tekstiaineistojen tutkimus perustuu ensi sijassa lähdeorganisaatioilta saatavaan dataan, periaatteessa dataa itseään ei tarvitse kuvailla. Käytännössä lähdeorganisaatiot harvoin kuvailevat dataansa kovin yksityiskohtaisesti, koska alun perin aineistoa ei ole kerätty avointa julkaisemista varten – tällaisissa tapauksissa kuvailutyö jää tutkimusryhmälle. Jos lisäkuvailulle ja -metadatalle on tarvetta, niiden muotoilu on sisällytettävä osaksi muuta prosessointia. Tärkeämpää onkin tutkimusprosessien dokumentaatio, koska sillä taataan tutkimuksen läpinäkyvyys sekä välitetään eteenpäin hyviä käytäntöjä ja työkaluja. Tärkeitä dokumentoitavia asioita ovat esimerkiksi käytetyt työkalut sekä versiointitiedot (mitä käyttöjärjestelmäversiota, ohjelmakirjastoa ja lähdekoodia on käytetty jne.). Metadatan erillisjulkaiseminen edistää avointa tiedettä. Laajojen tekstiaineistojen tutkimusalalla on tapana kuvata prosessointiputki osana tutkimusartikkelia, mutta avoimen tieteen näkökulmasta mikään ei estä prosessointiputken kuvaamista metadatatiedostona esimerkiksi Etsimessä. Metadatatiedoissa voi kuvailla prosessointiputken, dokumentoida käytetyt työkalut ja niiden versiot ja niin edelleen. Tällaisilla metadatatiedostoilla voidaan jakaa helposti toimivia ja hyviksi havaittuja metodeja, joista muutkin tutkijat hyötyvät. | Somedatan kuvailun sijaan mielekkäämpää on puhua työprosessien dokumentaatiosta. Somedata syntyy tutkijasta riippumatta ja tutkimuksen ulkopuolisiin tarkoituksiin, minkä takia tutkija ei voi dokumentoida kaikkia sen syntyyn liittyviä metatietoja. Esim. X:n API:n kautta kerätyssä JSON-tiedostossa on paljon metadataa, josta osa (esim. käyttäjän profiilisivun taustaväri) ovat vain harvoin tutkimukselle merkityksellisiä. Tutkijan ei voida olettaa olevan vastuussa siitä, miten somealusta muodostaa metadataa tai määrittää tutkijalle välitettävän datan parametrit, mutta tutkijan on hyvä olla tietoinen alustan ajantasaisista vaikutuksista datankeruuseen. Muutoinkin tutkijoille on hyödyksi tuntea kriittistä somealustatutkimusta. Somedataan perustuvan tutkimuksen dokumentaatiossa merkittävimmät tutkijan vastuulle jäävät asiat liittyvät datan kuvailun sijasta työprosessin kuvailuun.
| Kyselytyökalu voi tuottaa dokumentaatiota – esimerkiksi Redcap-ohjelma tuottaa automaattisesti kyselyn data dictionaryn ja/tai koodikirjan, jossa selitetään muun muassa kyselyn muuttujat ja koodit Datan yhteyteen tallennettu readme-tiedosto on minimivaatimus aineiston dokumentoinnille. Ilman dokumentaatiota aineisto ei ole ymmärrettävää edes sen keränneelle jonkin ajan kuluttua. Dokumentaatio pitää tehdä koko projektin ajan. Jälkikäteen dokumentoiminen voi olla käytännössä mahdotonta. Projektin aikaiseen dokumentaatioon kuuluu muiden muassa tiedostojen nimeäminen ja tiedostojen kansiorakenne. Suunnittele sellainen kansiorakenne, joka soveltuu omalle projektillesi. Liian syvä kansiorakenne, jossa on monia alakansioita, voi hankaloittaa oikean kansion ja tiedoston löytämistä. Liian yksinkertainen kansiorakenne voi puolestaan tarkoittaa, että kaikki tiedostot ovat samassa kansiossa ja sekin voi hankaloittaa oikean tiedoston löytymistä. Tärkeää on myös pitää raakadata erillään käsitellystä datasta ja jäädyttää raakadata, jotta sitä ei prosessoinnilla muuteta. Myös projektiin liittyvät erilaiset hallinnolliset dokumentit, kuten suostumuslomakkeet ja tiedotteet vastaajille ovat osa projektin dokumentaatiota. Ne kannattaa erotella omaan kansioonsa. On hyvä olla erilliset kansionsa myös hakemusdokumenteille ja artikkeliversioille. Jos projektilla on usean tutkijan käytössä oleva yhteinen kansio, kansiorakenteesta ja projektin dokumentaatiosta on syytä sopia projektiryhmän kesken. (Ks. Helsingin yliopiston Datatuen dokumentointi-opas: https://doi.org/10.5281/zenodo.1914401) FAIR-periaatteiden toteuttamisessa metadata näyttelee tärkeää osaa. Jos siis haluaa, että data on löydettävää (findable), saavutettavaa (accessible), yhteentoimivaa (interoperable) ja uudelleenkäytettävää (reusable), pitää data dokumentoida hyvin eli sen yhteydessä pitää olla metadataa, joka kuvailee sitä. Mitä paremmin noudatat FAIR-periaatteita aineistossasi, sen paremmin muut voivat käyttää sitä. Käytännössä tämä tarkoittaa, että julkaiset datan tai metadatan paikassa, jossa se saa pysyvän tunnisteen, jossa sille voi valita lisenssin ja sen pitää sisältää metadata eli aineisto on kuvailtava niin, että sen käyttäminen on mahdollista. Vaikka aineistoa ei voi avata, metadatan useimmiten voi. Tässäkin tapauksessa pitää kuitenkin huolehtia siitä, ettei metadata sisällä arkaluonteisia tietoja. Metadatan voi julkaista esimerkiksi Etsimessä: https://etsin.fairdata.fi | Kuvaa tutkimusjulkaisussa, mitä valmisaineistoja on käytetty. Rekisteritutkimuksen tutkimusjulkaisuissa kuvataan tyypillisesti analyysiaineisto, mutta ei raaka-aineistoa. Tutkimuksen toistettavuuden ja avoimen tieteen kannalta hyvä käytäntö voisi olla raportoida, mistä rekistereistä tai valmismoduuleista saatuja tietoja analyysiaineiston muodostamisessa on käytetty sekä mitä analyysimenetelmiä on käytetty aineiston valmisteluun. Aineiston raportointi muuttuja- ja rekisteritasolla on myös suositeltavaa, koska valmisaineistojen sisältö muuttuu ajassa ja tutkimuksen tarkastelijan tai aineistojen jatkokäyttäjän on hankala jälkikäteen selvittää, millainen valmisaineisto tutkijalla on ollut käytössä tutkimuksen toteutuksen ajankohtana. |
| 8. Aineiston säilytys projektin aikana | Hyödynnä yliopiston palveluja aineiston säilyttämisessä. Tutkimusprojektin aikana aineistoa voi säilyttää omassa kotihakemistossa (jos käyttää aineistoa yksin) tai ryhmähakemistossa. Ohjeita erilaisiin käyttötarkoituksiin soveltuvista säilytysratkaisuista löytyy Helsingin yliopiston Datatuen wikisivun taulukosta [https://wiki.helsinki.fi/x/kgV5FQ]. Sensitiivisen datan säilyttäminen. Erityisen sensitiivistä aineistoa voi säilyttää Umpiossa, mutta Umpio sopii pelkkään tutkimuksen aikaiseen säilytykseen. Aineiston käsittely Umpiossa ei ole mahdollista. Jos aineistolla on Helsingin yliopiston ulkopuolisia käyttäjiä, on hyvä käyttää CSC:n sensitiivisen datan säilytyksen palveluja [https://research.csc.fi/sensitive-data]. Jos aineistoa joutuu tilapäisesti säilyttämään ulkoisella kovalevyllä tai muistitikulla, se pitää suojata salasanalla ja mielellään myös kryptata (ks. Cryptomator[A2] -ohjelman käyttö Helpdeskin sivulla [https://helpdesk.it.helsinki.fi/ohjeet/tietoturva-ja-pilvipalvelut/tietoturva/cryptomator]).
| Tallennusratkaisua valittaessa on otettava huomioon muun muassa seuraavat asiat:
Tämän takia yhtä kaikille aina sopivaa tallennusratkaisua ei ole olemassa. Huolellinen eri tallennusratkaisuihin tutustuminen on erittäin suositeltavaa. Helsingin yliopiston tarjoamat tallennusratkaisut on listattu tähän taulukkoon. Ei-suositeltuja vaihtoehtoja ovat kaupalliset pilvipalvelut ja ulkoiset kovalevyt/muistitikut. Laajojen tekstiaineistojen tapauksessa versionhallinta on korostuneessa roolissa, kun tallennusratkaisua valitaan. Kun raakadataa ajetaan useita kertoja prosessointiputken läpi, täytyy kyetä varmistamaan, että prosessoinnissa tapahtuvat datan muutokset ovat myös peruutettavissa. Jos data esimerkiksi korruptoituu ja edellinen varmuuskopio on useita iteraatioita vanha, hyvä versionhallinta säästää tutkimusryhmältä resursseja. Seuraavat ehdotukset tallennusratkaisuiksi perustuvat Helsingin yliopiston tarjoamiin tallennusratkaisuihin, sekä ajatukseen tekstiaineistoista korkeintaan matalariskistä henkilötietoa sisältävänä datana.
| Tallennusratkaisua valittaessa on otettava huomioon muun muassa seuraavat asiat:
Tämän takia yhtä kaikille aina sopivaa tallennusratkaisua ei ole olemassa. Huolellinen eri tallennusratkaisuihin tutustuminen on erittäin suositeltavaa. Helsingin yliopiston tarjoamat tallennusratkaisut on listattu tähän taulukkoon. Ei-suositeltuja vaihtoehtoja ovat kaupalliset pilvipalvelut ja ulkoiset kovalevyt/muistitikut. Tässä ehdotetaan muutamia somedatalle sopivia tallennusratkaisuja. Ehdotukset perustuvat ajatukselle somedatasta matalariskisenä sensitiivisenä henkilötietona.
Jos tutkimusryhmään sisältyy Helsingin yliopiston ulkopuolisia tahoja, toimivia ratkaisuja ovat esimerkiksi useat CSC:n palvelut, Fairdata IDA sekä dokumentaatiolle sopii myös Microsoft Teams. Moniin näistä ei saa tallentaa henkilötietoa tai sitä sisältävä data suositellaan tallennettavan kryptattuna – tutustu siis palveluiden ehtoihin ja kuvauksiin ennen käyttöönottoa. Tietoturvaa ja -suojaa saa lisää yhdistelemällä mainittuja palveluja esim. tallentamalla pseudonymisointiavaimet yhteen palveluun ja dokumentaation keruusta ja prosessoinnista toiseen palveluun. | Kyselytyökalua ei ole tarkoitettu datan säilyttämiseen. Siirrä aineisto pois käyttämästäsi työkalusta, kun olet saanut datan kerättyä. Tallennuspaikkaa datalle valittaessa, kannattaa miettiä, kenellä kaikilla pitää olla pääsy mihinkin dataan – esimerkiksi, jos tarvitsee ainoastaan pääsyn valmiisiin analyyseihin, raakadataa sisältävän kansion voi määritellä suljetummaksi. Jonkun pitää olla projektissa se, joka jakaa pääsyoikeuksia. Hyödynnä yliopiston palveluja aineiston säilyttämisessä. Tutkimusprojektin aikana aineistoa voi säilyttää omassa kotihakemistossa (jos käyttää aineistoa yksin) tai ryhmähakemistossa. Ohjeita erilaisiin käyttötarkoituksiin soveltuvista säilytysratkaisuista löytyy Helsingin yliopiston Datatuen wikisivun taulukosta [https://wiki.helsinki.fi/x/kgV5FQ]. Dokumentoi itsellesi ja ryhmällesi, missä dataa säilytetään, jotta voit esimerkiksi tarvittaessa tuhota kaiken sen datan, jonka olet luvannut tuhota. Helsingin yliopiston kotihakemistot ja ryhmähakemistot varmuuskopioidaan joka tunti ja ne toimivat Windows-, Mac- ja Linux-käyttöjärjestelmissä. Kotihakemistot ja ryhmähakemistot sijaitsevat yliopiston omilla palvelimilla. Kaikilla yliopistolaisilla on käytössään kotihakemisto (z-asema Windows-koneilla). Ohjeet ryhmähakemiston hankintaan: https://helpdesk.it.helsinki.fi/help/10548 Ulkoinen kovalevy voi olla tarpeen esimerkiksi kenttätöissä, mutta ainoaksi tallennuspaikaksi se ei sovi, koska silloin pitää itse muun muassa muistaa huolehtia varmuuskopioinnista. Kovalevyt saattavat myös hajota tai kadota. Jos kuitenkin säilyttää jotakin kovalevyllä ja erityisesti, jos aineisto on arkaluonteista, kovalevy on salattava (kryptaus) ja tähän voi käyttää esimerkiksi Cryptomatoria. HY:n ohjeet Cryptomatorin käyttöön: https://helpdesk.it.helsinki.fi/help/10672 Aineisto on myös hyvä siirtää mahdollisimman nopeasti kovalevyltä yliopiston tarjoamiin tallennuspaikkoihin. Sensitiivisen datan säilyttäminen. Erityisen sensitiivistä aineistoa voi säilyttää Umpiossa, mutta Umpio sopii pelkkään tutkimuksen aikaiseen säilytykseen ja prosessointiin. Jos aineistolla on Helsingin yliopiston ulkopuolisia käyttäjiä, on hyvä käyttää CSC:n sensitiivisen datan säilytyksen palveluja [https://research.csc.fi/sensitive-data]. Jos aineistoa joutuu tilapäisesti säilyttämään ulkoisella kovalevyllä tai muistitikulla, se pitää suojata salasanalla ja mielellään myös salata (ks. Cryptomator-ohjelman käyttö Helpdeskin sivulla [https://helpdesk.it.helsinki.fi/ohjeet/tietoturva-ja-pilvipalvelut/tietoturva/cryptomator]). ”Toimenpiteitä tietojen suojaamiseksi ovat esimerkiksi: pseudonymisointi ja anonymisointi, tietojen salaaminen (kryptaus), tietojen aggregointi, lähettäminen salatulla yhteydellä, ohjeistukset tietojen käsittelijöille, lokitietojen kerääminen, pääsyoikeuksien ja käyttövaltuuksien rajaaminen, käytönvalvonta ja sopimukset.” https://flamma.helsinki.fi/fi/group/tutkimuksen-tuki/tutkimuksen-tietosuoja-asiat#menu8 Esimerkiksi Redcap-ohjelmasta saa lokitiedot. Jos kyselyaineistosi linkittyy rekisteriaineistoon, pitää noudattaa rekisteriaineistosta annettua ohjeistusta sen säilyttämisestä. [linkki rekisteriohjeeseen] Aineiston jakaminen projektin aikana. Projektiryhmän kesken on syytä sopia, kuka on vastuussa mistäkin aineistonhallinnan tehtävästä. Jos rooliin tai tehtävän hoitoon riittää, että on pääsy ainoastaan analysoituun aineistoon, oikeuksia ei tarvitse antaa raakadataan ja niin edelleen. Jakaminen on hankalampaa, jos projektissa on oman organisaation ulkopuolisia henkilöitä. Silloin voi hyödyntää CSC:n tallennusratkaisuja, jossa on myös arkaluonteiselle datalle sopivia ratkaisuja. Vielä monimutkaisemmaksi tilanne menee, jos projektissa on muita kuin Suomessa tutkimusta tekeviä henkilöitä. Tällöin kannattaa olla yhteydessä Datatukeen, josta saa apua sopivan ratkaisun löytämiseen | Etäkäyttöaineistojen ja luovutettujen aineistojen säilytyksessä on eroa. Tilastokeskuksen ja Findatan aineistojen säilytys tapahtuu etäkäyttöympäristöissä, jotka ovat Tieteen tietotekniikan keskus CSC:n tuottamia. Tutkijoille omaan organisaatioon luovutetut aineistot tulee säilyttää tietoturvallisessa ympäristössä, joista vaihtoehtoina on yliopiston oma umpio-järjestelmä tai tiedot voidaan säilyttää esimerkiksi suojatuilla tallennusvälineillä. Yliopiston tarjoamalla ryhmätyötilalla ei saa säilyttää henkilötietoja sisältävää dataa, vaikka kansioihin pääsyä onkin mahdollista rajoittaa. Tutkijan on selvitettävä, miten aineisto siirretään rekisterinpitäjältä itselle ja miten varmistetaan turvallinen tiedonsiirto ja säilytys. Mahdollinen aineiston käsittely ja säilytys HY:n käyttöympäristöissä. Aineistoa on hyvä säilyttää ja käsitellä pseudonymisoituna ja kryptattuna. Yliopistolaisten käytössä olevat koti- (Z
|
| 9. Aineiston avaaminen, arkistointi ja hävittäminen | Kielipankki on luonteva säilytyspaikka. Kielentutkimuksessa on vakiintuneita säilytysratkaisuja verrattuna moniin muihin aloihin. Aineistojen avaamisen kannalta keskeisin on Kielipankki (ks. aineistosivu [https://www.kielipankki.fi/aineistot/]), joka kokoaa teksti-, ääni- ja videoaineistoja. Kielipankkiin voi tallentaa ja sitä voi käyttää myös muilla aloilla kuin kielentutkimuksessa. Sitä ylläpitää suomalaisten yliopistojen, CSC:n ja Kotimaisten kielten keskuksen FIN-CLARIN-konsortio. Esimerkiksi Suomen Akatemia ja useat säätiöt suosittelevat, että kieliaineistojen pitkäaikaissäilytys järjestetään FIN-CLARINin kautta. Kielipankin kautta tarjottavien aineistojen hankkimisesta ja vastaanottamisesta, työkalujen kehityksestä sekä koulutustoiminnasta vastaa Helsingin yliopisto, teknisestä ylläpidosta CSC. Kieliaineiston tuottajan tai omistajan on varmistettava riittävät oikeudet ja luvat aineiston käyttöön ja jatkokäyttöön [https://www.kielipankki.fi/tuki/kielivarasopimukset/] sekä varauduttava tekemään kielivarasta tallennussopimus FIN-CLARINin kanssa (ks. ohjeet aineiston tuottajille [https://www.kielipankki.fi/tuki/talletus/]). On hyvä huomioida myös mahdolliset kustannukset, jotka liittyvät aineiston avaamiseen Kielipankissa (ks. FIN-CLARINin tarjoamat ostopalvelut [https://www.kielipankki.fi/tuki/ostopalvelut/]). Poistettavat aineistot tulee hävittää tietoturvallisesti. Etenkin arkaluonteisten aineistojen hävittämisessä tulee tiedostojen kohdalla noudattaa Helpdeskin ohjeistusta [https://helpdesk.it.helsinki.fi/ohjeet/tallentaminen-ja-jakaminen/tiedostojen-turvallinen-poistaminen]. Fyysiset tallennusmediat, kuten ulkoiset kovalevyt tai CD-levyt voidaan rikkoa; esim. rikottua CD-levyä on mahdotonta korjata. Fyysisten tallenteiden hävittämiseen on myös omia laatikoita, joita voi tiedustella tilapalveluista [https://www-db2.helsinki.fi/tto/puhelin.lista.haku?valinta=4&osasto=K50&k1=on&k2=on&k3=off&ilme=yes&kl=0]. Myös IT-lähitukea voi aina pyytää hoitamaan hävityksen, mikäli on epävarma tai kyseessä on hyvin sensitiivinen aineisto. Aineiston versiot aineistoa avattaessa. Versioiden hallinnasta aineiston avaamisen ja jatkokäytön näkökulmasta löytyy ohjeistusta Kielipankin verkkosivulla [https://www.kielipankki.fi/tuki/kielivarojen-versiointi/]. | Tutkimuskäyttöön jalostettavista tekstiaineistoista julkaistaan yleensä tutkimusartikkelien lisäksi dataa kahdessa muodossa: jatkojalostettavana datana sekä portaalina. Jatkojalostettava data voidaan avata datajulkaisuna esimerkiksi Zenodossa ja Linked Data Finlandissa. Portaali julkaistaan erillisenä sivustona, jonne pääsy on mahdollisimman vapaata. Molemmissa kyseessä on sama data mutta eri muodossa: portaalissa data on laajemmalle yleisölle helpommin käytettävässä muodossa, datajulkaisuna se on kanssatutkijoille helpommin hyödynnettävässä ja omaan tutkimukseen sopeutettavassa muodossa. Julkaistussa datassa saattaa olla myös joitakin eroja esimerkiksi lähdeorganisaatioiden vaatimuksista – lähdeorganisaatio saattaa esimerkiksi vaatia datajulkaisusta poistettavaksi tiettyjä tietoja, joiden kohdalla portaali ohjaa lähdeorganisaation omaan palveluun. Pitkäaikaissäilyvyys on tarpeen suunnitella etukäteen. Koska laajoja tekstiaineistoja tutkivat projektit keskittyvät tutkimuksen lisäksi portaalin ja jalostetun datan julkaisemiseen, projekteilla on erityisen pitkä häntä. Tarkoituksena on, että portaali pysyy käytettävissä projektin rahoituksen päättymisen jälkeen. Näin ollen onkin erityisen tärkeää suunnitella huolellisesti, kuinka portaalin toimivuus varmistetaan pitkällä tähtäimellä – esimerkiksi: mitä portaalille tapahtuu, kun hankkeen vastuullinen tutkija eläköityy, miten palvelinmaksujen kustannukset katetaan, kuinka ohjelmistojen päivittämisestä huolehditaan? | Developer-sopimukset estävät tutkijoita avaamasta ja arkistoimasta tutkimukseen kerättyä somedataa sellaisenaan tai ollenkaan. Sosiaalisen median alustat rajoittavat datan avaamista ja arkistoimista pitkäaikaistallennusta varten. Esimerkiksi X on sallinut twiittidatan avaamisen ”dehydroidussa” muodossa eli pelkkinä twiitit yksilöivinä id-tunnisteina, jossa ne on syötettävä X:n API:n saadakseen varsinaisen eli ”rehydroidun” twiitin nähtäväkseen. ”Rehydrointi” on mahdollista tehdä myös ilman developer-sopimusta, mutta tällöin prosessi tapahtuu twiitti kerrallaan. X:n API muuttui kevään 2023 aikana maksulliseksi, mikä tekee suurten aineistojen ”rehydroinnista” aiempaa ongelmallisempaa: kymmeneen tuhanteen twiittiin rajoitettu keruu maksaa 100 $ per kuukausi. Laajempi käyttö maksaa enemmän. Somedatan sijaan tutkija voi tutkimuksen jälkeen avata käyttämänsä skriptit esim. GitHubissa, mutta tätä varten ohjelmointia olisi hyvä siistiä ja kommentoida. Ilman siistimistä ja kommentointia ohjelmien jatkokäyttö voi olla hankalaa tai mahdotonta. Tutkimuksen jälkeinen somedatan kuratointi jää tutkijan vastuulle. Tutkijan vastuulle jää varmistaa, että hänellä käytössään oleva somedata ei sisällä sittemmin poistettuja tai muilla tavoilla piilotettuja julkaisuja. Julkaisun poistaminen on tulkittavissa käyttäjän ilmaisemaksi (GDPR:n mukaiseksi) haluksi tulla unohdetuksi ja tutkijan on näin ollen poistettava kyseinen aineisto datastaan. Vaatimus sisällön poistamisesta ilmenee myös esim. X:n omissa ohjeissa.Kuratointivaatimus tuo mukanaan useita haasteita tutkijoille, sillä tutkimustulosten toisintaminen täsmällisesti muuttuu vähintäänkin erittäin vaikeaksi tai jopa mahdottomaksi, jos ja kun samaa dataa ei voi tai saa käyttää. Lisävaikeutta kuratoinnin käytännön toteuttamiseen tuo myös X:n API:n muuttuminen maksulliseksi kevään 2023 aikana, sillä kuratointi on tehtävä ”rehydroimalla” data, jolloin se on ajettava API:n kautta. Kuratointivaatimus myös näivettää tutkijalla käytössä olevan datan määrää vähitellen ja toisinaan dramaattisesti lyhyessä ajassa, jos somealusta syystä tai toisesta menettää käyttäjiä. Kuratointivaatimuksen tapauksessa tutkijan tutkimuskohteena on aina sosiaalisen median alusta ja sen sisällöt sellaisena kuin se juuri nyt on tallella, ei niinkään mitä (sittemmin syystä tai toisesta poistettua) keskustelua on autenttisesti käyty. Tämä tekee sosiaalisen median historiallisen tutkimuksen merkittävästi rajatummaksi. Somedatan säilyttäminen tutkimuksen jälkeen tutkijan itsensä käytössä. Tutkijan omaan käyttöön tarkoitettu, tutkimuksen jälkeinen raakadatan säilytys suositellaan tehtäväksi CSC:n palveluissa sekä Helsingin yliopiston omissa palveluissa eli kotihakemistossa Z-asemalla tai ryhmähakemistossa P-asemalla. Mainittujen ratkaisujen ongelmana on niiden riippuvaisuus yliopiston käyttäjätunnuksista: jos työsuhde yliopistoon katkeaa, myös pääsy mainittuihin palveluihin katkeaa. Ehto sisältyy myös useisiin muihin palveluihin, kuten esimerkiksi IDA:an. Tällaisissa tilanteissa datan siirto muihin palveluihin tulisi ennakoida ja suunnitella hyvissä ajoin. Tutkimuksen jälkeiseen datan säilytykseen ei suositella käytettävän kaupallisia pilvipalveluita tai ulkoisia kovalevyjä. Jos muita vaihtoehtoja ei kuitenkaan ole, tiedostojen kryptaamisella ja tallentamisella useaan paikkaan saa datalle lisäturvaa. Aineiston tuhoaminen on myös vaihtoehto. Kaikkea tutkimusaineistoa ei tarvitse säilyttää, vaan se voidaan tuhota tutkimuksen jälkeen. Periaatteessa esim. X:n somedata on aina ajettava API:n läpi, kun sitä halutaan käyttää, minkä takia on mahdollista halutessaan perustella, että tutkijan ei itse tarvitse säilyttää somedataa tutkimuksen jälkeen. Tällöin kuitenkin annetaan entistä enemmän valtaa alustayhtiöille. Jos aineisto aiotaan tuhota, pelkkä käyttöjärjestelmän poista-toiminto (yleensä Delete) ei riitä, vaan tiedostot on mahdollista palauttaa myöhemmin. Lisätietoja tiedostojen turvallisesta poistamisesta voi lukea esimerkiksi Helsingin yliopiston Helpdeskin sivuilta – täältä. | Aineiston avaamisessa ja arkistoinnissa on noudatettava sitä, mitä tutkittaville on informoitu. Suomessa kyselytutkimusaineistolle sopiva arkistointipaikka on tyypillisesti Tietoarkisto. Tietoarkisto vastaanottaa ainoastaan anonyymia aineistoa. Tietoarkiston Aineistonhallinnan käsikirjaan voit tutustua täällä: https://www.fsd.tuni.fi/fi/palvelut/aineistonhallinta/ Omalle datalle sopivaa tallennuspaikkaa voi etsiä myös Re3data.org -palvelusta. Arkistoinnin valinnassa kannattaa suosia kuratoituja arkistoja, joissa voi valita (mahdollisimman avoimen) lisenssin datalle. Kuratoitu arkisto huolehtii datan pitkäaikaissäilytyksestä. Kuratoidusta arkistosta kertoo esimerkiksi Core Trust Seal. Niin ikään kannattaa valita arkisto, joka antaa datalle pysyvän tunnisteen (persistent identifier, PID). Pysyvät tunnisteet takaavat sen, että data on luotettavasti löydettävissä ja viitattavissa. Tarkista myös, kuinka pitkäksi aikaa repositorio lupaa säilyttää dataa. Data kannattaa avata avoimen lähdekoodin tiedostomuodossa (esim. csv-tiedosto) ja ehkä myös useammassa tiedostomuodossa, jolloin useampi tutkija voi ottaa datan käyttöönsä – ei siis vain esimerkiksi SPSS-tiedostona, joka on maksullinen ja suljettu ohjelma. Jos olet informoinut tutkittavia, että data tuhotaan tietyn ajan kuluttua, niin näin pitää myös toimia. Jos olet informoinut, että säilytät aineiston tutkimuksen verifiointiajan ja sen jälkeen tuhoat sen, laita itsellesi esimerkiksi kalenterimuistutus, että todella muistat tuhota aineiston. Poista kyselyaineistosi kyselytyökalusta ja tallenna itsellesi tarvitsemasi kyselypohjat seuraavaa projektiasi varten. Tarkista, missä muodossa ja miten projektin aineiston saa ulos työkalusta. Tarkista, mikä on työkalun datan säilytyskäytäntö eli kuinka kauan voit pitää datasi siellä. Jos haluat käyttää keräämääsi dataa myös johonkin toiseen tutkimukseen, siitä on informoitava tutkittavia. | Etäkäytössä olevien rekisteriaineistojen säilytyksestä vastaa rekisterin ylläpitäjä. Kun aineiston käyttölupa päättyy, aineistojen käyttö tutkijan osalta loppuu. Rekisteriviranomaisen etäkäyttöjärjestelmässä olevan aineiston säilytys tai hävittäminen ei ole tutkijan vastuulla. Tutkijan vastuulla on kuitenkin ottaa talteen etäkäyttöjärjestelmässä olevat ohjelmakoodit ja tulokset tutkimuksen dokumentoimiseksi ja toistettavuuden takaamiseksi. Luovutettujen aineistojen säilyttämisestä ja hävittämisestä vastaa tutkija. [OHJEISTUS TARKENTUU TÄMÄN OSALTA; ks. kyselyaineistojen ohje, miten asia on esitetty siinä] Aineiston käyttöluvan päättyessä aineisto tulee hävittää tietoturvallisesti. Etenkin arkaluonteisten aineistojen hävittämisessä tulee tiedostojen kohdalla noudattaa Helpdeskin ohjeistusta [https://helpdesk.it.helsinki.fi/ohjeet/tallentaminen-ja-jakaminen/tiedostojen-turvallinen-poistaminen]. Fyysiset tallennusmediat, kuten ulkoiset kovalevyt tai CD-levyt voidaan rikkoa; esim. rikottua CD-levyä on mahdotonta korjata. CD-levyjen hävittämiseen löytyy myös omia laatikoita, joita voi tiedustella tilapalveluista [https://www-db2.helsinki.fi/tto/puhelin.lista.haku?valinta=4&osasto=K50&k1=on&k2=on&k3=off&ilme=yes&kl=0]. Myös IT-lähitukea (helpdesk@helsinki.fi) voi aina pyytää hoitamaan hävityksen, mikäli on epävarma tai kyseessä on hyvin sensitiivinen aineisto. Rekisteriaineistoista johdetut tulokset päätyvät yleensä tutkimusjulkaisuun. Tulokset perustuvat tilastollisiin analyyseihin aineistosta, mutta ne eivät sisällä yksilökohtaista dataa. Tulokset julkaistaan usein artikkelin yhteydessä. Myös julkaisemattomia kuvailevia tuloksia voi olla aiheellista säilyttää tehdyn tutkimuksen dokumentoinniksi. Rekisteriaineistojen analyysikoodit voi säilyttää ja julkaista. Rekisteriaineistojen prosessoinnissa käytetyt ohjelmakoodit jäävät tutkijalle, ja lehdet voivat edellyttää niitä julkaistavaksi osana tutkimusjulkaisua. Analyysikoodit ovat tekstitiedostoja, jotka mahdollistavat palaamisen tutkimukseen tarvittaessa. Ohjelmakoodien julkaiseminen tukee tutkimuksen toistettavuutta, ja sitä voikin pitää hyvänä tieteellisenä käytäntönä. Julkaisua varten ohjelmakoodit kannattaa tallentaa Zenodoon [https://zenodo.org/] ja linkittää GitHubiin [https://github.com/]. Zenodossa ne saavat pysyvän tunnisteen ja ovat paremmassa tallessa myös tutkijan omaa myöhempää käyttöä varten. Ohjelmakoodien ja algoritmien lisenssinä käytetään MIT- tai GNU-lisenssiä (ks. ”Mikä lisenssi sopii ohjelmistoille tai datalle” [https://www.helsinki.fi/fi/helsingin-yliopiston-kirjasto/tutkijan-kirjasto/avoimen-tieteen-palvelut/tekijanoikeus-ja-lisenssit#mik--li-sens-si-so-pii-oh-jel-mis-toil-le-tai-da-tal-le---title]). Analyysikoodien kuvailu edistää jatkokäyttöä. Ohjelmakoodit on tarpeen kuvata riittävällä tarkkuudella. Jonkinlainen yleisdokumentaatio on aina tarpeen, mutta toiset tutkijat eivät välttämättä tarvitse jokaisen käskyn avaavaa yksityiskohtaista selostusta joka riville. Muille samanlaisia tilastoanalyyseja tekeville tutkijoille ainakin osa ohjelmakoodista on luettavissa ja ymmärrettävissä myös ilman rivikohtaista dokumentaatiota.
|
| LÄHTEET | Kirjallisuutta Verkkolähteitä Kielipankki 2015-21. Aineistonhallintasuunnitelma. https://www.kielipankki.fi/tuki/aineistonhallintasuunnitelma/] Kielipankki 2015-21. Aineistojen tuottajan ohjeet ja muistilista. https://www.kielipankki.fi/tuki/ohjeita-sisallontuottajille/ Kielipankki:”Henkilötiedot ja tutkittavien henkilöiden yksityisyys” [https://www.kielipankki.fi/tuki/keruuvaiheen-luvat/], joka ohjeistaa mm. rekisterinpitäjän määrittelyssä ja henkilötietojen käsittelyssä. Tietosuoja: tiedonkeruun minimointi: https://tietosuoja.fi/henkilotietojen-minimointi-tieteellisessa-tutkimuksessa Tietoa tietosuojasta ja Helsingin yliopiston ilmoituspohjat löytyvät Flammasta [https://flamma.helsinki.fi/s/HRgMA]. Henkilötietorekisterien keräämistä ja käsittelyä ohjaa EU:n tietosuoja-asetus (GDPR, General Data Protection Regulation) [https://tietosuoja.fi/tieteellinen-tutkimus] Kansallinen tietosuojalaki (1050/2018) [https://www.finlex.fi/fi/laki/ajantasa/2018/20181050], jossa on tarkennettu tutkimukseen liittyviä kohtia. Eettisestä ennakkoarvioinnista löytyy tietoa Helsingin yliopiston sivulta: [https://www.helsinki.fi/fi/tutkimus/palvelut-tutkijoille/tutkimuksen-eettinen-ennakkoarviointi/ihmistieteet]. Lupapohjia kieliaineiston keräämiseen Kielipankin sivuilla: [https://www.kielipankki.fi/tuki/kieliaineiston-keraamislupapohjat/]. Esimerkkinä CLARIN-loppukäyttäjän lisenssin (EULA) ehdot: [https://www.kielipankki.fi/tuki/clarin-eula/]. | Kirjallisuutta Verkkolähteitä | Kirjallisuutta Bruns, A. (2019). After the ‘APIcalypse’: social media platforms and their fight against critical scholarly research. Information Communication and Society, 22(11), 1544–1566. https://doi.org/10.1080/1369118X.2019.1637447 Joseph, K., Landwehr, P. M., & Carley, K. M. (2014). Two 1%s Don’t make a whole: Comparing simultaneous samples from Twitter’s Streaming API. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 8393 LNCS, 75–83. https://doi.org/10.1007/978-3-319-05579-4_10 Laaksonen, Salla-Maaria & Salonen, Margareta 2018. Kuka saa päättää, mitä dataa tutkijalla on käytössään? Ei ainakaan amerikkalainen suuryritys. Rajapinta. https://rajapinta.co/2018/12/04/kuka-saa-paattaa-mita-dataa-tutkijalla-on-kaytossaan-ei-ainakaan-amerikkalainen-suuryritys/ Markham, A. (2012). Fabrication as Ethical Practice. Information, Communication & Society, 15(3), 334–353. https://doi.org/10.1080/1369118X.2011.641993 Morstatter, F., Ave, S. M., Ave, S. M., & Carley, K. M. (2013). Is the Sample Good Enough ? Comparing Data from Twitter ’ s Streaming API with Twitter ’ s Firehose. Obar, J. A., & Oeldorf-Hirsch, A. (2020). The biggest lie on the Internet: ignoring the privacy policies and terms of service policies of social networking services. Information, Communication & Society, 23(1), 128–147. https://doi.org/10.1080/1369118X.2018.1486870 Rogers, R. (2018). Social media research after the fake news debacle. Partecipazione e Conflitto: The Open Journal of Sociopolitical Studies, 11(2), 557–570. doi:10.1285/i20356609v11i2p557 Sandvig, C. (2017). Heading to the courthouse for Sandvig v. Sessions. https://socialmediacollective.org/2017/10/19/heading-to-the-courthouse-for-sandvig-v-sessions/ Venturini, T., Bounegru, L., Gray, J., & Rogers, R. (2018). A reality check(list) for digital methods. New Media and Society, 20(11), 4195–4217. https://doi.org/10.1177/1461444818769236 Verkkolähteitä AoIR: https://aoir.org/reports/ethics3.pdf Toolkit for Digital Methods: https://wiki.helsinki.fi/xwiki/bin/view/TDM/ Tutkimuksen tietosuoja HYn kontekstissa - Flamma: https://flamma.helsinki.fi/s/HRgMA | Kirjallisuutta Verkkolähteitä | Kirjallisuutta Verkkolähteitä Findata [https://findata.fi/aineistot/#mita-aineistoja-findatan-kautta-on-saatavilla]. Findatan jonotilanne [https://findata.fi/#stats] ja hinnoittelu [https://findata.fi/hinnasto/] Tilastokeskus. [https://tilastokeskus.fi/tup/mikroaineistot/index.html Tilastokeskus aikatauluarvio. [https://tilastokeskus.fi/tup/mikroaineistot/index.html] Tilastokeskus hinnoittelu. [https://tilastokeskus.fi/tup/mikroaineistot/aineistojen-ja-palveluiden-hinnat.html];
|
SSH-alojen aineistokäsikirja on tuotettu HSSH-instituutin ja Helsingin yliopiston kirjaston Datatuen yhteistyönä SSH-alojen RDM-projektissa vuosina 2022-23.
Työryhmä: