Tilastolliset tietosuojamenetelmät, kevät 2010
Luennoitsija
Laajuus
2-4 op, ks. kohta Luentoajat. Mahdollisuus lisätyöllä kuten kurssilla pidettävällä esitelmällä lisäopintopisteisiin.
Tyyppi
On yleissivistävä kurssi jota voi käyttää toki aine- ja syventäviin opintoihin. Perusperiaatteet on syytä tietää kaikkien datan luojien ja käsittelijöiden.
Esitietovaatimukset
Tilastollisen datan ymmärrys on välttämätöntä. Kurssin loppupuoella on vaativiakin menetelmiä eli hyvä metodinen osaaminen on hyödyksi. Perusosiltaan kurssi ei ole vaativa minkään alan ihimiselle mutta tosivaativiakin metodeja löytyy.
Tämä on ensimmäinen Helsingin yliopistossa tältä alalta pidettävä kurssi eli siinä on pioneerimaisuutta. Taustaksi hieman selostusta aiheesta:
Tilastollisen datan tulisi olla mahdollisimman laajasti hyödynnetty mutta yksilösuoja tulee turvata. Yksilö tässä tarkoittaa erityisesti ihmistä, kotitaloutta sekä yritystä ja sen toimipaikkaa. Joskus jopa alueen (pienalueen) tai rakennuksen tietosuojasta on hyvä huolehtia. Tilastollinen data ilmentyy kahdessa päämuodossa, (a) mikromuodossa missä mainittu yksilö (tilastoyksikkö) on suoraan näkyvissä aineistossa, (b) aggregaattimuodossa (kuten taulukkomuodossa tai vaikkapa regressioestimaattina) jolloin yksilö ei suoraan näy aineistossa mutta voidaan sieltä 'urkkimalla' löytää. Kumpaankin tilanteeseen on löydettävä järkevät tavat jotta ainestosta saadaan irti mahdollisimman paljon yksilösuojaa loukkaamatta. On helppo ymmärtää että tilanteessa (a) ovat muutamat yksinkertaiset suojaukset välttämättömiä jos aineisto annetaan datan kerääjän ulkopuolisten käytettäväksi (kuten varsinaisen tunnisteen muuntaminen tunnistamattomaksi). Mutta ongelma ei ole tällä ratkaistu koska tunnistaminen voi tapahtua epäsuorasti eri aineiston muitakin muuttujia hyväksi käyttämällä.
Kurssilla tulee esille molempiin tilanteisiin sopivia metodisia ja käytännöllisiä perusratkaisuja. On hyvä huomata että kaikkiin tilanteisiin (erityisesti yritysaineistojen käsittelyyn ja myös väestöllisten kokonaisaineistojen) ei löydy riittävän hyviä menetelmiä. Siksi käsittelyä varten on ratkaisuja joissa tutkija sitoutuu asianmukaiseen käsittelytapaan erityissopimuksen puitteissa. Tästäkin havaitset että tämä aihe on myös lähellä juridiikkaa koska väärin toimimisesta voi seurata rangaistus.
Luentoajat
IV periodilla. Ensimmäiset luennot ovat ennen pääsiäistä seuraavasti:
TI 16.03.2010 16:00-18:00 PÄÄRAKENNUS AUD XIV
TO 18.03.2010 16:00-18:00 UNIONINKATU 40 U40 SALI 6
TI 23.03.2010 16:00-18:00 PÄÄRAKENNUS AUD XIV
TO 25.03.2010 16:00-18:00 UNIONINKATU 40 U40 SALI 6
Näiden kertojen jälkeen katsotaan missä mennään ja kuinka osanottajat haluavat edetä ja minä aikoina pääsiäisen jälkeen. Onhan epäselvää kuinka paljon kiinnostusta aihe herättää. Alkukerroilla kyse on johdatuksesta luennoimalla ja keskustelemalla jolloin käydään läpi mm. mitä on luottamuksellinen data, paljastumisen riski sekä erilaiset suojausmenetelmät verraten yleisellä tasolla. Siis perusperiaatteet tulevat tässä vaiheessa tutuiksi. Jos joku ei halua jatkaa, on mahdollisuus tenttiä tämä osuus ja hankkia 2 op.
Myöhemmillä kerroilla tarkastellaan joitakin menetelmiä syvällisemmin sekä tarjotaan mahdollisuus menetelmien omakohtaiseen harjoitteluun tai jos tämä ei ole hyvä ajatus, niin luennoija demoaa datojen avulla erilaisia metodeja ja mitä ne vaikuttavat. Jatko-osassa on myös ainakin yhden vierailijan esitys tällaisesta työstä jokapäiväisessä datamaailmassa. Osanottajat voivat myös pitää esityksiä eli toiminta voisi olla osin seminaariluonteistakin. Kokonaisuudessaan kurssi tältä osin tuottaa 4 op mutta alustuksen pitämällä määrää voi nostaa. Alustus voi myös olla jonkin tietosuojakysymyksen esittely, ehkäpä sellaisen johon ei helppoa ratkaisua löydy kaikilta näkökannoilta (kuten että tietoa katoaa liikaa jos suojataan kunnolla).
Kokeet
Alkukoe heti luentojen seuraavasti. The base exam is schedules as follows:
TI 30.03.2010 16:00-18:00 PÄÄRAKENNUS AUD II
Mikäli aika ei sovi, voidaan etsiä toinen aika ja paikka. Laita sopivista ajoista tietoa sähköpostilla. Vaihtoehtokoe voi olla ennen 30.3. tai jälkeen päin eli selvähkösti pääsiäisen jälkeen.
Kurssi jatkuu seuraavasti pääsiäisen jälkeen:
TI 13.04.2010 16:00-18:00 PÄÄRAKENNUS AUD II
TO 15.04.2010 16:00-18:00 PÄÄRAKENNUS AUD IX
TI 20.04.2010 16:00-18:00 PÄÄRAKENNUS AUD II
Viimeisellä kerralla jaetaan myös palkinnot leikkimielisestä väestöä koskevasta kilpailusta. Jollei ole paikalla, mahdollinen palkinto annetaan toiselle paikalla olijalle. Kisailun vastauksia selostetaan myös laajennetusti eli pohtimalla erilaisten väestötietojen luottamuksellisuutta.
Tarkka sisältö määräytyy myöhemmin. Pienehköjen esitysten tarjouksia voi jättää. Yksi on jo tehty. Lisäksi eräs kokenut alan ihminen on houkutteilla esiintymään. Itse esitän esimerkkejä konkreettisista tilanteista ja myös muutamia metodisia lisäyksiä tulee mukaan. Kurssin loppuosa 'tentitään' kirjoittamalla ns oppimispäiväkirja johon sisällytetään kiintoisia kohtia ja pohdintoja pääsiäisen jälkeisiltä osuuksilta. Se lähetetään sähköpostilla Sepolle. Sen avulla voi nostaa tai laskea alkukokeen arvosanaa. Opintopisteiden määrää voi nostaa perusteellisemmalla esityksellä. The second part of the exam can be made
- either writing a so-called study diary on the after-Easter sessions
- or writing a report on your own-choice additional SDC techniques, e.g. based on the handbook.
Kattava oppimispäiväkirja antaa 2 op:tä lisää, suppeammalla saa 1 op. Jos pitää esityksen ja tekee kattavan päiväkirjan, voi ansaita 3 op:tä lisää. Esitys ja suppea oppimispäiväkirja antaa taas 2 op:tä. You can submit your learning diary to Seppo as soon as it is ready. Jos kirjassa on puutteita tai selventämistä vaativia asioita, annan tästä palautetta eli on mahdollisuus täydentää sitä.
Jatko-osassa on siis osanottajien esimerkkejä ja kokemuksia. Lisäksi katsotaan hyvin suojattua julkista mikrodataa, kuten European Social Surveytä. Mukana on myös julkisia taulukointeja, usein moniulotteisia jolloin voidaan pohtia kuinka hyvin on suojaukset hoidettu (huomaa että aiheeseen ei aina löydy oikeata ratkaisua). Myös muutamaa tutkimusjulkaisua katsellaan tietosuojanäkökulmasta. Ohessa vajaan parin vuoden takaiset kalvot jotka myös katsellaan.
https://wiki.helsinki.fi/download/attachments/51451064/CAED_BUDAPEST_2008.pdf
Kirjallisuus
Kirjallisuutta löytyy hyvin paljon vaikkapa googlaamalla. Tästä linkistä löytyy laaja englanninkielinen manuaali, josta käytän monia kohtia luennoilla mutta sivuutan vaikeimmat menetelmät sekä omasta mielestäni vähemmän tärkeät kohdat: http://neon.vb.cbs.nl/casc
Jostain syystä, liekö siksi että niin moni meistä meni sivuille, tämä sivu on suojattu salasanalla. Siksi lisään tänään 29.4.2010 käsikirjan tänne. Kuten huomaat, senkin tavallinen kopiointi on ongelmallista, mutta kurssin osanottaja muutti sen parempaan muotoon. Tämä on kuitenkin alkuperäinen:
https://wiki.helsinki.fi/download/attachments/51451064/SDC_Handbook.pdf
Alkuosan luentomateriaalit ovat ohessa. The basic course materials are attached. It is possible that they will be revised to some extent.
https://wiki.helsinki.fi/download/attachments/51451064/Tietosuoja_2010.pdf
Tässä on taulukointiin liittyvä esimerkki jonka toista sivua on kiinnostava pohtia:
https://wiki.helsinki.fi/download/attachments/51451064/Esimerkki+yritysdatastamme.pdf
Alla taas herkkiä enemmän tai vähemmän muuttujia sisältävä liite jota voidaan täydentää osanottajien ym ideoiden pohjalta.
https://wiki.helsinki.fi/download/attachments/51451064/Tietosuoja_herkkyys%5B1%5D.doc
Tässä on kaksi sopimusta jotka olen tehnyt mikrodatan käytöstä. Luentomateriaalissa on lyhyet maininnat. Katsotaan näiden yksityiskohtia. Here you can find the two contracts that I must have done in order to use international micro data.
https://wiki.helsinki.fi/download/attachments/51451064/SDC_Contract_Swiss.pdf
Tuo on Sveitsin ja alla oleva ESS:
https://wiki.helsinki.fi/download/attachments/51451064/SDC_Contract_ESS.pdf
Katsopa tätäkin:
Tässä on Kanadan Imputation Bulletinin yksi volyymi, josta löytyy kiintoisia esimerkkejä tietosuojauksesta eikä vain imputoinnin käytöstä: http://www.stat.duke.edu/~jerry/Papers/impbull.pdf
Spesiaali eli kisaankin liittyvät loppukalvot: https://wiki.helsinki.fi/download/attachments/51451064/Tietosuoja_V%C3%A4est%C3%B6rekisteri+2009.pdf
Ilmoittaudu
Unohditko ilmoittautua? Mitä tehdä.