Tilastolliset tietosuojamenetelmät, kevät 2013

Last modified by selaakso@helsinki_fi on 2024/02/07 06:41

Tilastolliset tietosuojamenetelmät, kevät 2013

Luennoitsija

http://wiki.helsinki.fi/display/mathstatHenkilokunta/Laaksonen%2C+Seppo

Laajuus

Laajuus

3-4 op, Perusosa tentillä suoritettuna 3 op. Mahdollisuus lisätyöllä kuten kurssilla pidettävällä esitelmällä lisäopintopisteeseen ja laajemmilla lisillä enempäänkin.

Tyyppi

On yleissivistävä kurssi jota voi käyttää toki aine- ja syventäviin opintoihin. Perusperiaatteet on syytä tietää kaikkien datan luojien ja käsittelijöiden. Sopii periaatteessa kaikille jotka käsittelevät tilastollisia aineistoja.

Esitietovaatimukset ja johdatus aiheeseen

Tilastollisen datan ymmärrys on välttämätöntä. Kurssin loppupuoella on vaativiakin menetelmiä eli hyvä metodinen osaaminen on hyödyksi. Perusosiltaan kurssi ei ole vaativa minkään alan ihimiselle mutta tosivaativiakin metodeja löytyy, ja niitä esitellään yleisemmällä tasolla muttei vaadita tentissä.

Tämä on ensimmäinen Helsingin yliopistossa tältä alalta pidettävä kurssi eli siinä on pioneerimaisuutta. Taustaksi hieman selostusta aiheesta:

Tilastollisen datan tulisi olla mahdollisimman laajasti hyödynnetty mutta yksilösuoja tulee turvata. Yksilö tässä tarkoittaa erityisesti ihmistä, kotitaloutta sekä yritystä ja sen toimipaikkaa. Joskus jopa alueen (pienalueen, ja nykyaikana myös asunnon, työpaikan tms koordinaattien pohjalta muodostettavan ruudun) tai rakennuksen tietosuojasta on hyvä huolehtia. Tilastollinen data ilmentyy kahdessa päämuodossa, (a) mikromuodossa missä mainittu yksilö (tilastoyksikkö) on suoraan näkyvissä aineistossa, (b) aggregaattimuodossa (kuten taulukkomuodossa tai vaikkapa regressioestimaattina) jolloin yksilö ei suoraan näy aineistossa mutta voidaan sieltä 'urkkimalla' paljastaa mistä paljasttava ei pidä (jos vapaaehtoisesti paljastaa itsensä, ongelmaa ei ole tavallisessa mielessä mutta silti voi olla arveluttavaa julkistaa tällainen paljastus). Kumpaankin tilanteeseen on löydettävä järkevät tavat jotta ainestosta saadaan irti mahdollisimman paljon yksilösuojaa loukkaamatta. On helppo ymmärtää että tilanteessa (a) ovat muutamat yksinkertaiset suojaukset välttämättömiä jos aineisto annetaan datan kerääjän ulkopuolisten käytettäväksi (kuten varsinaisen tunnisteen muuntaminen tunnistamattomaksi). Mutta ongelma ei ole tällä ratkaistu koska tunnistaminen voi tapahtua epäsuorasti eri aineiston muitakin muuttujia hyväksi käyttämällä. Tilanne (b) on joskus aika hankala koska epäsuorasti voidaan yksilöitä paljastaa. Tämä kiusallista aineiston julkaisijan kannalta koska luottamus aineiston tuottajaan/julkaisijaan voi olla mennyt.

Kurssilla tulee esille molempiin tilanteisiin sopivia metodisia ja käytännöllisiä perusratkaisuja. Esimerkkejä tulee olemaan runsaasti. Yksi laaja tapausesimerkki on mitä todennäköisimmin Tilastokeskuksesta jossa tietosuoja on keskeisessä roolissa, joidenkin mielestä siellä ollaan liiankin 'tiukkapipoisia.' Parempi olla tarkkana ettei kadu. On hyvä huomata että kaikkiin tilanteisiin (erityisesti yritysaineistojen käsittelyyn ja myös väestöllisten kokonaisaineistojen) ei löydy riittävän hyviä menetelmiä.  Siksi käsittelyä varten on ratkaisuja joissa tutkija sitoutuu asianmukaiseen käsittelytapaan erityissopimuksen puitteissa. Tästäkin havaitset että tämä aihe on myös lähellä juridiikkaa koska väärin toimimisesta voi seurata rangaistus. Myös esitetään esimerkkejä sopimuksista datan käyttöön liittyen.    

Luentoajat

On 5 kahden tunnin opetusta sisältävä, siis lyhytkurssi jonka jälkeen osanottajat hallitsevat aiheesta perusteet mikä on kaikille datan käyttäjille hyödyllistä. Paikkana on SILTAVUORENP.5A              MINERVA K113

ja opetusajat:

ti 19.3.  klo 16-18  Oli johdatus aiheeseen ja keskustelua myös etiikasta

to 21.3. klo 16-18  Käytiin läpi erityisesti herkkiä muuttujia liitteen pohjalta

ti 9.4.    klo 16-18  Nyt pistetään kovempi vauhti päälle eli nyt olisi erityisen olennaista olla mukana: riskimitat ja mikroaineistojen tietosuojamenetelmien perusteet

to 11.4. klo 16-18  Erityisvierailijana Annu Nissinen Tilastokeskuksesta: hän kertoo tämän ison datatalon kokemuksista, Mukana varmaan myös makroaineistojen tietosuojamenetelmiä ja esimerkkejä

Tässä Annun kalvot joista tulee jotain kokeeseen:

 https://wiki.helsinki.fi/download/attachments/97387956/TK_tietosuojakaytannot.pdf?api=v2

ti 16.4.  klo 16-18  Nyt vielä varmistetaan makroaineistojen tietosuojametodien perille meno. Lisäksi käydään esimerkein läpi tilanteita joissa dataa käytetään fiksusti ilman että täydellisiä suojauksia edes yritetään tehdä koska ne hävittävät liikaa informaatiota erityisesti tutkimsuaineiston näkökulmasta

to 18.4. klo 16-18 Koska kukaan ei halunnut esittää omien hankkeidensa tietosuojaesimerkkejä, niin tällä kerralla on aluksi jotain yleistä asiaa hetken, ehkä 10 minuuttia ja sitten on pienimuotoien koe. Varakoe on yhden kerran mahdollinen (toistaiseksi) ja se on 16.5. yleistentissä. Sinne tulee ilmoittautua normaalisti weboodilla. 

.

 

Kirjallisuutta ja materiaalia

Tänne sijoitan kurssimateriaalia sitä mukaa kun sitä on valmiina. Aluksi on  mainos kirjasta joka on tilattu kirjastoomme:

https://wiki.helsinki.fi/download/attachments/97387956/BOOK_SDC.pdf?api=v2

The book above is the new one but not yet avaiable in our library. Hopefully soon. There are other disclosure control (or limitation) method material as well published like this that is much the same as the Wiley book:http://ec.europa.eu/eurostat/ramon/statmanuals/files/SDC_Handbook.pdf  or an older one http://books.google.fi/books/about/Elements_of_statistical_disclosure_contr.html?id=TrbuAAAAMAAJ&redir_esc=y. Or you can easily find many references as this: http://link.springer.com/chapter/10.1007%2F11930242_7#page-1

 

 Tässä tulee vasrinaista kurssimateriaalia. Ensiksi esimerkkejä herkistä ja vähemmänkin herkistä muuttujista:

https://wiki.helsinki.fi/download/attachments/97387956/Tietosuoja_herkkyys_muuttujia.doc?api=v2

Tässä ovat kaikki perusluentomateriaalit:

https://wiki.helsinki.fi/download/attachments/97387956/Tietosuoja_2013_Kev%C3%A4t_A.pdf?api=v2

Tässä on verryttelyesimerkki HS:sta 21.3.2013

https://wiki.helsinki.fi/download/attachments/97387956/Presentation_HS.pdf?api=v2

Tässä toinenkin HS-juttu joka liittyy kurssiin myös. Mieti miten?

https://wiki.helsinki.fi/download/attachments/97387956/HS_4.4.13.pdf?api=v2

Tässä esimerkki joka kertoo aika jäykästä mahdollisuudesta peittää tietoa.

 http://wiki.helsinki.fi/download/attachments/97387956/Katuvalot.pdf?api=v2

Tässä on itseänikin koskeva ohjeisto.

https://wiki.helsinki.fi/download/attachments/97387956/Proffan%20eettiset%20ohjeet.PDF?api=v2

 Esimerkki Tilastokeskuksen etäkäyttödatasta; käsitellään sopivassa välissä.

 https://wiki.helsinki.fi/download/attachments/97387956/FLEED.pdf?api=v2

 Tässä tekemäni sopimus ESS-intradatan käytöstä:

https://wiki.helsinki.fi/download/attachments/97387956/Special_License_NSD.pdf?api=v2

 

Ilmoittaudu kurssille

Kurssin ilmoittautumisaika umpeutunut mutta mukaan voi tulla silti.