Imputointimenetelmät, kevät 2013

Last modified by ejhyytia@helsinki_fi on 2024/03/27 10:05

Imputointimenetelmät (Imputation methods), kevät 2013

Luennoitsija

Seppo Laaksonen

Laajuus

3-6 op. Pelkkä tentti antaa  3 op, harjoittelulla ja muilla näytöillä lisää.

Pure exam with basic questions on imputation: 3 points

SAS imputation in the computer class after the first part: 2 points

A good report with interpretations and some theoretical points: 1 point

All together maximally 6 points. 

Tyyppi

On perusluonteeltaan syventävä opintojakso koskien sekä maisteriopintoja että jatko-opintoja, mutta esteitä ei ole käyttää sitä aineopinnoissa tai survey- tms. alaa koskevan tutkimuksen edistämisessä. Toki kurssilla on myös yleissivistävä luonne. Rohkeasti mukaan vaan.

Kysehän on puuttuvan tai muuten viallisen tiedon paikkaamisesta mahdollisimman hyvillä korvikearvoilla. Puuttuvuutta esiintyy kaikissa aineistoissa, joko koko yksikön tasolla tai muuttujakohtaisesti. Imputoinnilla voi kaikkia paikata mutta pääosin menetelmää käytetään muuttujakohtaisessa puuttuvuudessa eli erävastauskadossa. Tämä vastauskato voi vaivata paljonkin analyysiä, mutta jos määrä on suhteellisesti mitätön eikä koske merkittäviä tilastoyksiköitä, voidaan olla aika huolettomia. 

Tätä kurssia ei luennoida esimerkiksi ensi vuonna. 

Esitietovaatimukset

Surveymetodiikan kurssin perusteet ovat hyödyllisiä sekä muu tilastotieteellinen perustaito. Harjoituksissa käytämme lähinnä SAS:ia, mutta valmiit ohjelmapohjat annetaan. Jos sinulla on puutteita SAS:n teknisessä käyttämisessä, kerro. Järjestän mielelläni pikakurssin tammikuussa.

Luentoajat

Kurssi pidetään kolmannella periodilla. Paikkana tulee olemaan Kumpulan C128 mikroluokka. Aloituksena oli puhdas luento joka kattoi imputointimenetelmien perusteet yhtenä rupeamana. Luentomateriaali on ohessa englanniksi. Tämä pidettiin keskiviikkona 19.1. klo 16-19. Seuraavalla viikolla oli vapaata jolloin itsekukin syvensi tuon ekakerran antia omin ehdoin. Seuraavina kolmena viikkona, tiistaisin klo 16-19, on sekä tarkentavia luentoja että omakohtaista harjoittelua ja demoja. Harjoituksissa tehdään tietyt perustehtävät pääosin samaan dataan. On mahdollista että jokin lisärupeama on tarpeen tuossa 16-18.2. Tästä jutellaan opetuksen yhteydessä. SAS-teknista apua on toki mahdollisuus saada muulloinkin. Olen varannut tiistain 1.3. klo 16-19 myös. Tällöin voidaan pitää tuo koekin.  

Some material are available in English but lectures will be held mainly in Finnish. Training can be done in both, Finnish and/or English. The first material below is in English.

Tässä on yleisen esityksen materiaali englanniksi. Seuraavat täsmällisemmät jutut tulevat ainakin osin suomeksi.

https://wiki.helsinki.fi/download/attachments/62440113/Imputation_2011_Seppo.pdf

Tässä on toisen, kolmannen ja neljännen kerran annokset (kolmas osa on hieman revisoitu).

  
https://wiki.helsinki.fi/download/attachments/62440113/Imputoint_2011_Tasmennyksia.pdf


Ensimmäinen harjoitusaineisto on ohessa. Siinä on jatkuva tulomuuttuja imputoitavana, INCOME2. Aineistossa on myös oikeat arvot nimellä INCOME, joten imputoinnin onnistumista voi tutkia. Ohjeet laskentaan eli perusmateriaalin operationalisointiin annetaan opetuksessa.

 https://wiki.helsinki.fi/download/attachments/62440113/Tulodata.zip 

Toinen aineisto on työvoimatutkimuksen tyyppisestä aineistosta jossa ei ole kovin monia muuttujia. Puuttuvuutta on pääasian eli työmarkkinastatuksen muuttujassa. Datassa on hieman metadataa eli pitäisi olla ymmärrettävissä. Tarkoitus on imputoida ainakin työttömien määrä tai osuus, mahdollisesti epäaktiivistenkin. Siis nyt on kyse yksinkertaisesta kategorisesta muuttujasta. Tämä on viimeisen varsinaisen kerran pääasia.

The attached data are from the labour force survey in which employment status or at least unemployed people should be tried to impute with 3-4 different methods. The true values for unemployment and included, i.e., you can check how well you have imputed. Tässä on mikroaineisto jonka työllisyysstatusta tulisi imputoida tai ainakin työttömiä (epäaktiivit on toinen vaihtoehto). Tulisi soveltaa eri menetelmiä siten että mukana on sekä vastaajaluovuttaja- että malliluovuttajavaihtoehto ja jossakin on mukana stokastinen elementti.  Aineistosta löytyvät myös oikeat arvot, joten voit katsoa kuinka hyvin imputointi on onnistunut kullakin tavalla.

https://wiki.helsinki.fi/download/attachments/62440113/labourdata.zip

 First SAS codes for imputing

  https://wiki.helsinki.fi/download/attachments/62440113/labour_2011.sas

Heille joilla ei ole mitään SAS-tuntumaa, on ohessa vuonna 2006 tekemäni aivan alkua koskeva teksti. Tallenna tiedosto sopivaan tilaan, avaa SAS ja avaa se sieltä mihin laitoit.

https://wiki.helsinki.fi/download/attachments/62440113/Workshop+SAS+alku.sas

Toki SAS:n alkeita löytyy monesta muustakin paikasta. Lisäksi Laskentakeskus on pitämässä peruskurssia keväällä, ks. https://alma.helsinki.fi/doclink/69088
 .

SAS codes for MI etc.

 https://wiki.helsinki.fi/download/attachments/62440113/Income_2011.sas 

The first exam data where are two variables being to be requested to impute using several methods. Kurssia käymätönkin voi kokeilla miten imputointi onnistuu tällä datalla. Mukanahan ovat myös oikeat arvot jolloin voi katsoa miten imputointi on onnistunut yksikkötasolla, miten jakaumatasolla, miten aggregaattitasolla. Tässä aineistossa on vain kaksi muuttujaa joissa on puuttuvuutta eli normal_wage2 ja unhappy2. Imputoi siis ainakin toisen puuttuvat arvot sekä vastaajaluovuttajamenetelmällä että malliluovuttajamenetelmällä ja siten että ainakin jossakin menetelmässä on stokastisuutta. Ei tarvitse pyrkiä huipputulokseen muttei surkeaankaan eli imputointimalli ei saa olla ihan yksinkertainen muttei tarvi olla hienoin mahdollinenkaan. Aineistossa on myös oikeat arvot eli katso miten imputointisi ovat onnistuneet muutamalla kriteerillä.  

https://wiki.helsinki.fi/download/attachments/62440113/HY_SMT_2011.zip

Kokeet

 Peruskoe heti opetuksen jälkeen.

Kirjallisuus

 Surveymetodiikkkaa voit opiskella kirjastani. Siellä on myös karkeasti ottaen sama anti kuin tulee esillle ensimmäisellä luennolla 19.1.

 
http://bookboon.com/fi/student/statistics/surveymetodiikka

Ilmoittaudu

Unohditko ilmoittautua? Mitä tehdä.