Last modified by ejhyytia@helsinki_fi on 2024/03/27 10:05

Show last authors
1 = Imputointimenetelmät (Imputation methods), kevät 2011 =
2
3 === Luennoitsija ===
4
5 [[Seppo Laaksonen>>doc:mathstatHenkilokunta.Laaksonen, Seppo]]
6
7 === Laajuus ===
8
9 3-6 op. Pelkkä tentti antaa  3 op, harjoittelulla ja muilla näytöillä lisää.
10
11 Pure exam with basic questions on imputation: 3 points
12
13 SAS imputation in the computer class after the first part: 2 points
14
15 A good report with interpretations and some theoretical points: 1 point
16
17 All together maximally 6 points.
18
19 === Tyyppi ===
20
21 On perusluonteeltaan syventävä opintojakso koskien sekä maisteriopintoja että jatko-opintoja, mutta esteitä ei ole käyttää sitä aineopinnoissa tai survey- tms. alaa koskevan tutkimuksen edistämisessä. Toki kurssilla on myös yleissivistävä luonne. Rohkeasti mukaan vaan.\\
22
23 Kysehän on puuttuvan tai muuten viallisen tiedon paikkaamisesta mahdollisimman hyvillä korvikearvoilla. Puuttuvuutta esiintyy kaikissa aineistoissa, joko koko yksikön tasolla tai muuttujakohtaisesti. Imputoinnilla voi kaikkia paikata mutta pääosin menetelmää käytetään muuttujakohtaisessa puuttuvuudessa eli erävastauskadossa. Tämä vastauskato voi vaivata paljonkin analyysiä, mutta jos määrä on suhteellisesti mitätön eikä koske merkittäviä tilastoyksiköitä, voidaan olla aika huolettomia. \\
24
25 **Tätä kurssia ei luennoida esimerkiksi ensi vuonna.**
26
27 === Esitietovaatimukset ===
28
29 Surveymetodiikan kurssin perusteet ovat hyödyllisiä sekä muu tilastotieteellinen perustaito. Harjoituksissa käytämme lähinnä SAS:ia, mutta valmiit ohjelmapohjat annetaan. Jos sinulla on puutteita SAS:n teknisessä käyttämisessä, kerro. Järjestän mielelläni pikakurssin tammikuussa.
30
31 === Luentoajat ===
32
33 Kurssi pidetään kolmannella periodilla. Paikkana tulee olemaan **Kumpulan C128 mikroluokka**. Aloituksena oli puhdas luento joka kattoi imputointimenetelmien perusteet yhtenä rupeamana. Luentomateriaali on ohessa englanniksi. Tämä pidettiin **keskiviikkona 19.1. klo 16-19.** Seuraavalla viikolla oli vapaata jolloin itsekukin syvensi tuon ekakerran antia omin ehdoin. Seuraavina kolmena viikkona, **tiistaisin klo 16-19,** on sekä tarkentavia luentoja että omakohtaista harjoittelua ja demoja. Harjoituksissa tehdään tietyt perustehtävät pääosin samaan dataan. On mahdollista että jokin lisärupeama on tarpeen tuossa 16-18.2. Tästä jutellaan opetuksen yhteydessä. SAS-teknista apua on toki mahdollisuus saada muulloinkin. Olen varannut tiistain 1.3. klo 16-19 myös. Tällöin voidaan pitää tuo koekin.  \\
34
35 Some material are available in English but lectures will be held mainly in Finnish. Training can be done in both, Finnish and/or English. The first material below is in English.\\
36
37 Tässä on yleisen esityksen materiaali englanniksi. Seuraavat täsmällisemmät jutut tulevat ainakin osin suomeksi.
38
39 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/Imputation_2011_Seppo.pdf>>url:https://wiki.helsinki.fi/download/attachments/62440113/Imputation_2011_Seppo.pdf||shape="rect"]]\\
40
41 Tässä on toisen, kolmannen ja neljännen kerran annokset (kolmas osa on hieman revisoitu).
42
43
44 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/Imputoint_2011_Tasmennyksia.pdf>>url:https://wiki.helsinki.fi/download/attachments/62440113/Imputoint_2011_Tasmennyksia.pdf||shape="rect"]]
45
46 \\
47
48 Ensimmäinen harjoitusaineisto on ohessa. Siinä on jatkuva tulomuuttuja imputoitavana, INCOME2. Aineistossa on myös oikeat arvot nimellä INCOME, joten imputoinnin onnistumista voi tutkia. Ohjeet laskentaan eli perusmateriaalin operationalisointiin annetaan opetuksessa.
49
50 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/Tulodata.zip>>url:https://wiki.helsinki.fi/download/attachments/62440113/Tulodata.zip||shape="rect"]]
51
52 Toinen aineisto on työvoimatutkimuksen tyyppisestä aineistosta jossa ei ole kovin monia muuttujia. Puuttuvuutta on pääasian eli työmarkkinastatuksen muuttujassa. Datassa on hieman metadataa eli pitäisi olla ymmärrettävissä. Tarkoitus on imputoida ainakin työttömien määrä tai osuus, mahdollisesti epäaktiivistenkin. Siis nyt on kyse yksinkertaisesta kategorisesta muuttujasta. Tämä on viimeisen varsinaisen kerran pääasia.
53
54 The attached data are from the labour force survey in which employment status or at least unemployed people should be tried to impute with 3-4 different methods. The true values for unemployment and included, i.e., you can check how well you have imputed. Tässä on mikroaineisto jonka työllisyysstatusta tulisi imputoida tai ainakin työttömiä (epäaktiivit on toinen vaihtoehto). Tulisi soveltaa eri menetelmiä siten että mukana on sekä vastaajaluovuttaja- että malliluovuttajavaihtoehto ja jossakin on mukana stokastinen elementti. Aineistosta löytyvät myös oikeat arvot, joten voit katsoa kuinka hyvin imputointi on onnistunut kullakin tavalla.
55
56 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/labourdata.zip>>url:https://wiki.helsinki.fi/download/attachments/62440113/labourdata.zip||shape="rect"]]\\
57
58 First SAS codes for imputing\\
59
60 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/labour_2011.sas>>url:https://wiki.helsinki.fi/download/attachments/62440113/labour_2011.sas||shape="rect"]]\\
61
62 Heille joilla ei ole mitään SAS-tuntumaa, on ohessa vuonna 2006 tekemäni aivan alkua koskeva teksti. Tallenna tiedosto sopivaan tilaan, avaa SAS ja avaa se sieltä mihin laitoit.
63
64 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/Workshop+SAS+alku.sas>>url:https://wiki.helsinki.fi/download/attachments/62440113/Workshop+SAS+alku.sas||shape="rect"]]
65
66 Toki SAS:n alkeita löytyy monesta muustakin paikasta. Lisäksi Laskentakeskus on pitämässä peruskurssia keväällä, ks. [[https:~~/~~/alma.helsinki.fi/doclink/69088>>url:https://alma.helsinki.fi/doclink/69088||shape="rect"]]
67 .
68
69 SAS codes for MI etc.
70
71 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/Income_2011.sas>>url:https://wiki.helsinki.fi/download/attachments/62440113/Income_2011.sas||shape="rect"]] \\
72
73 The first exam data where are two variables being to be requested to impute using several methods. Kurssia käymätönkin voi kokeilla miten imputointi onnistuu tällä datalla. Mukanahan ovat myös oikeat arvot jolloin voi katsoa miten imputointi on onnistunut yksikkötasolla, miten jakaumatasolla, miten aggregaattitasolla. Tässä aineistossa on vain kaksi muuttujaa joissa on puuttuvuutta eli normal_wage2 ja unhappy2. Imputoi siis ainakin toisen puuttuvat arvot sekä vastaajaluovuttajamenetelmällä että malliluovuttajamenetelmällä ja siten että ainakin jossakin menetelmässä on stokastisuutta. Ei tarvitse pyrkiä huipputulokseen muttei surkeaankaan eli imputointimalli ei saa olla ihan yksinkertainen muttei tarvi olla hienoin mahdollinenkaan. Aineistossa on myös oikeat arvot eli katso miten imputointisi ovat onnistuneet muutamalla kriteerillä.
74
75 [[https:~~/~~/wiki.helsinki.fi/download/attachments/62440113/HY_SMT_2011.zip>>url:https://wiki.helsinki.fi/download/attachments/62440113/HY_SMT_2011.zip||shape="rect"]]\\
76
77 === Kokeet ===
78
79 Peruskoe heti opetuksen jälkeen.
80
81 === Kirjallisuus ===
82
83 Surveymetodiikkkaa voit opiskella kirjastani. Siellä on myös karkeasti ottaen sama anti kuin tulee esillle ensimmäisellä luennolla 19.1.
84
85
86 [[http:~~/~~/bookboon.com/fi/student/statistics/surveymetodiikka>>url:http://bookboon.com/fi/student/statistics/surveymetodiikka||shape="rect"]]
87
88 === [[Ilmoittaudu>>url:https://oodi-www.it.helsinki.fi/hy/opintjakstied.jsp?html=1&Tunniste=57429||shape="rect"]] ===
89
90 Unohditko ilmoittautua? [[Mitä tehdä>>doc:mathstatOpiskelu.Kysymys4]].