Painotusmenetelmät surveyssä, kevät 2010

Last modified by selaakso@helsinki_fi on 2024/03/27 10:04

Painotusmenetelmät surveyssä, kevät 2010

Luennoitsija

Seppo Laaksonen

Laajuus

3-6 op. Tentin suoritus ja kohtuullinen osallistuminen harjoituksiin tuottaa 4 op (ilman harjoituksia 3 op). Lisätyöllä määrää voi nostaa.

Tyyppi

Tämä on perusluonteeltaan syventävä kurssi mutta voidaan käyttää myös aineopinnoissa. Kurssi on epäilemättä hyödyllinen myös jatko-opiskelijoille ja tutkijoille ml. professoreille eli kaikille jotka tuottavat tai käsittelevät surveyaineistoja. Valitettavan usein painotus laiminlyödään surveyssä, tai sitten tehdään huonosti. Siis kurssin tarkoitus on oppia miten painot tehdään hyvin ja miten painoja käytetään erilaisissa tilanteissa.

Esitietovaatimukset

Surveymetodiikan kurssi ja otantamenetelmien kurssi antavat mainion pohjan tälle kurssille. Voi osallistua muutoinkin jos tilastotieteen perusteet ovat hallinnassa ja on halu oppia tyhjäksi jääneitä asioita, joihin annetaan kyllä opastusta tarvittaessa erityisistunnoissa. Kiinnostus surveyaineistojen puhdistamiseen on hyvä motivaatio. Painotusta on välttämätöntä käyttää otanta-aineiston käsittelyssä ja myös kokonaisaineiston tapauksessa koska puuttuvuutta (vastauskatoa, alipeittoa ja muuta puuttuvuutta) aina syntyy ja alkudatassa on myös ylimääräisiä yksiköitä (ylipeittoa).

Liikkkeelle lähdetään ns. otantatiedoston (tai otostiedoston) kuvaamisesta. Tämä käsite esitettävässä muodossa on varsin huonosti tunnettu jopa surveymaailmassa, vaikka toki kaikki asiantuntijat implisiittisesti sellaisen tunnistavat. Eksplisiittinen tunnistaminen on tarpeen ja erityisesti se, että tämän tiedoston luomiseen aidosti panostetaan surveyn eri vaiheissa. Tämän tiedoston avulla esitetään keskeisiä muita käsitteitä ml. otannan periaatteita erilaisissa asetelmissa. Tietysti aloitetaan hyvin yksinkertaisista asetelmista.  

Luentoajat

Luennot ja perusharjoitukset pidetään III periodilla Kumpulan Exactumin atk-luokassa C128 keskiviikkoisin klo 16-19 neljänä kertana seuraavasti: 20.1.2010, 27.1.2010, 17.2.2010 ja 24.2.2010. Kuten havaitset niin kahden kerran jälkeen on taukoa. Tänä aikana toivotaan tehtävän harjoituksia jotka ovat jääneet kesken sekä perehdyttävän pieneen lisämateriaaliin. Tarvittaessa osanottajia ohjataan tänä aikanakin käytännön harjoituksissa. Sovitaan toisen kerran jälkeen SAS-painotteisista lisäharjoitussessioista. Yksi tällainen mahdollisuus on keskiviikkona 3.2. joko klo 12-14 tai klo 16-18 tai molempina aikoina. Sama paikka. Tule mukaan! Sama toistettiin 10.2. myös klo 12-13 (14) ja klo 16-18. Viimeisen luentokerran yhteydessä voidaan sopia lisäharjoituksista.

Huomaa että viimeisellä kerralla noin klo 16.30 esiintyy graduntekijä Jenni Nikula joka on ollut tekemässä painoja Eurooppalaisen uhritutkimuksen Suomen pilotin aineistoihin missä aineistot tarkoittavat kolmenlaista keruutapaa: käyntihaastattelu, puhelintiedustelu ja nettikysely. Arvannet että vastauskato vaihtelee näissä huomattavasti mutta hyvien painojen ansiosta ovat puhdistetut aineistot asetettu samalle 'viivalle.'  Jennin kalvot ovat alla suomeksi (Table in English)

https://wiki.helsinki.fi/download/attachments/51451040/EU-rikosuhritutkimus+%28Turvallisuus+Suomessa%29+-+pilottitutkimus+Jenni%5B1%5D.pdf

Jenni Nikula gives a one-hour presentation on 24 February starting around 16:30 hours. Her topic is unit nonresponse and weighting adjustments for the three independent crime victim Finnish surveys. This means that the questionnaires of these surveys are more or less similar, and the sample designs are similar but their samples are independent and their data collection modes are different i.e. based on face-to-face interviewing, telephone interviewing and a web survey strategy, respectively.  

Toimintatavasta ja materiaalit

Luentojen runko pdf-muodossa asetetaan tänne ennen kutakin tilaisuutta. Vastaava osuus teorian ja esimerkkien kautta käydään läpi. Kunkin tilaisuuden loppupuoli painottuu mikroluokkaharjoitteluun. SAS on perusväline tässä koska tarvittavat metodit on helpoin ohjelmoida sen avulla annettuja malleja hyväksi käyttäen. Kaikille annetaan riittävä ohjaus vaikkeivat SAS-taidot olisikaan hallussa. Tänne sijoitetaan myös mikrotason esimerkkiaineistoja jotka alkavat European Social Surveystä, sen sopivan maan otantatiedostosta. Osanottajat voivat tehdä harjoituksia myös omilla aineistoillaan.

Kurssi antaa selkeät valmiudet painotusmenetelmien teoriasta ja myös käytännön eväät tärkeimpien painojen itse tuottamiseen. Toki on paljon painotusvaihtoehtoja joita kurssilla ei käsitellä. Ne ovat kuitenkin lähinnä erikoistapauksia.

Koska kurssilla on huonosti suomea hallitsevia, joissakin kohdissa käytetään englantia. Luentomateriaali on tekeillä suomeksi mutta lisään sinne englanninkielisiä termejä.  English will be spoken to some extent. Training discussions are possible in English, too.

Tässä on ensimmäinen osa luennoista, viimeisellä sivulla myös tehtäviä.

 https://wiki.helsinki.fi/download/attachments/51451040/painotus_2010_A.pdf

Toinen osa luennoista kattaa asetelmapainojen muodostamisen hankalammille otanta-asetelmille sekä vastaavat sovellukset perus- tai aloituspainoille. Kurssin loppuosassa mennään tästä eteenpäin mutta myös painojen erityistilanteita käsitellään. Mukana aitoja esimerkkejä eikä viimeisimmässä olla oikein varmoja lopputuloksesta koska saatu otantatieodosto ei ole tyydyttävä. Näin on usein elävässä elämässä.

 https://wiki.helsinki.fi/download/attachments/51451040/Painotus+2010_B.pdf

Tässä on sitten kolmas ja neljäs mutta myös nuo kaksi ensimmäistä eli koko materiaali:

 https://wiki.helsinki.fi/download/attachments/51451040/Painotus+2010.pdf

Tästä löytyy SAS-tiedosto ensimmäisiä ja toisiakin harjoituksia varten:

https://wiki.helsinki.fi/download/attachments/51451040/Painot_CZ_New.zip

Tässä liitteessä on suomen- ja englanninkielisten surveytermien luettelo. Mukana myös muita kuin painotukseen liittyviä. Tätä voi käyttää myös oppimiseen eli voi yrittää määritellä kunkin termin parhaalla mahdollisella tavalla. Kokeessakin on muuatam sellainen tehtävä.

https://wiki.helsinki.fi/download/attachments/51451040/Surveytermej%C3%A4+suomeksi+ja+englanniksi.pdf

Kokeet

Kurssin jälkeen koe joka on viikko kurssi jälkeen samassa paikassa. Sen jälkeen tenttimismahdollisuus yleistenteissä. Ensimmäisen tentin 3.3. klo 16-19 idea on seuraava: Aluksi pienehkö lähinnä kurssin terminologiaa koskeva kirjallinen tentti. Kun on sen palauttanut, voi siirtyä tekemään SAS:lla muutaman painon ja niiden skaalatun version aineistosta joka julkaistaan samoihin aikoihin. Tässä työssä saa käyttää kaikkea mitä vain löytyy joko mukana olevasta tai nettimateriaalista, edellisessä osassa vain muistia ja päättelykykyä.

Exam:  ( i ) Basic questions about the terminology and the key points of the course with written answers (30-60 minutes), ( ii ) Open the computer and find a sampling file from this website and create the (gross) design weights, the (net) basic weights and the (net) adjusted weights and their scaled versions, compare the results and give a short interpretation.  Put the results and the interpretation either on a Word file or a PPT file, and submit this to me Seppo.Laaksonen@Helsinki.Fi. In the task (ii) you can exploit everything what you have in your computer system but not communicate with outsiders. I can help in technical problems if asked. 

 Alla on oleva tiedosto tehtävään (ii). Se muistuttaa harjoitusten versioita. Tässä on kyseessä ESS-otostiedosto jonka takana on ositettu satunnaisotanta (tai oikeammin implisiittinen ositus eli kun otos on poimittu, väestö on ollut ositteiden mukaisessa järjestyksessä ja otos on poimittu tasavälein mutta alle 15-vuotiaat on sivuutettu. Tästä syystä eivät sisältymistodennäköisyydet ole ihan tarkasti samoja mutta eivät eroakaan merkittävästi). Tehtävänä on siis aloittaa bruttotason asetelmapainoista ja edetä nettotason peruspainoihin ja sitten adjustointeihin. On hyvä huomata että muuttujan OUTCOME koodi=3 tarkoittaa vastaamattomia ja koodi=2 ylipeittoa kun taas koodi=1 on kuten tavallisesti = vastanneet. Otostiedostossa on vain kolme muuttujaa vastaustodennäköisyysmallin pohjaksi. Näistä age on jatkuva. Jos haluat voit muuntaa sen kategoriseksi tai lisätä toisen muuttujan age:n neliö. Jos päätät kategorisoida, vaihtoehtoja on paljon mutta yksinkertaisin on jokin pyöristys tyyliin SAS:lla: agegroup=round(age, <tarkkuus>); Tee myös skaalatut painot. Kerää tuloksesi Word (tai ppt) raporttiin, selosta hieman niitä ja lähetä Sepolle. 

https://wiki.helsinki.fi/download/attachments/51451040/HY_Painot_2010.zip

Kirjallisuus ja aineistot

Painotuksesta on laaja kirjallisuus joiden kaikkia piirteitä ei kurssilla esitetä. Keskeisellä sijalla ovat ratkaisut joita tekijä on itse ollut luomassa. Näistä löytyy myös artikkeleja. Katso alempaa.

Esimerkkiaineistoja otetaan ainakin seuraavista: European Social Survey (2002-2010), Eurooppalaisen uhritutkimuksen pilotti  (2009-2010), Historiatietoisuus Suomessa (2009-2010), jokin yleinen yritysaineisto.

Artikkeleja ja kirjoja:

DEVILLE, J-C., SÄRNDAL, C-E. and SAUTORY, O. (1993). Generalized Raking Procedures in Survey Sampling. Journal of American Statistical Association 88, 1013-1020.


DUNCAN, K.B. and STASNY, E.A (2001). Using Propensity Scores to Control Coverage Bias in Telephone Surveys. Survey Methodology 27, 2, 121-130.


EKHOLM, A. and LAAKSONEN, S. (1991). Weighting via Response Modelling in the Finnish Household Budget Survey. Journal of Official Statistics (Sweden), 7,2, 325‑337.

ELLIOT, M.R. (2008). Model Averaging Methods for Weight Trimming.  Journal of Official Statistics, 24, 4, 517-540.


GROVES, R.M. and COUPER, M.P. (1998). Nonresponse in Household Interview Surveys. New York. John Wiley.


KALTON, G. and KASPRZYK, D. (1986). The Treatment of Missing Survey Data. Survey Methodology 12, 1-16.

LAAKSONEN S. (2008). Simple Random Sampling - for Benchmarking but not for Use? The Survey Statistician No. 58. International Association of Survey Statisticians. pp. 11-12.


LAAKSONEN, S. (2008). Adjustments by weighting for improving cross-country comparisons with examples from the European Social Survey (ESS). Proceedings of the International Conference on Multi-National and Multi-cultural Surveys. 11 pp. Berlin, June. Published late 2008.


LAAKSONEN, S. (2008). Retrospective Two-Stage Cluster Sampling for Mortality in Iraq. International Journal of Market Research 50, 3, 403-417

LAAKSONEN, S. (2007). Weighting for Two-Phase Surveyed Data. Survey Methodology, December Vol. 33, No. 2, pp. 121-130, Statistics Canada.

LAAKSONEN, S. (2007). Pondération de données d'enquête recueillies en deux phases, Techniques d'enquête, Décembre 2007 137, Vol. 33, n o 2, pp. 137-147, Statistique Canada.

LEEUW, E.D., Hox, J., Dillman, D. (2008). International Handbook of Survey Methodology. 560 pp. Psychology Press.


LYNN, P. & GABLER, S. & HÄDER, S. & LAAKSONEN, S. (2007). Methods for Achieving Equivalence of Samples in Cross-National Surveys. Journal of Official Statistics, 27, 1, 107-124.

LAAKSONEN, S. (1999). Weighting and Auxiliary Variables in Sample Surveys. In: G. Brossier and A-M. Dussaix (eds). "Enquêtes et Sondages. Méthodes, modèles, applications, nouvelles approches," 168-180. Dunod. Paris.

LITTLE, R.J.A. (1986). Survey Nonresponse Adjustments for Estimates of Means. International Statistical Review, 54, 139-157.


LUNDSTRÖM, S. and SÄRNDAL, C-E. (2001). Estimation in the Presence of Nonresponse and Frame Imperfections. Statistics Sweden.


SÄRNDAL, C-E., SWENSSON, B. and WRETMAN, J. (1992). Model Assisted Survey Sampling. Springer.

Ilmoittaudu

Unohditko ilmoittautua? Mitä tehdä.