Painotusmenetelmät surveyssä (Weighting Methods in Surveys), kevät 2012

Last modified by erunolin@helsinki_fi on 2024/02/14 07:03

Painotusmenetelmät surveyssä (Weighting Methods in Surveys), kevät 2012

Luennoitsija

Seppo Laaksonen

Laajuus

3-6 op. Tentin suoritus ja kohtuullinen osallistuminen harjoituksiin tuottaa 4 op (ilman harjoituksia 3 op mikä ei ole suositeltavaa koska on vaikeata selvitä tentistä ilman harjoittelua). Lisätyöllä määrää voi nostaa. Tästä voimme sopia kussakin tapauksessa erikseen.

Tyyppi

Tämä on perusluonteeltaan syventävä kurssi mutta voidaan käyttää myös aineopinnoissa. Kurssi on hyödyllinen myös jatko-opiskelijoille ja tutkijoille ml. professoreille eli kaikille jotka tuottavat tai käsittelevät surveyaineistoja. Valitettavan usein painotus laiminlyödään surveyssä, tai sitten tehdään huonosti. Siis kurssin tarkoitus on oppia miten painot tehdään hyvin ja miten painoja käytetään erilaisissa tilanteissa.

Esitietovaatimukset

Surveymetodiikan kurssi ja otantamenetelmien kurssi antavat mainion pohjan tälle kurssille. Voi osallistua muutoinkin jos tilastotieteen perusteet ovat hallinnassa ja on halu oppia tyhjäksi jääneitä asioita, joihin annetaan kyllä opastusta tarvittaessa erityisistunnoissa. Kiinnostus surveyaineistojen puhdistamiseen on hyvä motivaatio. Painotusta on välttämätöntä käyttää otanta-aineiston käsittelyssä ja myös kokonaisaineiston tapauksessa koska puuttuvuutta (vastauskatoa, alipeittoa ja muuta puuttuvuutta) aina syntyy ja alkudatassa on myös ylimääräisiä yksiköitä (ylipeittoa).

Liikkkeelle lähdetään otannan periaatteista joita painotuksessa väistämättä tarvitaan. Siinä yhteydessä rakennetaan ns. otantatiedosto (tai otostiedosto) ja kuvataan sen luonne, myös ideaalisissa muodossa. Käytännössä tiedosto on usein kaukan ideaalista jolloin painotuksen mahdollisuudet kapenevat. Otantatiedoston käsite esitettävässä muodossa on varsin huonosti tunnettu jopa surveymaailmassa, vaikka toki kaikki asiantuntijat implisiittisesti sellaisen tunnistavat; itse opin sen käsitteenä European Social Surveyn (ESS) otantaryhmässä toimiessani alkaen 2001. Eksplisiittinen tunnistaminen on tarpeen ja erityisesti se, että tämän tiedoston luomiseen aidosti panostetaan surveyn eri vaiheissa (eli itse otannassa ja oheisinformaation keräämisessä ja lopuksi kun kenttätyö eli tiedon keruu on tehty). Tämän tiedoston avulla esitetään kurssilla keskeisiä muita käsitteitä ml. otannan periaatteita erilaisissa asetelmissa. Tietysti aloitetaan hyvin yksinkertaisista asetelmista. Otantatiedostohan sisältää otanta-asetelmasta johtuvat tekijät, erityisesti sisältymistodennäköisyydet joilla päästään painojen muodostamiseen kiinni. Otantatiedosto on valmis siis kenttätyön jälkeen eli kun myös varsinainen aineisto kasassa. Tiedosto liitetään sopivassa muodossa vastaajien aineistoon tämän jälkeen ja pian ollaan valmiita itse analysointiin.  

Luento- ja harjoitteluajat


Tilaisuudet pidetään keskivikkoisin klo 16-19 alkaen 8.2. ja jatkuen seuraavasti: 15.2., 29.2., 14.3. ja 21.3. . Näillä näkymin viimeisellä kerralla on myös tentti. Paikkana on Kumpulan Exactumin mikroluokka C128.

Aluksi harjoitellaan asetelmapainon teknistä tuottamista. Tässä on täystodellinen tilanne eli asiakas on tuottanut brutto-otoksen ja toisaalta antanut kehikosta tavoiteperusjoukon estimointia varten ositteittaiset painot. Kumpikin tiedosto on annettu EXCEL-muodossa.Ne ovat zipattuja. Avaa ja talleta omaan tilaasi ja ala muodostaa painoja sekä laske niistä muutama perustieto. 

https://wiki.helsinki.fi/download/attachments/83198281/Painotus1_hy.zip

Nyt on toisen harjoituksen kaksi dataa, Espanjan ja Venäjän Otostiedostot joihin muodostetaan vastaavat painot, nyt myös netto-otokselle:

https://wiki.helsinki.fi/download/attachments/83198281/Painotus_Datat_2.zip

Nyt ovat vuorossa varsinaisesti kaksi viimeistä dataa samassa zip:ssä. On siis otantatiedosto ja myös varsinainen keruutiedosto (y-muuttujat). Otantatiedostoon kun on muodostettu yhdet tai useammat hyvät painot, niin ainakin näiltä osin ne laitetaan yhteen ja sitten tuotetaan muutama tuloste eli estimaatti käyttäen näitä painoja.

https://wiki.helsinki.fi/download/attachments/83198281/Painotus5_hy.zip

   

Tässä on ohjelmapätkä joka tehtiin 8.2.. Sitä jatketaan toisen kehikkotiedon avulla.

https://wiki.helsinki.fi/download/attachments/83198281/Painotusmenetelm%C3%A4t_SAS1.docx

Tässä vastaavasti toisen kerran kaksi SAS-ohjelmapätkää.

https://wiki.helsinki.fi/download/attachments/83198281/Painotusmenetelm%C3%A4t_SAS2.docx

Nyt on kolme 29.2. esillä ollutta SAS-ohjelmaa. Tulkintoja ei ole esitetty.

https://wiki.helsinki.fi/download/attachments/83198281/Painotus_SAS_2012.docx

Tässä on sitten viimeinen osa SAS-koodia. Nyt näet miten voisi tehdä vastaustodennäköisyysmallin avulla sitä paremman uudelleen painotuksen mitä parempaa aputietoa on olemassa.

https://wiki.helsinki.fi/download/attachments/83198281/Painotus_SAS_2012_03.docx


Harjoitusten raportointi: Kun olet jotain tehnyt, laita se sopivaan tiedostomuotoon talteen ja anna pieni selostus. Muotoja: Word, PPT, ...

Toimintatavasta ja materiaalit

Luentojen runko pdf-muodossa asetetaan tänne ennen kutakin tilaisuutta. Vastaava osuus teorian ja esimerkkien kautta käydään läpi. Kunkin tilaisuuden loppupuoli painottuu mikroluokkaharjoitteluun. SAS on perusväline tässä koska tarvittavat metodit on helpoin ohjelmoida sen avulla annettuja malleja hyväksi käyttäen Jossain määrin SPSS:ääkin voimme käyttää). Kaikille annetaan riittävä ohjaus vaikkeivat SAS-taidot olisikaan hallussa. Tänne sijoitetaan myös mikrotason esimerkkiaineistoja jotka alkavat European Social Surveystä, sen sopivan maan otantatiedostosta. Osanottajat voivat tehdä harjoituksia myös omilla aineistoillaan.

Kurssi antaa selkeät valmiudet painotusmenetelmien teoriasta ja myös käytännön eväät tärkeimpien painojen itse tuottamiseen. Eräitä painotustilanteita, kuten pitkittäisaineistojen painoja, käsitellään ilman omakohtaista harjoittelua.

Jos kurssilla on huonosti suomea hallitsevia, voin käyttää myös englantia. Luentomateriaali on pääosin suomeksi mutta mukaan tulevat vastaavat englanninkieliset termit. If needed English will be spoken to some extent. Training discussions are possible in English, too.

Weighting is required in all sample surveys in order to correctly estimate population level figures from the data. Weighting may be an appropriate technique for population level data in the case of missingness that occurs almost always in real life. In this latter situation, imputation can be a competitive method for weighting, however, if a good solution for imputations can be developed. Weighting and imputation are in some other cases also alternative approaches for compensating missingness due to non-response, or undercoverage or other problemes in data.

This course is both theoretical and practical. Some theories are immediately applied with real empirical data in computer class, but some methods are handled more or less theoretically only but the lessons still give some examples based on real data.

Olen nyt yhdistänyt kaikki osat yhdeksi eli sun ei tarvi katsella muuta kuin tätä :

https://wiki.helsinki.fi/download/attachments/83198281/Painotus+2012.pdf


Erityisesimerkkejä

Täällä on liitteitä joita katsotaan yhdessäkin mutta on hyvä lukea. Aluksi on tammikuun 2012 Survey Statistician -newletterin kysymyksiä_vastauksia palstalta kopioitu tilanne joka on tyyppillinen yritysaineistoissa. joissa on melko yleisesti yrityksiä jotka ovat taloudellisesti kuolleita mutta silti elossa. Käytimme näistä suomenkielistä nimeä 'uinuva yritys.' Yksinkertainen vaihtoehto voisi olla julistaa tämä aineistossa kuolleeksi eli asettaa ylipeittoon, mutta onko se oikea ratkaisu, kun mahdollisesti ja seuraavana ajankohtana yritys voikin olla hyvinkin aktiivinen taloudellisesti saatuaan hyvän tilauksen.

https://wiki.helsinki.fi/download/attachments/83198281/Painotus_tyypillinen+tilanne+yritysaineistossa.pdf

Kokeet

Kurssin lopussa on samassa paikassa kuin perusopetus tentti, jonka ensimmäinen osa on tavanomainen kirjallinen osa ja melko lyhyt. Siinä kysytään asioista joita ole konkreettisesti harjoiteltu. Kun tähän on saatu vastaukset, tehdään mikroluokassa harjoituksissa harjoiteltuja painoja hieman erilaisella aineistolla kuin harjoituksissa. Tämän siis kukin tekee omalla koneella itsenäisesti mutta teknisissä asioissa voi pyytää apua.

Tässä ovat tehtävät 'kokeeseen' jonka pohjalta siis tehdään oppimispäiväkirja ja lasketaan painot datasta.

https://wiki.helsinki.fi/download/attachments/83198281/Painotuskoe_21.3.2012.pptx

Data taas on tässä. Selostan sen luonteen ennen painojen luontianne:

https://wiki.helsinki.fi/download/attachments/83198281/Painotus_koedata.zip

Kirjallisuus ja aineistot

Painotuksesta on laaja kirjallisuus joiden kaikkia piirteitä ei kurssilla esitetä. Keskeisellä sijalla ovat ratkaisut joita tekijä on itse ollut luomassa. Näistä löytyy myös artikkeleja. Katso alempaa. Kurssin tietyt perusteet löytyvät ilmaisesta nettikirjastani luvusta 11:

Laaksonen, Seppo (2010). Surveymetodiikka. Pontus Publishing ApS. 214 ss. http://bookboon.com/fi/student/statistics/surveymetodiikka

Esimerkkiaineistoja otetaan ainakin  European Social Surveystä (2002-2010) ja jostakin yritysaineistosta.

Artikkeleja ja kirjoja:

BETHLEHEM, J. (2009). Applied survey methods: a statistical perspective John Wiley and Sons, 2009

DEVILLE, J-C., SÄRNDAL, C-E. and SAUTORY, O. (1993). Generalized Raking Procedures in Survey Sampling. Journal of American Statistical Association 88, 1013-1020.

DUNCAN, K.B. and STASNY, E.A (2001). Using Propensity Scores to Control Coverage Bias in Telephone Surveys. Survey Methodology 27, 2, 121-130.

EKHOLM, A. and LAAKSONEN, S. (1991). Weighting via Response Modelling in the Finnish Household Budget Survey. Journal of Official Statistics (Sweden), 7,2, 325‑337.

ELLIOT, M.R. (2008). Model Averaging Methods for Weight Trimming.  Journal of Official Statistics, 24, 4, 517-540.

GROVES, R.M. and COUPER, M.P. (1998). Nonresponse in Household Interview Surveys. New York. John Wiley.

KALTON, G. and KASPRZYK, D. (1986). The Treatment of Missing Survey Data. Survey Methodology 12, 1-16.

LAAKSONEN S. (2008). Simple Random Sampling - for Benchmarking but not for Use? The Survey Statistician No. 58. International Association of Survey Statisticians. pp. 11-12.

LAAKSONEN, S. (2008). Adjustments by weighting for improving cross-country comparisons with examples from the European Social Survey (ESS). Proceedings of the International Conference on Multi-National and Multi-cultural Surveys. 11 pp. Berlin, June. Published late 2008.

LAAKSONEN, S. (2008). Retrospective Two-Stage Cluster Sampling for Mortality in Iraq. International Journal of Market Research 50, 3, 403-417

LAAKSONEN, S. (2007). Weighting for Two-Phase Surveyed Data. Survey Methodology, December Vol. 33, No. 2, pp. 121-130, Statistics Canada.

LAAKSONEN, S. (2007). Pondération de données d'enquête recueillies en deux phases, Techniques d'enquête, Décembre 2007 137, Vol. 33, n o 2, pp. 137-147, Statistique Canada.

LEEUW, E.D., Hox, J., Dillman, D. (2008). International Handbook of Survey Methodology. 560 pp. Psychology Press.

LYNN, P. & GABLER, S. & HÄDER, S. & LAAKSONEN, S. (2007). Methods for Achieving Equivalence of Samples in Cross-National Surveys. Journal of Official Statistics, 27, 1, 107-124.

LAAKSONEN, S. (1999). Weighting and Auxiliary Variables in Sample Surveys. In: G. Brossier and A-M. Dussaix (eds). "Enquêtes et Sondages. Méthodes, modèles, applications, nouvelles approches," 168-180. Dunod. Paris.

LITTLE, R.J.A. (1986). Survey Nonresponse Adjustments for Estimates of Means. International Statistical Review, 54, 139-157.

LUNDSTRÖM, S. and SÄRNDAL, C-E. (2001). Estimation in the Presence of Nonresponse and Frame Imperfections. Statistics Sweden.

SÄRNDAL, C-E., SWENSSON, B. and WRETMAN, J. (1992). Model Assisted Survey Sampling. Springer.

Ilmoittaudu

Unohditko ilmoittautua? Mitä tehdä.