Symbolinen data-analyysi, syksy 2008

Last modified by selaakso@helsinki_fi on 2024/03/27 09:59

Symbolinen data-analyysi, syksy 2008

Voit lähettää kurssia koskevia tiedusteluita luennoitsijalle: Seppo.Laaksonen 'at' Helsinki.Fi

Luennoitsija

Seppo Laaksonen

Laajuus

Perusosaaminen 3 op, syvempi maksimissaan 5 op

Tyyppi

Perus, aine tai syventävä opinto sekä yleinen kiinnostus.

Symbolisesta data-analyysistä

Symbolic data analysis is a relatively new field that provides a range of methods for analyzing complex datasets. Standard statistical methods do not have the power or flexibility to make sense of very large datasets, and symbolic data analysis techniques have been developed in order to extract knowledge from such data. Symbolic data methods differ from that of data mining, for example, because rather than identifying points of interest in the data, symbolic data methods allow the user to build models of the data and make predictions about future events.

Käytännössä kurssilla analysoidaan symbolisia datoja ja myös tuotetaan niitä. Näissä tilastoyksikkö on yleistys tai aggregaatti mikrodatasta ja muuttujat voivat olla useammanlaisia, erityisesti välejä joita tutkija haluaa tai frekvenssijakaumia tai myös yksinkertaisia pistearvoja kuten klassisessa analyysissä. Viimemainitut ovat kuitenkin rajoittuneita verrattuna symboliseen lähestymistapaan. Analyysissä suuri paino on aineiston tiivistämisellä erilaisilla ohjelmiston menetelmillä. Usein havainnollistus tapahtuu grafiikalla, kuten uudenlaisilla jakaumakuvioilla, zoom-starilla, puulla tai kaksidimensioisella kartalla. 

Ajoitus

Kurssiin liittyy aluksi 3 tunnin yleisluento aiheesta. Se pidetään keskiviikkona 5.11. klo 16-19 Unioninkatu 37:n (U37) seminaarihuoneessa 4. Tämän pohjalta pitäisi olla edellytyksiä omakohtaiseen kokeiluun, johon tarjotaan kolme ohjausta sisältävää tilaisuutta Kumpulan Exactumin atk-luokassa C123 keskiviikkoina 19.11., 26.11. ja 3.12. klo 16-18.  Osallistuminen vähintään kahteen näistä on välttämätöntä normaalitapauksessa oppiakseen ohjelmistoa Sodas riittävästi. 

Etukäteisilmoittautuminen Sepolle (Etunimi.Sukunimi@Helsinki.Fi) olisi mukava jos aikoo osallistua koko kurssiin eli myös atk-harjoituksiin. Luennolle voi toki tulla ihan vain uteliaisuuttaankin, ja jos inspiraatio syntyy, voi siellä ilmoittautua atk-harjoituksiin.  Sodas-ohjelmiston manuaali löytyy netistäkin sopivalla haulla mutta on myös oheisessa zip-tiedostossa. Siinä on myös PISA:sta tehty Sodas-tiedosto, sama jota on käytetty kurssimateriaalissa.

 http://wiki.helsinki.fi/download/attachments/32154571/HY_Sodas.zip

Sodas-ohjelma on installoitavissa atk-luokassa. Ohjelman toiminnassa on hieman rajoitteita tässä paikassa johtuen yliopiston ohjelmapoliittisista tekijöistä. Esimerkiksi ohjelman testitiedostot eivät ainakaan 14.11. toimineet mutta oman tiedoston vaikkapa tikulta voi ladata. Vastaavasti tallennuksia ei voi(ne) suorittaa ohjelman tarjoamiin yleisiin paikkoihin, vaan on paras sijoittaa omaan paikkaan (tikulle tai verkkolevylle). Jos ohjelman installoi luentomateriaalissa mainitulla tavalla omalle koneelle, tällaisia ongelmia ei ole. Atk-harjoituksiin voi myös tuoda oman koneen johon on installoinut ohjelman.

Atk-harjoitusten ensimmäinen osa keskittyy Sodasin muutaman peruselementin harjoitteluun olemassa olevalla datalla, joita saa Sepolta (jollei siis käytä testidatoja silloin kun ne saa käyttöön). Samaa jatketaan toisessa osassa mutta tällöin myös pyritään muodostamaan oma data kahdella vaihtoehdolla jotka on esitetty luentomateriaalissa. 

Näpyttelemällä (Native data) voit harjoitella myös liitetiedostossa Excel-muodossa olevaa dataa, mutta melkoisen monenlaisia vaihtoehtoja on helposti saatavailla, vaikkapa tilastoista.

http://wiki.helsinki.fi/download/attachments/32154571/Helsinki_Sodankyla_Saa.xls

Tässä om Portugalin ajankäyttödata otettuna Sodas-ohjelmasta siksi että jos sitä ei voi imuroida atk-luokassa:

https://wiki.helsinki.fi/download/attachments/32154571/TUS_INE.xml

Tässä zipissä on kolme tiedostoa, joista yksi eli hel_sodan_pie on suoraan luettavissa Sodas:lla, mutta sen sijaan ESS_COUNTRY_AGE vaatii Access:ssa vielä käsittelyä.

 http://wiki.helsinki.fi/download/attachments/32154571/SODAS_11.zip

Kolmas tiedosto on huvin vuoksi. Sen antoi ASSO-projektin barilainen tutkija Donato. 

Suoritustapa

Suoritetaan osoittamalla että hallitsee riittävästi Sodas-ohjelmiston käyttöä ja ymmärtää mitä se tuottaa. Tämän voi parhaiten osoittaa atk-luokkaharjoituksissa mutta myös hyvällä kirjallisella raportilla pääsee samaan. Yli 3 op:n suoritus vaatii kirjallisen raportin, ja siis myös laajemman osaamisen.

Kirjallisuus

_Luentomateriaali:  _http://wiki.helsinki.fi/download/attachments/32154571/Sodas_11_2008.pdf

Edwin Diday and Monique Noirhomme-Fraiture, "Symbolic Data Analysis and the SODAS Software." Wiley and Sons: Chichester, UK.

Ohessa esite http://wiki.helsinki.fi/download/attachments/32154571/Diday.pdf