3. opetuskerta

Kertymä ja korrelaatio

Kertymä on tapa laskea tilastollisen jakauman summia vastaamalla kysymyksiin

  • suurempi kuin tai
  • pienempi kuin

Kertymä saadaan käytännössä laskemalla frekvenssitaulukosta summafrekvenssi, joko suhteellisista tai todellisista osuuksista

  • tämä tehdään yleensä taulukkoon lisäämällä frekvenssin viereen sarake summafrekvenssiä varten
  • laskeminen yleensä aloitetaan arvojen pienemmästä päästä, mutta se ei ole sääntö, vaan se voitaisiin yhtä hyvin aloittaa suurimpien arvojen päästä.
Summajakaumalle käytetään tiettyjä nimityksiä, kun suhteellinen jakauma jaetaan yhtä suuriin osiin

  • kvartiili tarkoittaa jakauman jakamista neljään osaan
  • desiili tarkoittaa jakamista 10 osaan
  • fraktiili tarkoittaa yhtä jaon osaa

Suhteellista summafrekvenssiä kuvataan yleensä yhdistetyllä pistekaaviolla

(huom, tässä pisteet nimenomaan yhdistetään suorilla eikä kaarevilla viivoilla)

Korrelaatio

Korrelaatio on tilastoihin liittyvä termi, jolla kuvaillaan kahden eri tilastomuuttujan keskinäistä riippuvuutta.

Esimerkiksi kaksi keskenään vahvasti korreloivaa tilastomuuttujaa voisivat olla liikenneonnettomuuksien aiheuttaminen ja päihtyneenä ajaminen.

Tilastoista selviää, että päihtyneenä ajaminen aiheuttaa suuren liikenneonnettomuuden riskin, eli näillä muuttujilla on vahva positiivinen korrelaatio (positiivinen ei tässä tarkoita hyvää asiaa, vaan sitä että kun ensimmäinen kasvaa, niin toinenkin kasvaa)

Korrelaation ajatellaan olevan voimakas, jos se on lähellä lukua 1 tai lukua -1, mutta tämä ei ole aina vaatimus vahvalle korrelaatiolle.Kolmannessa kuvassa muuttujilla on vahva korrelaatio, vaikka korrelaatiokerroin on 0.

Yleensä korrelaation voimakkuus ajatellaan seuraavasti:

Aina suureiden välillä ei ole suoraan korrelaatiota, vaikka tilastollinen tarkastelu näin antaisi ymmärtää. Tästä kuuluisin esimerkki on 1970-luvulla havaittu tilastollinen tutkimus, jossa tupakoinnin havaittiin vähentävän Parkinsonin tautia.

Todellisuudessa tilastollinen harha johtui siitä, että tupakoitsijoiden keskimääräinen elinikä oli niin pieni, että he eivät eläneet siihen ikään asti, jossa Parkinsonin tautiin usein sairastutaan. Myytti eli silti pitkään, koska tutkimus oli julkaistu muka totena (tupakkateollisuuden rahoittamana tutkimuksena)

Nykyään myös julkaistaan usein tilastollisia tutkimuksia mitä erilaisimpien asioiden välillä olevista riippuvuuksista, joista todellisen korrelaation olemassaolo on kyseenalainen.

Korrelaatio määritellään ohjelmistolla, vaikka sekin on periaatteessa laskettavissa käsin.

Kotitehtäviksi: 5.1, 5.3, 5.9, 5.15, 5.19, 6.1, 6.2, 6.6, 6.14, 6.17

Peda.net käyttää vain välttämättömiä evästeitä istunnon ylläpitämiseen ja anonyymiin tekniseen tilastointiin. Peda.net ei koskaan käytä evästeitä markkinointiin tai kerää yksilöityjä tilastoja. Lisää tietoa evästeistä