Tumpeloinnin matematiikkaa

Tunarointi ja tilastollinen merkitsevyys: kaksi kaunista asiaa, jotka yhdistettynä ovat vielä kauniimpia. Törmäsin hiljattain alla olevaan meemiin. Meemi on puutteellinen ja epäonnistunut matemaattisesti — mikä toki tekee siitä metatasolla vieläkin hienomman — mutta sen pohtiminen johtaa yllättävän monipuolisiin johtopäätöksiin.

Meemiin sisältyy kaksi erillistä kysymystä, joista toinen on periaatteessa suoraviivainen, toinen äärimmäisen monipolvinen.

Mitä tarkoittaa tilastollinen merkitsevyys?

Wikipedian määritelmä on hyvä:  “Tilastollinen merkitsevyys tarkoittaa tilastotieteessä sitä, että on epätodennäköistä, että tulos olisi sattumaa. Tilastollisesti merkitsevä ero” tarkoittaa ainoastaan, että ero on olemassa, ei sitä että se olisi erityisen suuri tai muuten merkittävä. “

Muotoilisin tämän itse hiukan sumeammin mutta ymmärrettävämmin: tapahtuma on tilastollisesti merkitsevä, jos se on aidosti yllättävä.  Tämä “aito yllättävyys” voidaan määritellä matemaattisesti.

Kolikonheitto on helpoin esimerkki tämän ymmärtämiseen. Oletetaan, että “epäonnistuminen” tarkoittaisi, että heitämme klaavan. Klaavan saamisen todennäköisyys on täsmälleen 1/2 eli 50%. Kaksi klaavaa peräkkäin: todennäköisyys on (1/2)*(1/2)=25%. Kolme klaavaa: (1/2)*(1/2)*(1/2)=12.5%. Neljä klaavaa: (1/2)4=6.25%. Viisi klaavaa: (1/2)5=3.1%.

Tilastotieteessä käytetään sopimusta, että jokin tapahtuma on tilastollisesti merkittävä, jos sen tapahtumisen todennäköisyys sattumalta on alle 5% (p-arvo p<0.05). Tämä 5% raja-arvo ei sinällään perustu mihinkään, vaan siihen on aikanaan päädytty ns Accordion Research -metodilla: tunnettu tilastotieteilijä Ronald Fisher vetäisi luvun 1920-luvulla hanuristaan, ja sen jälkeen sen kanssa on eletty.

Jos käytetään ylläolevaa kolikonheittoa esimerkkinä, huomataan, että vasta viiden peräkkäisen klaavan heittäminen on “aidosti yllättävää”, eli sen todennäköisyys on alle 5%. Meemiä pitäisi siis korjata: pitää epäonnistua vielä neljä kertaa, jotta epäonnistuminen olisi tilastollisesti merkittävää.

Mutta…

Mitä tarkoittaa epäonnistuminen?

Kolikonheittoesimerkissä oletettiin, että “epäonnistumisen” todennäköisyys olisi 50%. Jos tarkemmin mietitään, mitä epäonnistumista sellaisessa on? Kyseessähän on sananmukaisesti kolikonheitto, eikä siinä ole taidolla tai muillakaan ominaisuuksilla mitään tekemistä.

Todellisuudessa ihmisen voi varsinaisesti katsoa tunaroineen vain, jos onnistumisen olisi pitänyt olla (paljon) todennäköisempää kuin floppaamisen. Jos jonkun oletetaan jo valmiiksi epäonnistuvan, mitä yllättävää epäonnistumisessa on?

Siksi täytyykin ottaa käyttöön a priori todennäköisyys k, joka siis on todennäköisyys jolla oletamme henkilön epäonnistuvan yhdellä kokeilukerralla. Kolikonheitossa k=0.5. Jos taas esimerkiksi Saksan jalkapallomaajoukkue pelaisi Suomea vastaan, Saksan epäonnistumisen todennäköisyys tuskin olisi edes 10% (k=0.1).

Jos haluttu merkitsevyystaso on p, voidaan laskea kuinka monta peräkkäistä katastrofia N tarvitaan, jotta tulos olisi aidosti yllättävä. Luvun N on toteutettava ehto

kN < p,  (Kaava 1)

josta pienin mahdollinen N voidaan laskea itseisarvona

N > |ln(p)/ln(k)|

Jos käytetään normaalia hanuriarvoa p=0.05, vaadittujen floppien määrä nähdään kuvassa 1. Jalkapalloanalogiassa: jos joukkueet ovat lähes tasaväkiset (k~0.5), vasta viisi peräkkäistä häviötä on tilastollisesti merkittävää huonoutta. Suomi-Saksa-tapauksessa (k~0.1) taas jo kaksi peräkkäistä Saksan häviötä riittäisi herättämään epäilyksen, että maailmassa on virhe.

Kuva 1: Vaadittujen häviöiden määrä jos häviö on yllätys (k<0.5)

Kuvassa 1 on oletettu, että häviö on a priori todennäköisin vaihtoehto — toisin sanoen se on todennäköisyys sille, että paremman joukkueen häviöputki olisi tilastollisesti merkitsevä. Tarkoittaako tämä, että huonompi joukkue ei voi koskaan hävitä merkitsevästi? Tämä olisi aika surullista.

Onneksi näin ei ole. Kaava 1 pätee mille tahansa k:n arvolle ykköseen asti. Vaaditun N:n määrä vain kasvaa nopeasti. Tämä on helppo tajuta: jos melko huono joukkue häviää kerran, se ei ole mikään yllätys. Jos se häviää kymmenen kertaa putkeen, se alkaa jos nostattaa kulmakarvoja. Ja jos se pelaa kymmeniä kertoja voittamatta edes vahingossa, jossakin on jotakin mätää.

Kuvassa 2 on piirretty nämä arvot.

Kuva 2: Vaadittujen häviöiden määrä jos häviö ei ole yllätys (k>0.5)

Saksa-Suomi-analogiaa jatkaen: kun k=0.9, N=29. Kymmenen peräkkäistä Suomen tappiota Saksalle ei yllätä ketään. Ei edes 20. Mutta kolmeenkymmeneen peliin täytyisi jo sentään osua edes yksi peli, jossa Saksan yksikään ykköstason pelaajista ei vaivaudu paikalle, kakkostason pelaajistakin puolella on indonesialainen veriripuli, ja kolmostaso erehtyi viettämään edellisiltana Oktoberfestiä turhan railakkaasti.

Siis: Niin vaikeaa kuin se ehkä onkin uskoa, myös Suomen jalkapallojoukkueen on mahdollista yllättää aidosti pelaamalla huonosti Saksaa vastaan. Se vain vaatii kolmekymmentä toistoa.

Tässä on jotakin syvästi lohdullista. Matemaattisesti katsottuna, kaikkein huonoinkin meistä voi silti yllättää huonoudellaan ja tunaroida merkitsevästi.

Lisää matematiikkaa, osa vakavaa osa ei: WeirdMath

Published by

Jakke Mäkelä

Physicist, but not ideologically -- it's the methods that matter. Background: PhD in physics, four years in basic research, over a decade in industrial R&D. Interests: anything that can be twisted into numbers; hazards and warnings; invisible risks. Worries: Almost everything, but especially freedom of speech, Internet neutrality, humanitarian problems, IPR, environmental issues. Happiness: family, dry humor, and thinking about things.

Translate »