Tumpeloinnin matematiikkaa

Tunarointi ja tilastollinen merkitsevyys: kaksi kaunista asiaa, jotka yhdistettynä ovat vielä kauniimpia. Törmäsin hiljattain alla olevaan meemiin. Meemi on puutteellinen ja epäonnistunut matemaattisesti — mikä toki tekee siitä metatasolla vieläkin hienomman — mutta sen pohtiminen johtaa yllättävän monipuolisiin johtopäätöksiin.

Meemiin sisältyy kaksi erillistä kysymystä, joista toinen on periaatteessa suoraviivainen, toinen äärimmäisen monipolvinen.

Mitä tarkoittaa tilastollinen merkitsevyys?

Continue reading Tumpeloinnin matematiikkaa

Vaalikampanjoiden matematiikkaa

 

Tämä blogi on alunperin ollut jyrkän epäpoliittinen, mutta vain muutos on pyhää.  Olen jostain syystä päätynyt Turussa Vihreiden ehdokkaaksi ensi vuoden kunnallisvaaleissa.  Kun tuollaista luottamusta osoitetaan, niin tehtävä on pakko myös ottaa vakavissaan. Mutta tarkoittaako se, että olisi pakko ottaa myös itseni vakavasti? En tiedä vielä. Tästä voi tulla mielenkiintoinen sosiologinen eksperimentti.

Lähtökohtani on yksinkertainen, jopa naiivi. Yhteisiä asioita on hoidettava faktapohjaisesti ja analyyttisesti.  Mitä faktat eivät tue, sitä ei pidä ajaa.

(Kokemus luottamustoimissa ja ennen muuta perheenisänä on toki osoittanut, että todellisuudessa tuo filosofia ei ainakaan teletappimaailman ulkopuolella toimi. Ihminen on irrationaalinen psykofyysinen kokonaisuus, maailma on sumea ja sekava, ja oikeasti  sählätään summamutikassa ja läpiuupuneina arvojen pohjalta.  Mutta faktapohjainen analyyttisyys on ihanteena silti toimiva).

Hiukan matematiikkaa

Valitettavasti aloin samantien pohtia omaa kampanjaani “faktapohjaisesti ja analyyttisesti”.  Mikä on todennäköisyys, että tällä  juroustasolla ja tällä synkkyysasteella pääsisi politiikassa yhtään mihinkään?

Toisin kuin voisi kuvitella, todennäköisyys ei missään nimessä ole nolla!

Continue reading Vaalikampanjoiden matematiikkaa

EU-vaalien matematiikkaa 2

Koska olisi tärkeää saada ihmiset äänestämään EU-vaaleissa edes säälistä, edes jotakuta, tarkennan aikaisempaa kirjoitustani EU-vaalien matematiikkaa. Joskopa sitä kautta kansakunta innostuisi vaaliuurnille aivan uudella vyöryllä. Kirjoitus jätti auki kaksi kysymystä.

Analysoin kirjoituksessa seuraavaa väitettä:  Muista, että jos et äänestä, tuet sitä, jonka kanssa olet eniten eri mieltä. Ja se nyt vain on tyhmää“.  Väitteen esitti anonyymi tuttavani (Linkedin-profiili).  Pitääkö väite paikkaansa millään reunaehdoilla?

1. Voisiko kysymyksen muotoilla niin, että joku ymmärtääkin sen?

Analyysin voi selittää huomattavasti intuitiivisemmin kuin edellisessä kirjoituksessa. Jos itse jättää äänestämättä, se on (ensimmäisessä approksimaatiossa) ekvivalentti sille, että vastapuoli saa yhden lisä-äänen. Jos vastapuoli saisi tämän yhden lisä-äänen, kuinka radikaali se lisä-ääni oletusarvoisesti olisi?

Käytin varsin yksinkertaista mallia. Oletetaan, että radikaalisuus on normaalijakautunutta. Tällöin radikalisuusjakauman todennäköisyysfunktio on

Screen shot 2014-05-15 at 16.39.35missä σ on radikaalisuuskerroin. Voidaan katsoa, että yli  2σ päässä olevat ovat äärisiipeä Oletetaan nyt, että toinen puoli saa yhden lisä-äänen. Miten tämän äänen radikaalisuustodennäköisyys jakautuu? Odotusarvo saadaan laskettua, jos tehdään sijoitus

Screen shot 2014-05-15 at 16.41.40Tällöin lopputulos on

Screen shot 2014-05-15 at 16.40.11

Normalisoidaan yksinkertaisuuden vuoksi radikaalisuusaeste niin, että σ=1. Riippumatta siitä mikä äänestämättä jättävän radikaalisuusaste on, vastapuoli saa siis keskimäärin lisä-ääneen jonka radikaalisuusaste on 1/√2π, eli noin 0.4.

2. Pänniikö radikaalia enemmän kuin maltillista?

Asia näytää erilaiselta riippuen siitä, mikä oma radikaalisuusaste on. Ehdotin, että väite pitäisi muotoilla näin: “Muista, että jos et äänestä, tuet keskimäärin henkilöä jonka radikaalisuusaste on 0.4. Mikäli olet tätä maltillisempi, vastapuoli radikalisoituu. Ja se nyt vain on tyhmää. Jos taas olet sitä radikaalimpi, estät mahdollisuuden saada tavoitteitasi läpi kärijistämällä vastakkainasettelua. Ja se nyt vain on tyhmää.” Tämä on herättänyt debaattia.

Maltilliselle tämä pitää intuitiivisesti melko selkeästi paikkansa: maltillinen lähtökohtaisesti haluaa, että myös vastapuolella oltaisiin mukavia ja maltillisia. Radikaalit hirvittävät.

Entä radikaali? Yllä oleva päättely on puutteellista. Johtopäätös on kuitenkin uskoakseni oikein. Tarpeeksi radikaalilla on kaksi yhtä tärkeää vastustajaa: vastapuoli, ja oman puolueen maltilliset. Paras strategia on sellainen, jossa molemmat kärsivät.

Silloin pahin skenaario on ääni maltilliselle vastapuolelle. Se vahvistaa epäsuorasti myös oman puolen maltillisia, koska keskivoimat pystyvät helpommin löytämään ratkaisuja jotka kelpaavat kaikille, ja sitä kautta kahmimaan itselleen yhä enemmän ääniä. Vastapuolen radikaalit eivät vahvista omia maltillisia millään tavalla, ja siksi he ovat parempi vaihtoehto.

Jos siis jättää äänestämättä, tukee tasan vastakkaismielistä vain, jos oma radikaalisuusaste on 0.4. Harmituksen määrä on kuitenkin aina suunnilleen sama, riippumatta omasta radikaalisuusasteesta.  Siis äänestämättä jättäminen on aina tyhmää, jos ylipäätään on jostakin jotakin mieltä.

Lisää matematiikan toisinkäyttöä: WeirdMath

Screen shot 2014-05-15 at 17.02.26Lähde: Wikipedia

 

 

 

 

 

 

EU-vaalien matematiikkaa

Analyyttisyyden skalpelli leikkaa sentimentaalisuuden rasvakerrosta, kun dissektoin seuraavaa EU-vaaleihin liittyvää väitettä: Muista, että jos et äänestä, tuet sitä, jonka kanssa olet eniten eri mieltä. Ja se nyt vain on tyhmää“.  Koska sosiologiassa tulee suojata väitteen tekijän anonymiteettiä, ja koska kyseessä on (vielä) kaverini, käytän väitteen esittäjästä vain nimikirjaimia JK (Linkedin-profiili).  Pitääkö väite paikkaansa millään reunaehdoilla?

Tarvittava malli on tällä kertaa varsin yksinkertainen. Oletetaan, että radikaalisuus on normaalijakautunutta. Tällöin radikalisuusjakauman todennäköisyysfunktio on

Screen shot 2014-05-15 at 16.39.35missä σ on radikaalisuuskerroin. Tämä on toimiva määritelmä, jossa voidaan katsoa että yli  2σ päässä olevat ovat äärisiipeä.

Oletetaan nyt, että vasemmasta laidasta poistetaan yksi ääni. Tämä on ekvivalentti sen kanssa, että oikea laita saa yhden äänen lisää. Miten tämä ääni jakautuu? Odotusarvo saadaan laskettua, jos tehdään sijoitus

Screen shot 2014-05-15 at 16.41.40Tällöin lopputulos on

Screen shot 2014-05-15 at 16.40.11

Normalisoidaan yksinkertaisuuden vuoksi radikaalisuusaeste niin, että σ=1. Riippumatta siitä mikä äänestämättä jättävän radikaalisuusaste on, vastapuoli saa siis keskimäärin lisä-ääneen jonka radikaalisuusaste on 1/√2π, eli noin 0.4.

Väite pitäisi siis muotoilla suunnilleen näin:  “Muista, että jos et äänestä, tuet keskimäärin henkilöä jonka radikaalisuusaste on 0.4. Mikäli olet tätä maltillisempi, vastapuoli radikalisoituu. Ja se nyt vain on tyhmää. Jos taas olet sitä radikaalimpi, estät mahdollisuuden saada tavoitteitasi läpi kärijistämällä vastakkainasettelua. Ja se nyt vain on tyhmää.”

Myös politiikka vaatii tarkkuutta.

Lisää matematiikan toisinkäyttöä: WeirdMath

Screen shot 2014-05-15 at 17.02.26Lähde: Wikipedia

 

 

 

 

 

 

Datapisteiden synkeän elämän julmaa matematiikkaa

Joulun kunniaksi olen pohtinut, miten lannistavaa olisi olla datapiste. Yksinkertaisessakin tutkimuksessa voi tulla miljoonia datapisteitä. Lopuksi niistä survotaan kaava, joka on muotoa Y= A + B*X1. Jokainen piste haluaisi päästä A:ksi A:n paikalle; vain yksi pääsee, muut tuomitaan ikuiseen kadotukseen. Mitä elämää se sellainen oikein on?

Ajatus on tullut mieleen, kun olen murskannut tämänhetkisen projektini numeroita. Projektin päämäärä ja yksityiskohdat eivät ole tässä olennaisia (ovatko ne muuallakaan, on makukysymys).  Siinä ajelutettiin noin sata ihmistä ajosimulaattorin läpi. Jokainen ajo kesti lähes tunnin. Dataa on tallennettu kymmenen kertaa sekunnissa.

Koska simulaattoriaika on kallista, ajosuorituksista tallennettiinn kaikki mahdollinen. Ajajasta tallennettiin noin kolmekymmentä parametriä. Lisäksi pidettiin kirjaa siitä, missä muut simulaation objektit ovat. Objekteja on noin viisikymmentä, ja kaikista tallennettiin kahdeksan parametriä. Jokaisella rivillä oli siis yli 500 numeroa. Kymmenen kertaa sekunnissa tunnin ajan tarkoittaa, että jokaisesta kuskista tallennettiin lähes 20 miljoonaa numeroa.

Yhteensä projektin aikana kerättiin siis lähes 2 miljardia datapistettä.

Näiden miljardien tragedia on siinä, että melkein kaikki niistä tapettiin ennen kuin ne edes näkevät päivänvalon. Kuskin toimintaa mittaavat 30 parametriä sentään vaivauduttiin ottamaan talteen. Muista objekteista sen sijaan tallennettiin vain etäisyystieto; yhteensä 50 numeroa riviltä. Ensimmäisen teurastuksen läpäisi siis vain 10% luvuista, eli 90% joutui heti datapisteiden taivaaseen. 200 miljoonaa datapistettä jäljellä.

Käyttökelpoisia tienpätkiä oli lopulta noin neljäsosa: 50 miljoonaa datapistettä. Tässä vaiheessa alkoi selvitä, mitkä parametrit ylipäätään ovat analyysissä tärkeitä. Viisikymmentä tallannetua parametriä voitiin tiivistää hieman yli kymmeneen. Kymmenen miljoonaa datapistettä jäljellä. Näiden tallennusvälilä pystyttiin vielä harventamaan, pyöristämällä sijainnit lähimpään täyteen metriin. Varsinaiseen dataprässiin päätyi enää nelisen miljoonaa datapistettä (400,000 mittausta, jokaisessa 10 parametriä).

Prässissä kokeiltiin erilaisia menetelmiä, mm lineaarisia monimuuttujamalleja. Loppujen lopuksi kuitenkin yksinkertaisin oli parasta: kuskit keskiarvoistettiin, niin että sadasta koehenkilöstä saatiin survottua yksi “keskimääräinen” kuski. Noin 99% datapisteistä koki siis irvokkaan keskiarvoistuskuoleman, menettäen kaiken sen yksilöllisyyden joka tekee numerosta numeron.

Tässä vaiheessa jäljellä oli siis 4000 mittausta, jokaisessa kymmenen parametriä. Pyörittely osoitti, että näistä vain yksi oli lopulta tärkeä (riippuva muuttuja Y), ja sen pystyi parhaiten selittämään kaksi riippumatonta muuttujaa (X1 ja X2).

Koko tutkimustulos tiivistyi siis kaavaksi

  Y = A + B*X1 + C*X2.

Toisin sanoen, tehtäväksi jäi määritellä kolme vakiota (A,B,C). Tämä siis oli koko prosessin loppputulos: kolme numeroa. Alun kahdesta miljardista. Ja tämä kaikki vain siksi, että pari akateemista nörttiä saisi taas yhden julkaisun lisää.

Jotta nöyryytys olisi täydellinen, näissä vakioissa on vain kaksi merkitsevää desimaalia, kun alkuperäinen data kerättiin vähintään kuuden merkitsevän desimaalin tarkkuudella. Numero on onnellinen, kun se on tarkka; jokaisen desimaalin menetys on kuin kadottaisi raajan.

Voin verrata tätä suoraan omaan elämääni. Tilastojen perusteella maailmassa on noin 3.5 miljardia työikäistä ihmistä, eli vajaa kaksi miljardia miestä. Tässä kilpailussa meidät laitettaisiin toistuvasti valtavan tehosekoittimen läpi. Häviäjät valutettaisiin viemäriin, voittajia mössättäisiin taas uudelleen. Lopussa papukaijamerkin saisivat ne kolme, joista on vielä jotakin jäljellä.

(Teoriassa voisi toki ajatella, että palkinnoksi jäisivät ne lähes kaksi miljardia työikäistä naista jotka nyt olisivat vapailla markkinoilla. Mutta moniraaja-amputaatiohalvaantunelle se on lähinnä akateeminen ilo).

Oma elämä ei tunnukaan enää yhtä kurjalta, kun tätä miettii. Yhtä mitättömältä toki. Mutta on silti parempi olla yksi joskus osittain terve Ö monien joukossa kuin ainoa täysrampa A ei kenenkään joukossa.

Lisää outoa matematiikkaa: WeirdMath.

 

Translate »