Category Archives: Data Analysis

Mikä on poliitikon puoliintumisaika?

Politiikka polttaa nopeasti loppuun.  On yksittäisiä työn sankareita joiden ura kunnanvaltuustossa jatkuu neljällä tai viidellä eri vuosikymmenellä, mutta he ovat kuitenkin poikkeuksia. Varsinkin vähemmän näkyvillä paikoilla ihmisten vaihtuvuus on suurta.

Dataihminen kysyy heti: kuinka suurta? Poliitikon uran voi mallintaa radioaktiivisena prosessina: kenen tahansa pää voi hajota koska tahansa. Laajemmalle poliitikkojoukolle voidaan laskea puoliintumisaika, eli  aika jonka jälkeen puolet väestä on vaihtunut.

Datan löytäminen tähän analyysiin ei ole itsestäänselvyys, koska esimerkiksi puolueen jäsenyys on tiukasti salainen tieto. Avoimen ja julkisen datan puolelta löytyy kuitenkin pienikokoinen kultakaivos:  oikeusministeriön tulospalvelu, jossa on erittäin hyvin organisoitua vaalidataa vuodesta 2011 (ja vähemmän organisoitua vuodesta 2003). Vaalitulokset, samoin kuin ehdokkuudet vaaleissa, ovat julkista tietoa.

Eduskuntavaalien listoja tarkistelemalla ei voi tehdä juuri mitään johtopäätöksiä koko puolueen aktiiveista, koska niihin ehdokkaiksi valikoituu erittäin pieni määrä poikkeusyksilöitä.  Kuntavaaleissa sen sijaan ehdokaslista heijastaa paljon paremmin koko kenttää. Vaikka kuntavaalipaikoistakin on kilpailua, paikkoja on niin paljon, että varsin suuri osa minkä tahansa puolueen sen hetkisistä aktiiveista saa pelätä päätyvänsä ehdolle.

Siksi juuri kuntavaalidatasta voisi löytyä mielenkiintoinen läpileikkaus puolueen aktiiveista laajemminkin. Tulospalvelusta saa suoraan kaksi tietoa vuosien 2017 ja 2021 kuntavaaleista: ehdokkaan ikä vaalipäivänä, ja uudemmista vaaleista tieto siitä, onko hän ollut aiemmin ehdolla vastaavassa vaalissa.   Koodit ja käytetyt raakadatat löytyvät Githubistani.

Ikäjakaumat

Ikä on mielenkiintoinen kysymys. Keskimääräinen kuntavaaliehdokas Suomessa on 50-vuotias. SDP:llä keski-ikä on hieman korkeampi, noin 53 vuotta. Vihreät poikkeavat muista erityisen dramaattisesti noin 43 vuoden keski-iällä.

Erot näkyvät erityisen selkeästi, kun tulokset piirretään tiheysfunktioina. SDP:n ja Vasemmistoliiton ikääntyneisyys näkyy hyvin. Vihreät poikkeavat profiililtaan selkeästi muista.

Tarkastelua voidaan tehdä myös kunnittain, laskien listojen keski-iät.  Vihreiden  poikkeavuus  on  tällöin  erityisen  selvä.

Kokemuksen jakaumat

Vaihtuvuus kuntavaaleissa on mielenkiintoisin muuttuja. Nyrkkisääntönä voidaan ajatella, että noin 50% vaihtuvuus kuntavaalien välillä olisi ihanteellinen. Silloin listoilla on sekä kokemusta että uudistumista. Käytännössä se tarkoittaisi noin neljän vuoden puoliintumisaikaa ehdokkaille.

Puolueiden välillä näkyy tässä suhteessa varsin merkittäviä eroja. Useimmilla puolueilla kokeneiden osuus on keskimäärin hieman yli 50%, SDP:llä jopa 63%. Kaksi puoluetta (Vihreät ja PS) erottuvat näistä selvästi noin 40% osuudellaan.

Näistä luvuista saadaan laskettua karkea puoliintumisaika. Oletetaan, että lista hajoaa eksponentiaalisesti aikavakiolla k: y=y0*exp(-k*t).   Jos neljän vuoden jälkeen listalla  on jäljellä  p poliitikkoa, puoliintumisaika saadaan kaavasta  t2=4*log(0.5)/log(p).

Nähdään, että keskimääräinen puoliintumisaika on noin 4.5 vuotta.  Vihreillä ja perussuomalaisilla puoliintumisaika on lyhyin, noin kolme vuotta. Kaikilla muilla puoliintumisaika on yli 4 vuotta, eli voidaan tulkita että keskimääräinen ehdokas säilyy aktiivisena hieman yli vaalikauden.  SDP:llä puoliintumisaika on kaikkein pisin, lähes tuplasti Vihreiden ja PS:n.

Kokemuksen ja iän korrelaatio

Mielenkiintoinen kuvaaja saadaan, jos piirretään puolueittain  kokeneiden osuus  ja  listan  keski-ikä.   Jos  kuvaaja nousee tasaisesti, voidaan tulkita että ikä tuo kokemusta: puolueella  on  aktiiveja,  jotka ovat monissa vaaleissa ehdolla.

Vihreät ovat käytännössä ainoa poikkeus tästä.  Vaikka PS:n ehdokkailla on keskimäärin vähän kokemusta,  ikääntyneemmillä listoilla on kuitenkin  kokemusta keskimäärin enemmän. Vihreiden listoilla taas kokemusta on lähes saman verran riippumatta siitä, mikä on listan keski-ikä.

Johtopäätökset

Keskimääräinen Vihreä kuntavaaliehdokas on nelikymppinen, ja puoliintuu kolmessa vuodessa — eli  kyllästyy ennen kuin ehtii edes toisiin kuntavaaleihinsa. Muiden puolueiden ehdokkaat ovat keskimäärin viisikymppisiä, ja heistä (pienehkö) enemmistö jatkaa harrastusta seuraavallakin vaalikaudella, puoliintuen 4-6 vuodessa (poikkeuksena ainoastaan perussuomalaiset).

Mielestäni on yksikäsitteisesti hyvä asia, että Vihreissä on paljon nuoria, ja että itsekin olen jo ikämiessarjassa.   Ei ole mitenkään toivottavaa, että sama pieni kaaderisto olisi vallankahvassa vuosikymmenestä toiseen.

Sen sijaan kokemuksen katoaminen on asia, jolla annetaan muille  tasoitusta.  Jos puolet väestä vaihtuu kolmen vuoden välein, jatkuvuutta ja pitkäjänteisyyttä on vaikea ylläpitää.  Olen itse ollut vastuuasemissa kaikissa Varsinais-Suomen Vihreissä vaaleissa vuoden 2020 jälkeen, ja  huomannut sitä kautta tämän vaihtuvuuden varjopuolet käytännön työssä. Kokeneiden toimijoiden uudelleeninnostaminen olisikin yksi selkeä kehityskohde seuraaville vuosille.

Kirjoittaja on ollut aktiivinen Vihreissä jo muutaman puoliintumisajan verran, ja pohtii jo vuosien 2024-2027 vaaleja.

Ehdokasnumerologiaa

 

Kuntavaalien yksi jännitysmomentti on se, että minkäköhän ehdokasnumeron saa.  Numerothan arvotaan ensi torstaina.  Asialla ei ole minkäänlaista merkitystä mihinkään, mutta niin sitä vain itsekin pohtii, ihminen kun on irrationaalinen psykofyysinen entiteetti. Jotta saisin niskaotteen irrationaalisesta puolestani, tein viikonloppuna pienen simulaation, jolla asiaa voisi koittaa ennustaa. Ehdokasnumerojen jakauma ei nimittäin ole millään tavalla satunnainen, vaikka toisin voisi kuvitella!

(Kommentti 14.5.: ehdokasnumeroni on nyt lopulta 424, mikä tarkoittaa että olisin menettänyt kaikki rahani jos olisin tämän blogin mukaisesti lyönyt vetoa. Mutta siihen oli noin 60% todennäköisyys. Vuoden 2029 vaaleissa vasta aletaan nähdä, osaanko hommani).

Turun Sanomien mukaan ehdokkaita on yhteensä 670, ja listoja on kaikkiaan 14. Täyden sadan ehdokkaan listat on viidellä puolueella (Vihreät, SDP, Vasemmistoliitto, PS, Kokoomus+KD). Pienempiä listoja ovat RKP (71), Liike Nyt (21), SKP (8), Piraatit (4), Kristallipuolue (4), Liberaalit (2), Kansalaispuolue (1) ja Avoin puolue (1).

Continue reading Ehdokasnumerologiaa

Manipulaation taito 2: Partalasten ankkurointi

Ellei perussuomalaisten puoluelehti Suomen Uutiset löytyisi ilmaiseksi verkosta, saattaisin tilata sen. Siinä määrin herkullisia esimerkkejä tilastomanipulaatiosta ja matemaattisesta propagandasta siitä löytyy.

Tässä viimeisin. “Ikätestin tulos: 60 prosenttia alaikäisistä turvapaikanhakijoista paljastui aikuisiksi“.

PS

Aika hurjaa. Ja näin lukuun on päästy:  “Yle kertoo uutisessaan, että Suomessa tehtiin viime vuonna ikäarviotutkimus 149:lle alaikäiselle turvapaikanhakijoille, joista 90 todettiin täysi-ikäisiksi. Iän arviointi tehtiin hampaista sekä käden ja ranteen luista.”

SU ei vääristele: 90/149 on tosiaan 60%.

Miksi tämä luku on silti rasistista vääristelyä?

Continue reading Manipulaation taito 2: Partalasten ankkurointi

Talvivaara 25: Juuri saatujen tilastojen mukaan….

 

Poikkeuksellisesti lähes puhtaasti graafinen blogi. Taustalla gallup-kysely, jonka Talvivaara teetättänyt (ks täältä). Talvivaaran kunniaksi (ilman mitään sarkasmia tällä kertaa) on sanottava, että he julkaisivat myös raakadatan (täällä). Tämän saman datasetin perusteella media on nyt julkaissut ainakin seuraavat otsikot:

Noin klo 10: Yhtiön oma versio:

Screen shot 2013-11-05 at 14.31.01

Klo 10:29 Kainuun Sanomat tulkitsee:

Screen shot 2013-11-05 at 14.19.20

Klo 10:31 Helsingin Sanomat perustelee:

Screen shot 2013-11-05 at 14.20.52

Klo 11:00 Talouselämä huomioi:

Screen shot 2013-11-05 at 14.22.12

Klo 11:27 Sotkamo-Lehti pohtii:

Screen shot 2013-11-05 at 14.23.04

Klo 12:04 Verkkouutiset epäilee:

Screen shot 2013-11-05 at 14.23.59

Klo 13:03 Yle arvioi:

Screen shot 2013-11-05 at 14.26.54

Klo 14:36 Kaleva analysoi:

Screen shot 2013-11-05 at 14.35.50

 

Ilmeisesti kyse todellakin on samasta kyselystä, niin vaikeaa kuin se onkin uskoa. Tilastojen tulkinta onkin tunnetusti enemmän taiteenlaji kuin tiede. Tämä median taiteellisen luovuuden riemukulku saattaa hyvinkin jatkua vielä pitkälle iltaan. Mutta tämän raporttini päätän tältä erää tähän.

 

 Lisäys klo 18:05

Tämän kirjoituksen pointti ei varsinaisesti ole pilkata mediaa (vaikka kyllä sekin mielessä käy). Pikemminkin pointti on se, että joskus “tutkimukset” eivät vain tarkoita yhtään mitään. Talvivaaran gallup ei ole vääristelty eikä huono eikä hyvä. Se on vain täysin vailla informaatiosisältöä, minkä nuo otsikot viimeistään osoittavat.

Muita Talvivaara-kirjoituksia: täällä.

Ilmastonmuutos 2: Väärän popularisoinnin turmio

Olen havahtunut siihen, että olen saattanut olla ylioptimistinen. Tunne on erikoinen.

Jottei tule epäselvyyttä: nykytiedoilla olen jämerästi “ilmastouskovainen”. Tiede ei tämän selvemmäksi voi tulla, ja olisi järjetöntä olla toimimatta vaikka epäselvyys olisi paljon suurempikin. Pidän kuitenkin samalla jämeryydellä kiinni siitä, että oma leirini ei saa käyttää huonoja argumentteja. Uskottavuutta ei saa menettää.

Aiemmassa kirjoituksessa avasin, miksi ilmastonmuutosta ei voi “ymmärtää”.  Se on yksinkertaisesti liian monimutkainen kasa sairaita matemaattisia yhtälöitä, jotka eivät maalaisjärjellä kerta kaikkiaan avaudu. Lisäksi probabilistiset ennusteet antavat tietoa sellaisessa muodossa, jota terveet ihmisaivot eivät kykene absorboimaan.

Pahin unohtui. Ilmastonmuutoksen olemassaolo voidaan todistaa ennen muuta tilastoilla. Valitettavasti tilastoilla ei varsinaisesti voi todistaa mitään.

Tilastotieteen perusajatuksia on hypoteesin testaus. Esitetään väite (nollahypoteesi), ja sen jälkeen testataan, voidaanko osoittaa että väite on melko varmasti epätosi. Viime kädellä tilastoilla osoitetaan väitteitä vääriksi; se ei silti tarkoita, että vastakkainen väite olisi automaattisesti oikea. Jos tätä ei ymmärrä, popularisoinneissa voi mennä pahasti metsään.

Liian kansantajuisten mallien esittäminen jopa lyö itseään vastaan. Niissä on aina oiottu ja yksinkertaistettu, ja milloinkaan ne eivät vastaa todellisuutta kunnolla. Kun sitten jokin tällainen kansantajuinen malli osoittautuu virheelliseksi, vastapuoli saa tilaisuuden lytätä koko tutkimuksen. Olkinukkeargumentti, mutta ilmastouskova on itse luonut olkinukkensa.

Ilmastouskovan olisi parempi nöyrästi myöntää, että tulkinnoissa on epävarmuutta.  Tapausesimerkkinä otan SkepticalSciencen sinällään mainion grafiikan.

(Lähde: http://www.skepticalscience.com/graphics.php?g=47)

Grafiikan perusteellla “skeptikot” ovat kiinnittäneet huomiota siihen, että viimeisten 15 vuoden aikana keskilämpötila on laskenut. On se. Vuoden 1970 jälkeen on ollut peräti viisi viilenemisjaksoa… jos unohtaa sen että näiden jaksojen välissä lämpötila on yhdessä yössä noussut kymmeniä kertoja enemmän. Mitään fysikaalista järkeä tuollaisessa tulkinnassa ei ole.

Vastaavasti “realistit” tulkitsevat datan tavalla, joka ei vaadi fysiikan lakien vastaisisia ihmekuumenemisia.  Sen tulkinnan mukaan lämpötilassa on paljon kohinaa, mutta koko ajan se on keskimäärin noussut.

Esitys on nokkela, kansainomainen ja näyttävä. Olen nähnyt sitä käytettävän myös suomalaisessa ympäristökeskustelussa. Valitettavasti on riski, että se voi kompastua omaan nokkeluuteensa.

Suoran viivan sovittaminen dataan nimittäin on helppoa mutta vaarallista — niin tehdään siksi että niin tehdään aina. Oikeasti lähes mihin tahansa dataan voi sovittaa lähes minkä tahansa käyrän. Ammattitaito syntyy siitä, että osaa poistaa ne käyrät jotka eivät kuvaa todellisuutta.

Yllä oleva kuvapari kyllä osoittaa sen, että “skeptikoiden” tulkinta on järjetön. Sen sijaan se ei kerro, onko “realistien” tulkinta oikea.  Käytännössä tähän dataan voisi hyvin sovittaa myös käyrän, jonka kasvu alkaa pysähtyä noin vuoden 2000 tienoilla. Jopa niin, että jos saisin nämä datat eteeni tietämättä niistä mitään, aloittaisin kokeilun jollakin sellaisella epälineaarisella sovituksella.

Olenkin yrittänyt löytää raakadataa johon tuo sovitus on tehty, mutta en löytänyt. Käytin kuitenkin yhtä datasettiä joka on ollut tuossa taustalla, NOAA GSTA. Data kertoo poikkeaman pitkän aikavälin keskiarvosta. (Raakadata csv-formaatissa: NOAA. R-skriptit: NOAA.R)

Dataan saa mukavasti sovitettua suoran Y=-0.11+0.027*X, missä X on vuosia alkaen vuodesta 1970. Sovituksen R2-arvo on 0.53, mikä on säämittauksissa kohtuullinen joskaan ei loistava arvo. (R2=1 tarkoittaisi että datapisteet ovat käytännössä kaikki punaisella viivalla, R2=0 tarkoittaa että ne ovat missä sattuu).

Toisaalta dataan voi aivan yhtä hyvin sovittaa myös vaikkapa kolmannen asteen polynomin. Sen arvoksi tulee Y= -0.02 + 0.0026*T + 0.0014*T^2 – 0.000022*T^3. Tässä sovituksessa kasvu tosiaankin pysähtyy. Sovituksen R2-arvo on lähes täsmälleen sama kuin lineaarisen, eli ei ole mitään varsinaista syytä pitää sitä huonompana.

Dataan voi myös sovittaa kosinifunktion (miksi ei voisi?). Sovitus ei ole aivan yhtä täydellinen kuin kahdessa edellisessä, mutta R2-arvo on silti 0.51 jos käytetään sovitusta Y= 0.41 – 0.45* cos(Y*π/36)). Tämä yksinkertaisesti tarkoittaisi, että lämpötilaa ajaa noin 144 vuoden pituinen sykli.

Olisi mukavaa sanoa, että nämä sovitukset ovat naurettavia, mutta tilastomielessä ne eivät ole. Jos kaksi sovitusta antaa käytännössä yhtä hyvän tuloksen, on vaikea mennä väittämään toista paremmaksi. (Jokainen näistä sovituksista muuttuu, jos mennään ajassa kauemmas taaksepäin. Mutta millä tahansa ajanjaksolla katsottuna suora viiva ei yleensä ole erityisen hyvä kuvaaja).

Itse asiassa nämä sovitukset eivät välttämättä edes ole naurettavia, ei edes tuo kosinisovitus. Epälineaarisuus voi jopa olla todellista, ja perustua oikean fysiikkaan. Se vaikuttaa hämärältä vain, jos ei ymmärrä eroa “lämpötilan” ja “energian” välillä.

Ilmakehään ei tällä hetkellä pumpata liikaa “lämpötilaa”; siihen pumpataan liika energiaa. Ero on merkittävä. Energia voi siirtyä moneen eri paikkaan: esimerkiksi syvälle mereen, tai jäätiköiden sulattamiseen, tai yläilmakehään. Silloin se ei lämmitä maanpintaa. Mutta jos “ylilämpö” voi siirtyä yllättävästi, se voi myös palata yllättävästi.

Yhden ainoan pintalämpötilan seuraaminen ei siis kerta kaikkiaan kerro koko totuutta. Tilastoja väärinkäyttämällä voidaan “todistaa” oikeastaan mitä vain. Toisaalta tiedetään, että malleissa on otettava huomioon muitakin muuttujia kuin pintalämpötila, eikä kaikkia ilmiöitä edelleenkään osata asteen tarkkuuudella mallintaa.

Tilastoja on syytä käyttää varovasti, ellei tiedä täsmälleen mitä on tekemässä.

Lisää kirjoituksia ympäristöstä: täällä