Datapisteiden synkeän elämän julmaa matematiikkaa

Joulun kunniaksi olen pohtinut, miten lannistavaa olisi olla datapiste. Yksinkertaisessakin tutkimuksessa voi tulla miljoonia datapisteitä. Lopuksi niistä survotaan kaava, joka on muotoa Y= A + B*X1. Jokainen piste haluaisi päästä A:ksi A:n paikalle; vain yksi pääsee, muut tuomitaan ikuiseen kadotukseen. Mitä elämää se sellainen oikein on?

Ajatus on tullut mieleen, kun olen murskannut tämänhetkisen projektini numeroita. Projektin päämäärä ja yksityiskohdat eivät ole tässä olennaisia (ovatko ne muuallakaan, on makukysymys).  Siinä ajelutettiin noin sata ihmistä ajosimulaattorin läpi. Jokainen ajo kesti lähes tunnin. Dataa on tallennettu kymmenen kertaa sekunnissa.

Koska simulaattoriaika on kallista, ajosuorituksista tallennettiinn kaikki mahdollinen. Ajajasta tallennettiin noin kolmekymmentä parametriä. Lisäksi pidettiin kirjaa siitä, missä muut simulaation objektit ovat. Objekteja on noin viisikymmentä, ja kaikista tallennettiin kahdeksan parametriä. Jokaisella rivillä oli siis yli 500 numeroa. Kymmenen kertaa sekunnissa tunnin ajan tarkoittaa, että jokaisesta kuskista tallennettiin lähes 20 miljoonaa numeroa.

Yhteensä projektin aikana kerättiin siis lähes 2 miljardia datapistettä.

Näiden miljardien tragedia on siinä, että melkein kaikki niistä tapettiin ennen kuin ne edes näkevät päivänvalon. Kuskin toimintaa mittaavat 30 parametriä sentään vaivauduttiin ottamaan talteen. Muista objekteista sen sijaan tallennettiin vain etäisyystieto; yhteensä 50 numeroa riviltä. Ensimmäisen teurastuksen läpäisi siis vain 10% luvuista, eli 90% joutui heti datapisteiden taivaaseen. 200 miljoonaa datapistettä jäljellä.

Käyttökelpoisia tienpätkiä oli lopulta noin neljäsosa: 50 miljoonaa datapistettä. Tässä vaiheessa alkoi selvitä, mitkä parametrit ylipäätään ovat analyysissä tärkeitä. Viisikymmentä tallannetua parametriä voitiin tiivistää hieman yli kymmeneen. Kymmenen miljoonaa datapistettä jäljellä. Näiden tallennusvälilä pystyttiin vielä harventamaan, pyöristämällä sijainnit lähimpään täyteen metriin. Varsinaiseen dataprässiin päätyi enää nelisen miljoonaa datapistettä (400,000 mittausta, jokaisessa 10 parametriä).

Prässissä kokeiltiin erilaisia menetelmiä, mm lineaarisia monimuuttujamalleja. Loppujen lopuksi kuitenkin yksinkertaisin oli parasta: kuskit keskiarvoistettiin, niin että sadasta koehenkilöstä saatiin survottua yksi “keskimääräinen” kuski. Noin 99% datapisteistä koki siis irvokkaan keskiarvoistuskuoleman, menettäen kaiken sen yksilöllisyyden joka tekee numerosta numeron.

Tässä vaiheessa jäljellä oli siis 4000 mittausta, jokaisessa kymmenen parametriä. Pyörittely osoitti, että näistä vain yksi oli lopulta tärkeä (riippuva muuttuja Y), ja sen pystyi parhaiten selittämään kaksi riippumatonta muuttujaa (X1 ja X2).

Koko tutkimustulos tiivistyi siis kaavaksi

  Y = A + B*X1 + C*X2.

Toisin sanoen, tehtäväksi jäi määritellä kolme vakiota (A,B,C). Tämä siis oli koko prosessin loppputulos: kolme numeroa. Alun kahdesta miljardista. Ja tämä kaikki vain siksi, että pari akateemista nörttiä saisi taas yhden julkaisun lisää.

Jotta nöyryytys olisi täydellinen, näissä vakioissa on vain kaksi merkitsevää desimaalia, kun alkuperäinen data kerättiin vähintään kuuden merkitsevän desimaalin tarkkuudella. Numero on onnellinen, kun se on tarkka; jokaisen desimaalin menetys on kuin kadottaisi raajan.

Voin verrata tätä suoraan omaan elämääni. Tilastojen perusteella maailmassa on noin 3.5 miljardia työikäistä ihmistä, eli vajaa kaksi miljardia miestä. Tässä kilpailussa meidät laitettaisiin toistuvasti valtavan tehosekoittimen läpi. Häviäjät valutettaisiin viemäriin, voittajia mössättäisiin taas uudelleen. Lopussa papukaijamerkin saisivat ne kolme, joista on vielä jotakin jäljellä.

(Teoriassa voisi toki ajatella, että palkinnoksi jäisivät ne lähes kaksi miljardia työikäistä naista jotka nyt olisivat vapailla markkinoilla. Mutta moniraaja-amputaatiohalvaantunelle se on lähinnä akateeminen ilo).

Oma elämä ei tunnukaan enää yhtä kurjalta, kun tätä miettii. Yhtä mitättömältä toki. Mutta on silti parempi olla yksi joskus osittain terve Ö monien joukossa kuin ainoa täysrampa A ei kenenkään joukossa.

Lisää outoa matematiikkaa: WeirdMath.

 

Talvivaara 32: Unohtuuko humaanisuus?

 

Virallinen media on viimeinkin esittänyt Talvivaarasta oikean kysymyksen: toimiiko prosessi? Ks Ylen eilinen MOT-ohjelma. Olin itse Suomen luonnonsuojeluliiton kokoamassa ryhmässä, joka kirjoitti myös ohjelmassa mainitun kriittisen raportin (ks Talvivaara 30; itse raportti täällä). MOT piti raporttia uskottavana. Onko tämä ryhmälle voitto? Ei oikeastaan. Kaiken tämän mediakuumotuksen takaa helposti unohtuu, että Talvivaarassa kukaan ei “voita”.

Yhtiö on ehkä ollut megaluokan vedätys, mutta varsinaisia vedättäjiä lienee vain kourallinen. Uhreja taas on tuhansia tai kymmeniä tuhansia, ja alueen luonto. (Lisäksi asiaa penkovalta heikkenee väistämättä luottamus lailliseen järjestelmään, mikä on todellinen menetys sekin). En ole perumassa sanaakaan hyytävästä kritiikistä, jota olen esittänyt Talvivaara-sivuillani. Tässä tilanteessa on kuitenkin kyettävä olemaan myös humaani.

Juuri tähän tilanteeseen sopii Luonnonsuojelija-lehdessä tällä viikolla julkaistu kolumnini, jonka lehden luvalla julkaisen myös tässä.

Mitä Talvivaarassa oikein tapahtuu?

[Julkaistu Luonnonsuojelija-lehdessä 2.12.2013]

Talvivaaran tilanne on tätä kirjoittaessani vielä täysin auki: Yritys on hakenut velkasaneeraukseen, mutta ei ole tietoa, pääseekö se siihen. Tässä vaiheessa selvää on ainoastaan se, että tilanne ei ole kenenkään kontrollissa. Kaoottinen tilanne tulee jatkumaan vielä pitkään. Näyttää melko selvältä, että Kainuun maakunta tulee kärsimään monella tasolla: ympäristöllisellä, taloudellisella, ja inhimillisellä.

Mikä Talvivaarassa sitten meni pieleen? Tähänkään kysymykseen tuskin saadaan vastausta pitkään aikaan, jos koskaan. Syyllisten etsiminen on sinällään täysin turhaa. Olennaisempaa on estää tilanteen toistuminen. Tässä vaiheessa on selvää lähinnä se, että koko koneisto on pettänyt.

On realismia, että kaivosala rasittaa aina luontoa. Toisaalta suomalainen yhteiskunta tarvitsee metalleja. Ympäristöluvilla ja valvonnalla yhteiskunta pääseekin määrittelemään, kuinka paljon ympäristöhaittoja se on valmis sietämään metalleja saadakseen. Jos luvat myönnetään asiantuntevasti, valvonta on tiukkaa ja osapuolet toimivat lainmukaisesti, saadaan kompromissi, jonka kanssa pystytään elämään.

Talvivaarassa tämä kokonaisuus ei toiminut. Kaivoksella on ollut ympäristöongelmia käytännössä koko toiminnan ajan. Hajuhaittoja, sulfaattipäästöjä, allasvuotoja, raskasmetalleja, jätevesiä, vuotavia patoja, sadeongelmia, kuivuusongelmia. Lupien myöntämisvaiheessa on ollut sekavuutta. Valvontaviranomaiset näyttävät olleen voimattomia estämään ympäristön pilaantumista. Poliisi tutkii asiaa – kovilla rikosnimikkeillä.

Talvivaara on vähintäänkin opetus siitä, että jos kaivosalalla syntyy ympäristöongelmia, ne voivat räjähtää käsiin nopeasti. Lakeja ja käytäntöjä on pakko muuttaa, jos halutaan säilyttää käsite ”vastuullinen kaivosteollisuus”. Ennen muuta viranomaisilla on jatkossa oltava paremmat edellytykset puhaltaa peli poikki, jos tilanne alkaa lipsua hallinnasta. Kaivosalalle on myös luotava järjestelyjä, joissa massiivisillekin ympäristövahingoille löytyy aina selkeä maksaja.

Itse toivon, että valtiolta löytyy myös vastuullisuutta tukea Kainuun maakuntaa siinä kaoottisessa tilanteessa, joka sillä on edessä. Talvivaaran katastrofi ei ole tavallisten kainuulaisten vika, ja tämäntyyppisissä tilanteissa koko yhteiskunnan on tultava vastaan.

Jakke Mäkelä (FT) on Suomen Luonnonsuojeluliiton hallituksen jäsen.

Translate »