Ennustemallien tieteellinen filosofia: datan ja oletusten liukuhihna

Yli kymmenen vuotta sitten kansainvälisessä tekoälyn ennusteita käsittelevässä konferenssissa keynote puhuja kritisoi voimakkaasti alaa siitä, ettei ennustemalleille oltu saatu aikaan kestävää tieteellistä pohjaa. Hän osoitti lukuisilla esimerkeillä miten samalla datalla ja samalla menetelmällä täysin eri tulokset menivät läpi julkaisuina laatulehtiin. Sama haaste on koskenut laajemmin kausaaliväitteitä esittäviä tieteellisiä julkaisuja.
  • Ennustemalli on datan liukuhihna jonka tarkoitus on johtaa tarkasteltavan ilmiön arvio mahdollisimman varmasti (tiivillä todennäköisyystiheysjakaumasta) monitahoisesta lähtödatasta. Oletuksia sisältyy datan poimintoihin, datan muunnoksiin ja mallin ja sen sisältämien parametrien toimintaan ajan suhteen.
  • Perusasiat on katsoa oletukset eli mitä dataa menee malliin sisään ja mitä tulee liukuhihnan päästä ulos ja kysyä lista oletuksista ja pyytää näistä herkkyystarkastelu.
Nyt epidemiaennusteiden kohdalla olemme mielestäni yhä samassa pisteessä kuin yli kymmenen vuotta sitten. Pääasiallinen tapamme arvioida ennusteita on "auktoriteetti X sanoo että ennuste on Y." Ennusteen perusteita ei tarvitse yleensä avata vaan luotetaan auktoriteetin osaamiseen. Entä läpinäkyvyys käytettyyn dataan, herkkyydet oletuksiin ja mitä tehdä kun ennustetarkkuus osoittautuu heikoksi?

Olen tehnyt töitä ennustemallien kanssa pari vuosikymmentä ja nähnyt niitä monenlaisia mukaanlukien satoja päätöksenteon automaatiohankkeita eri maissa. Koitan tässä tekstissä kuvata tieteenfilosofisen viitekehyksen ennustemallien arviointiin.
Vanhin viitekehys minkä sovelluksena ennustemalleja voi ajatella on mielestäni Platonin luolavertaus, jossa äärettömän monimutkaisesta maailmasta muodostetaan varjo seinälle josta ihmiset alkavat keskustella. Lopputulos on vaikkapa paljonko tartuntoja koronaviruksen epidemia tuottaa Suomeen kahden kuukauden päästä. Ennustemallin läpikotainen ymmärtäminen taas vastaa luolavertauksen vapautetun vangin paluuta luolaan ja näkemänsä kuvaamista niille jotka vain katsovat luolan seinää.

Toinen olennainen filosofinen reunaehto on Humen giljotiini - eli ennustemallin kohdalla datasta ei suoraan voi ehdottaa tiettyjä päätöksiä ilman että ennustemalliin on koodattu tietyt arvot mukaan. Päätöksenteko on yleisesti mahdollisen taidetta ja valinta eri tavoitteista johdettujen vaihtoehtojen välillä tapahtuu arvojen perusteella. Tiettynä ajanhetkenä on ikkuna hyväksyttäviä vaihtoehtoja päätöksistä. Päätöksenteon moniulotteisuutta ja mahdollisten vaihtoehtojen sidonnaisuutta aikaan näkee harvoin pohdittavan ennustemallien rakentajien kesken.

Matemaattisesti kyse on äärettömän moniulotteisesta datasta projektiolla yksinkertaistettu lopputulos. Kuten luolan seinällä kaksiulotteinen varjo, tällainen projektio poistaa yksityiskohtia ja esittää ilmiöstä vain tietyt piirteet. Tyypillisesti matematiikassa ratkaisulla on kaksi vaihetta: ensin tehdään muunnos (esim Z-muunnosKernel trick, jne) ja tämän jälkeen varsinainen ongelma ratkaistaan yksinkertaisemmalla matematiikalla. Esimerkkinä vaikkapa Googlen hakukoneen alkuperäinen nerokkuus on kuvata verkon kytkökset matriisina ja ratkaista sivujen merkitys ominaisarvovektorina sekä ratkaista sisällön relevanssi perinteisellä tiedonhaun menetelmillä.

Tilastomatemaattisesti lähtödatasta johdetaan oletuksien kautta ennustemallin lähtöparametrit ja ennustemalli tuottaa ennusteen. Yksi tapa ajatella oletuksia on Bayesin teoria eli millä todennäköidellä tilastollisia päätelmiä voi tehdä.  Lopputuloksen luotettavuus on siis yhdistelmä niitä lähtödatan pisteitä joista ennustemallin runkoparametrit on projisoitu sekä ennustemallin kyvystä mallintaa tarkasteltavaa ilmiötä. Ennustemallin lopputuloksen luotettavuus on yhdistelmä lähtödatan todennäköisyystiheyksiä, niistä johdettuja projektioita joilla parametrit tuotetaan ja mallin kykyä niiden perusteella simuloida tarkasteltavaa ilmiötä. Projektioihin liittyy oma todennäköisyystiheys ja kysymys siitä voiko esimerkiksi jäätelöiden syömisestä johtaa tiedon että on kesä.

Lopputuloksen luotettavuutta voi tarkastella informaatioteorian ja yleisen entropian kautta. Ennustemallin tavoite on tiivistää varmuus äärettömän moniulotteisesta lähtödatasta matalaksi entropiaksi eli suppeaksi todennäköisyystiheysjakaumaksi. Kun haetaan luotettavia ennustemallin parametrejä niin tyypillisesti lähtödatasta etsitään riippumattomia eli matemaattisesti sanottuna ortogonaalisia tarkastelukulmia tai datan lähtöpisteitä joiden välinen kovarianssi on lähellä nollaa. Kysymyksenä esimerkiksi onko ennustemallin parametrin todennäköisyystiheysjakauma useammasta riippumattomasta lähteestä tarkasteltuna samankaltainen ajan suhteen.

Tietoteknisesti voi puhua tiedon liukuhihnasta jossa vertauskohta on esimerkiksi taylorismiksi kutsuttu monimutkaisen lopputuotteen tuottaminen hajottamalla se vähemmän vaativiin vaiheisiin liukuhihnalla. Jokaisessa liukuhihnan kohdassa dataa saatetaan käsitellä oletuksilla ennen kuin ennustemallin lopputuotos valmistuu hihnan päästä. Kutakin oletusta vaiheissa pitäisi pystyä tarkastelemaan erikseen.

Näihin vaiheisiin liittyvien oletusten varmuutta voi tarkastella sen kautta mistä oppiminen on malliin siirretty. Tekoälytutkimus puhuu siirretystä oppimisesta tai yhdistyneestä oppimisesta kun kuvataan menetelmiä joilla oppiminen on omaan ennustemalliin muualta siirretty sen eri osa-alueisiin.

Riskienhallinan kautta tarkasteltuna ennustemallin luotettavuudessa oletetaan herkkyystarkastelua. Kyse on siitä mitkä täsmälleen ovat ennustemallin ja parametrien tuottamiseen liittyvät oletukset ja miten herkkä ennusteen lopputulos on näiden oletusten muutosten suhteen. Mistä kaikista kulmista oletuksia on tarkasteltu? Onko olemassa tapahtumia joiden toteutuminen muuttaa johtopäätöksen ja toimintaohjeet?

Siinä se mielestäni suunnilleen on: ennustemalli on datan liukuhihna jonka tarkoitus on johtaa tarkasteltavan ilmiön arvio mahdollisimman tiivillä todennäköisyystiheysjakaumasta tyypillisesti hyvin monitahoisesta lähtödatan avaruudesta. Perusasiat on katsoa mitä dataa menee malliin sisään ja mitä tulee liukuhihnan päästä ulos ja kysyä lista oletuksista ja pyytää näistä herkkyystarkastelu.


Kommentit