Ennustetarkkuuksien vertailu - Tämä blogi vastaan THL epidemiamallit

Samaan aikaan kun Suomen hallitus päätti poikkeusoloista koronaviruksen aiheuttaman epidemian vuoksi minä analysoin tilannetta. Tavoitteenani oli laatia realistinen ennuste epidemian kestosta ja tartuntojen määrästä Suomessa. Tässä tekstissä vertaan maaliskuun lopussa valmistuneiden epidemiaskenaarioiden tarkkuutta Suomen hallituksen käyttämiin malleihin 16.3.2020 Poikkeuslain voimaan saattamisessa sekä 25.3.2020 Uudenmaan sulkemisen yhteydessä. Jälkimmäisessä mallissa on mukana hidastamistoimien vaikutukset kun poikkeuslaki oli jo voimassa.
  • Vasen: Kuvissa näkyy kolme THL:n ja kolme ja kolme minun laatimaa skenaariota sekä tähän asti toteutuneet kokonaistartunnan määrät arvioituna todennäköisenä matala, keskitaso ja korkea määrä. Vasemman puolimmaisessa kuvassa näkyy lineaarisella asteikolla miten THL ennusteet erkanevat nopeasti toteumasta.
  • Oikea: Oikeanpuoleisessa kuvassa samat ennusteet ja toteuma on kuvattu logaritmisella asteikolla. Kuten kuvasta näkyy minun laatimat ennusteet seuraavat hyvin nykyisiä arvioita tartuntojen määrästä. Uskallan väittää että maaliskuussa laadituista ennusteista minun malleissani on paras ennustetarkkuus.
Ero ennustetarkkuudessa on kuin yöllä ja päivällä. THL mallin mukaan nyt pitäisi olla jopa 100 kertaa enemmän tartuntoja kuin mitä toteutui. Toisaalta allekirjoittaneen ennusteet seuraavat varsin hyvin toteutumaa.
Miten tarkat ennusteet syntyvät?

Hyvän ennustetarkkuuden saavuttamisen pohjautuu harvoissa tilanteissa ylivertaiseen ennustemalliin. Warren Buffettia lainatakseni tarkan ennusteen tekeminen on yksinkertaista mutta se ei ole helppoa. Olennaista on ymmärtää tarkkaan mitkä oletukset kestävät aikaa ja pitääkö epävarmuuden hallitsemiseksi vaihtaa oletuksia pitkin ennustejaksoa. Kirjoitin edellisessä tekstissä yleisemmin ennustemallien filosofiasta. 

Epidemioiden mallintamiseen on olemassa valmiita lukuisia malleja ja voisi jopa puhua mallikirjastoista. Mikäli ei ole pitkää kokemusta alalta tai virologian koulutustaustaa, olisi kyseenalaista yrittää kehittää omaa tapaa itse epidemian mallintamiseksi.

Päädyin käyttämään epidemian ensimmäiseen mallinnukseen yleisesti tunnettua differentiaaliyhtälöihin perustuvaa SEIR-mallia josta on verkossa avoimia simulaattoreita joilla parametrien kombinaatioita voi kokeilla. Kuten linkin takaa näkee niin SEIR-malli on matemaattisesti yksinkertainen differentiaaliyhtälö. Koska malli sisältää eksponttifunktion ("korkoa korolle") niin täytyy tarkasti arvioida kestävätkö tuon tarttuvuusluvun oletukset aikaa simulaatiojakson ajan.

Hyvän ennustetarkkuuden saavuttamiseksi olennaisin asia on siis ennustaa oletukset eli mallin parametrit mahdollisimman tarkasti. Sanon parametrien ennustaminen, koska oli maaliskuussa selvää, että mallin parametrit tulevat muuttumaan ajan suhteen ja samalla differentiaaliyhtälön kertoimet eivät enää ole vakioita. Varsinainen ennustetarkkuuden määrittävä tekijä ei siis tässä tapauksessa käytetäänkö SEIR-mallia vai jotain muuta, vaan onnistuuko kuvaamaan käytetyn mallin parametrit realistisesti ajan suhteen. 

Tämä ajan suhteen vaihtelun kuvaaminen oikein on helpommin sanottu kuin tehty koska maaliskuussa koronaviruksesta tiedettiin vielä melko vähän ja tieto oli hajanaista – eli voi sanoa että tiedon entropia oli korkea. Tietoa kuitenkin oli kasvava määrä, eli kyse oli lähinnä miten näitä eri tietoja saatiin hyödynnettyä ennustemallien parametrien estimoinnissa. 


Tilastomatemaattisesti tavoitteena on saada ennustemallin rungon muodostamat parametrit mallinnettua siten, että ne on johdettu kaikesta saatavilla olevasta datasta mahdollisimman pienellä epävarmuudella. Yksi matemaattinen lähestymistapa on Bayesin teoria tarkastella oletusten todennäköisyyksiä. Suuren epävarmuuden tilanteessa on erittäin hyödyllistä löytää toisistaan riippumattomia tietoja joista saman pääteltävän asian voi johtaa. Tämänkaltainen ristiintarkastelu vaatii oletusten kirkastamista, kirjoittamista auki ja testaamista matemaattisilla menetelmillä.


Historiantutkimuksessa pyritään löytämään riippumattomia lähteitä samasta aiheesta kun etsitään luotettavaa näkemystä tapahtumien kulusta. Datatieteessä saman voi kuvata siten, että parametrien estimoinnissa datan lähde ja siitä johdettu projektio on ortogonaalinen muihin estimointi-/projektiosuuntiin nähden tai että kovarianssi on nolla tai pieni luku.

Datatieteilyn yhteydessä puhutaan yleisesti feature engineeringistä kun redusoidaan data-avaruudesta ne tekijät, joiden varaan ennustemalli rakentuu. Datatieteen parissa voidaan puhua myös siirretystä oppimisesta tai federoidusta oppimisesta kun hyödynnetään toisilla datajoukoilla koulutettuja malleja tai tuodaan vahvoja oletuksia omaan ennustemalliin. 

Epidemiaennusteen kohdalla ennustetarkkuuden määritti käytännössä tarttuvuusluvun ennustaminen oikein ajan suhteen. Tarttuvuusluvun muutos on yhdistelmä monia asioita kuten politiikkatoimia ja ihmisten käyttäytymisen muutosta. Sekä politiikkatoimien vaikutuksesta sekä käyttäytymisen muutoksesta oli olemassa monenlaista dataa sekä tieteellisinä julkaisuina että moninaisina tietolähteinä alustayhtiöiden liikkuvuusdatan raporteista yksittäisiin laboratoriotuloksiin. Ennustetarkkuuden määritti se miten hyvin tämän vaikutuksen sai johdettua eri datalähteistä ja kuvattua Suomen epidemiamalliin.

Kun ennustemallin runkoparametrit on mallinnettu ajan suhteen niin on aika haarukoida eri lopputuloksia tarkastelemalla ennusteen herkkyyttä eri oletusten suhteen. Päädyin tuottamaan kolme skenaariota nimellä joista keskimmäistä pidin todennäköisimpänä Suomen epidemian kehityskulkua kuvaavana ennusteena.

Lähes aina kyse on pitää selkeänä:
1)    Ymmärrä ilmiö
a.     Jos et ymmärrä tätä, mikään ei auta
2)    Ymmärrä ennustemallin runko
a.     Mitkä tekijät selittävät ilmiön etenemisen ajan suhteen
b.     Pura ilmiö pääkomponentteihin ajan suhteen ja mieti eri tapoja johtaa arviot pääkomponenteille
3)    Etsi data
a.     Mitä raakadataa malli tarvitsee
4)    Onko mallisi robusti
a.     Mitkä ovat ilmiön ja parametrien kaikki mahdolliset riippumattomat validointikulmat
b.     Tämä vertautuu historian tutkimuksen riippumattomien lähteiden etsimiseen

Ennustemallin epävarmuuksista parhaiten saa palautetta kun oletukset on kuvattu yksinkertaisesti eikä niiden ymmärtäminen vaadi erityisosaamista.

Occamin partaveitsi suosittaa valitsemaan samaa ilmiötä selittävistä teorioista yksinkertaisimman. Suosittelen tätä samaa lähestymistapaa ennusteiden laatimisessa eli vaikka taustalla olisi monimutkaista matematiikkaa niin tavoitteena kannattaa olla kuvata yksinkertaisten oletuksien kautta tapasi hallita epävarmuutta.

Tekstiin liittyvä keskustelu Twitterissä.


Kommentit