onsdag 9. september 2020

Klima ─ Bayesiansk vs frekventistisk tankegang

Dette er tredje og siste innlegg i en miniserie om betinget sannsynlighet og Bayes teorem. Det første innlegget, Betinget sannsynlighet – Bayes teorem, går lett gjennom matematikken. Det andre innlegget, Tolke medisinske tester, bruker Bayes teorem for å tolke medisinske tester statistisk. De to innleggene bruker bayesiansk tankegang.

Tidligere innlegg, dvs. før de to nettopp nevnte, handler mye om statistisk behandling og tolkning av målinger i klimasammenheng. Det er gjort bl.a. i en serie på fem innlegg om Linear regression analysis og i en serie på seks innlegg om Statistical analysis of data with outliers. Disse to seriene, og innlegg som anvender statistikken som de beskriver, bruker en såkalt frekventistisk tankegang.

Bayesiansk og frekventistisk tankegang er på mange måter forskjellige. Statistikere har tildels delt seg i to leirer, slik Ivar Heuch beskriver i artikkelen Striden mellom bayesianere og frekventister om idégrunnlaget for statistiske slutninger. Artikkelen er fra 2008, og i avslutningen skriver Heuch at han tror at det i fremtiden vil etableres en bedre balanse mellom bayesianske og frekventistiske angrepsmåter, og at begge retningene vil finne sin plass i idégrunnlaget for statistikkfaget. 

Jeg synes at forskjellen mellom bayesiansk og frekventistisk tankegang formuleres fint i en forelesning fra UIO, Bayesian modelling of time series. Utgangspunktet er en hypotese og en måleserie. Med frekventistisk tankegang spør vi Hva er sannsynligheten for å få en slik måleserie gitt at hypotesen er riktig ? Med bayesiansk tankegang spør vi Hva er sannsynligheten for at hypotesen er riktig gitt måleserien ? I resten av innlegget vil jeg konkretisere denne forskjellen med et eksempel der måleserien er global temperatur gjennom ti år og hypotesen er at global gjennomsnittstemperatur stiger.

Den såkalte pausen i global oppvarming

Gjennomsnittlig global overflatetemperatur varierer fra år til år, men trenden over mange år er stigende. Det er vanlig å bruke 30 år som 'mange år', og med den tidslengden har trend med start hvert år siden midten av 1970-tallet vært statistisk signifikant stigende. De naturlige variasjonene ligger overlagret denne jevnt stigende trenden. 1997 og 1998 var uvanlig varme. Deretter fulgte cirka 15 år der temperaturen ikke steg nevneverdig. Temperaturutviklingen i disse årene blir omtalt som pausen.

Pausen i frekventistisk tankegang

En frekventist beregner temperaturtrenden over en periode. Han setter så opp to hypoteser. Den ene er at temperaturen endrer seg med tiden. Den andre hypotesen, nullhypotesen, er at temperaturvariasjonene er tilfeldige uten en underliggende trend. Basert på en temperaturserie beregner vi en trend og sannsynligheten for at vi kunne fått en i tallverdi like stor eller større trend gitt at nullhypotesen er riktig. Hvis denne sannsynligheten er mindre enn fem prosent, forkaster vi nullhypotesen og sier at temperaturutviklingen er statistisk signifikant stigende eller synkende. Beregningene baserer seg bare på den tilgjengelige temperaturserien, og i avgjørelsen om temperaturstigning er statistisk signifikant tar vi ikke hensyn til annen informasjon.

WMO definerer Klima som gjennomsnittlig vær gjennom 30 år. Derfor må vi beregne trenden over minst 30 år. Da er det ingen pause etter 1998. Det har jeg skrevet om tidligere på bloggen, se innlegget There is no pause in global warming. Men det forhindret ikke klimafornekterne på starten av 2010-tallet fra å beregne trend fra 1998 frem til da. I det tidsrommet økte ikke global overflatetemperatur statistisk signifikant. De erkjente at den gjorde det frem til 1998, men hevdet at det skyldtes naturlige variasjoner uten noen underliggende stigende trend. Det kunne jo, i følge dem, ikke skyldes våre CO2 utslipp, for de hadde jo vært rekordhøye i årene etter 1998. Problemet med denne fremgangsmåten er at de kunne gjennomføre beregningene sine uten å ta hensyn til annen informasjon enn den aktuelle temperaturserien.

Pausen i bayesiansk tankegang

En fordel med den bayesianske tankegangen er at en må ta hensyn til kunnskapen som foreligger før den aktuelle temperaturserien undersøkes. Det er priori kunnskapen. I den kunnskapen ligger innbakt, blant mye annet, den kraftige temperaturstigningen frem til starten på pausen. I boken The Signal and the Noise bruker Nate Silver pausen som et eksempel på at vi må benytte eksisterende kunnskap når vi vurderer nye målinger. Eksemplet gjengis på nettsiden Bayes' theorem and Climate Change. Notasjonen i ligningen for betinget sannsynlighet på den nettsiden er den samme som i den midterste linjen i ligning (3) i det tidligere innlegget Betinget sannsynlighet – Bayes teorem. Ligningen en er gjengitt under. Se innlegget for nærmere forklaring. Kort oppsummert: p() leses som sannsynligheten for, │ leses som gitt, og ¬ er logisk negasjonsoperator og leses som ikke.

A er hypotesen at global overflatetemperatur øker. B er måleserien som viser at global temperatur ikke har steget på et drøyt tiår.

Regneeksempel med pausen i global temperaturstigning

p(A) er vår priori kunnskap om utviklingen av global temperatur. Basert på mange målinger, fysikk og modeller er det stor sannsynlighet for at global temperatur stiger. Vi setter p(A) lik 97 prosent. p(¬A) er da 3 prosent.

p(B│A) er sannsynligheten for å få et drøyt tiår uten temperaturstigning selv om hypotese A er sann. Både modeller og tidligere observasjoner tilsier at det kan skje pga. naturlige variasjoner i bl.a. havstrømmer. Sannsynligheten er ikke så stor. Vi setter den lik 10 prosent.

p(B│¬A) er sannsynligheten for å få et drøyt tiår uten temperaturstigning når hypotese A ikke er sann, dvs. når global temperatur ikke stiger. Da er det like sannsynlig å få et tiår med temperaturstigning som et tiår med temperaturnedgang. Men sannsynligheten er størst for at temperaturen ikke endrer seg så mye på ti år. Så vi setter p(B│¬A) lik 55 prosent.

Når vi setter disse verdiene inn i ligningen over blir p(A│B) lik 85 prosent, som vi kaller posteriori sannsynlighet for at A er sann. Måleserien har redusert sannsynligheten for at hypotese A er sann fra 97 til 85 prosent. Når neste måleserie eller observasjon skal behandles, vil denne posteriori sannsynligheten bli brukt som priori sannsynlighet.

Regneeksempel med tidlig blomstring

Nettsiden som jeg nettopp refererte til, gjengir flere eksempler på slike nye målinger og/eller observasjoner. Jeg hopper til den siste av disse. Utgangspunktet nå er at priori sannsynlighet er 85 prosent for at global temperatur stiger. Dvs. at p(A) er 85 og p(¬A) er 15 prosent. 

Om våren ser vi at plantene jevnt over blomstrer tidligere enn før over hele Jorden. Det er nesten sikkert at det skyldes høyere vårtemperaturer. Vår hypotese A er at middeltemperaturen gjennom hele året stiger. Vi antar at det er 66 prosent sannsynlig at temperaturen om våren stiger når gjennomsnittstemperaturen gjør det, dvs. at p(B│A) er 66 prosent. Temperaturen om våren kan stige selv om gjennomsnittet gjennom hele året ikke gjør det, men sannsynligheten for det er ikke så stor. Vi antar at den bare er 10 prosent, dvs. at p(B│¬A) er 10 prosent.

Når vi setter disse verdiene inn i ligningen over blir p(A│B) litt over 97 prosent. Dvs. at den nye observasjonen har økt sannsynligheten for at hypotesen om stigende global temperatur er sann til omtrent til der den var før vi regnet på pausen i temperaturstigningen.

Noen personlige kommentarer

Jeg synes at den bayesianske tankegangen i eksemplene i det forrige innlegget med medisinske tester er uovertruffen. 

Men i klimaeksemplene i dette innlegget synes jeg at den bayesianske tankegangen virker litt søkt. I de eksemplene må en før selve statistikkberegningen tallfeste sannsynligheter som jeg tror at det er veldig vanskelig å gjøre det for.

Ett av argumentene mot den klassiske statistikken er at den ikke tar med annen eksisterende kunnskap. Det kan være greit nok så lenge en er klar over det.

Analyse av temperaturdata med klassisk statistikk viser at temperaturserien må strekke seg over mye mer enn 15 år for å få stabile trender som ikke er for mye påvirket av naturlige variasjoner. For kort tidsserie er det relevante argumentet mot å trekke konklusjoner pga pausen, og jeg synes at det er bedre enn å anvende usikre resultater i Bayes teorem.

Forelesningen fra UIO som jeg tidligere refererte til, har et pragmatisk forhold til spørsmålet om når bayesiansk og frekventistisk tankegang er best. Jeg synes at det er fornuftig.

Ingen kommentarer:

Legg inn en kommentar