mandag 21. november 2011

Usikkerhet i BEST temperaturserie

I det forrige innlegget skrev vi om Berkeley Earth Surface Temperature, BEST, og viste plot med utgangspunkt i BEST. Vi skrev at BEST har beregnet månedlige temperaturavvik fra middelverdien i perioden 1950 - 1979, og at de har estimert en 95% konfidensintervall usikkerhet for hvert månedlige avvik. De har gjort det for perioden januar 1800 til mai 2010, som vist i figur 1.

Figur 1. BEST temperaturavvik fra perioden 1950 - 1979 og beregnet 95% konfidens usikkerhet

BEST bruker ikke selv usikkerheten i figur 1 som vekt når de beregner årlige temperaturavvik, og jeg gjorde det derfor heller ikke selv i det forrige innlegget. Nå vil vi se nærmere på usikkerhetene.

Først zoomer vi inn figur 1 til bare å inneholde data etter 1950. Temperaturavikene for april og mai 2010 er beregnet bare på grunnlag av målestasjoner i Antarktis, og har derfor en usikkerhet på nesten 3°C. De virker bare forstyrrende, så derfor lar vi mars 2010 være siste måned i figur 2.

Figur 2. BEST temperaturavvik zoomet inn for perioden 1950 - mars 2010

Mange av plotene i de tidligere innleggene viser trend i temperaturutviklingen med benevning °C/år. De er beregnet med standardfunksjoner for lineær regresjonsanalyse. Figur 3 er et eksempel på dette, der vi har beregnet trenden mellom januar 1980 og mars 2010 basert på BEST.
Figur 3. Trend i BEST temperaturavvik for intervallet 1980 til mars 2010
De vertikal differansene i figur 3 mellom de blå månedlige temperaturene og den røde regresjonslinjen kalles residualer. Standardfunksjonene for lineær regresjonsanalyse beregner en trendlinje som minimaliserer summen av kvadratet av alle residualene. Dvs. at standardfunksjonene tar ikke hensyn til usikkerheten som hver temperatur er beregnet med. For å gjøre det, måtte jeg utvide programmet til å minimalisere summen av kvadratet av alle residualene delt på deres usikkerhet. Usikkerhetene i figur 1 er for 95% konfidensintervall, som tilsvarer 2-sigma usikkerhet. I beregningen brukte jeg 1-sigma usikkerhet, dvs. halvparten av usikkerheten i figur 1. Jeg skrev programmene slik at jeg lett kan skifte mellom å bruke usikkerheten som vekt eller la det være, dvs. beregne som før med standardfunksjonene. Jeg sammenlignet mange trendberegninger med og uten bruk av usikkerheten som vekt. Vektingen forhindret at det store avviket i april 2010 "ødela" trendberegningen for korte intervaller frem til mai 2010, men ellers var det ikke mulig å se at vektingen forbedret beregnet trend. Jeg så at beregnet standardfeil til regresjonen (se ligning 1 her) noen ganger økte og andre ganger ble mindre når jeg benyttet vekting i trendberegningen, mens jeg forventet at den som oftest skulle bli mindre. Jeg fikk mistanke om at det ikke er noen sammenheng mellom  kvaliteten på en månedlig temperatur og dets usikkerhet. Jeg plotet derfor sammenhengen mellom usikkerhet og residual når trenden var beregnet uten å ta hensyn til usikkerheten. Resultatet er i figur 4.
Figur 4. Sammenheng mellom residual og usikkerhet  for trendberegning 1980 - mars 2010

Residualene er estimerte feil på de månedlige temperaturavvikene. Figur 4 viser at det ikke er korrelasjon mellom store feil og høy usikkerhet. Det forklarer hvorfor jeg ikke syntes at resultatene ble bedret når jeg tok hensyn til usikkerhetene. Det forklarer også hvorfor BEST selv beregner de årlige middelverdier uten å ta hensyn til de månedlige usikkerhetene. Jeg velger derfor å fortsette med normalt ikke å bruke usikkerhetene som vekt i beregningene, og jeg vil si klart fra når jeg evt. gjør det.

Så langt i innlegget har vi sett på bruk av usikkerhetene ved trendberegning. Usikkerhetene kan også brukes når vi beregner glidende middelverdier. Da får månedlige temperaturer med liten usikkerhet større vekt enn månedlige temperaturer med stor usikkerhet. Vi bruker 1/variansen som vekt i midlingen, der variansen er kvadratet av 1-sigma usikkerhet. Se mere detaljer i Wikipedia. Men manglende korrelasjon mellom usikkerhet og reell nøyaktighet, som vist i figur 4, gjør at vi ikke har forhåpning om et bedre resultat ved å bruke usikkerhetene.

Figur 5.  11 års vektet glidende middel for intervallet januar 1950 til mars 2010.
I figur 5 har vi beregnet 11 års glidende vektet middelverdi. Tilsvarende kurve for den vanlige middelverdien uten bruk av vekting er ganske lik, og det er derfor ikke nødvendig å vise den her. Det er mere interessant å vise differansen mellom vektet og uvektet middelverdi, se figur 6.

Figur 6. Differanse mellom vektet og uvektet 11-års flytende middelverdi.
BEST velger selv ikke å vekte når de beregner de årlige glidende middelverdiene. Jeg har ikke sett en begrunnelse for valget, men figur 4 er kanskje en god kandidat ?

Ingen kommentarer:

Legg inn en kommentar