mandag 30. januar 2012

Autokorrelasjon i temperaturserier

I innlegget Når er global oppvarming statistisk signifikant ? gikk jeg gjennom ligningene som avgjør om en beregnet temperaturtrend er statistisk signifikant. I tabell 1 i det nevnte innlegget regnet jeg ut p-verdien for trenden fra 1998 til 2010 beregnet både på grunnlag av de årlige og de månedlige temperaturene. Det var mye lettere å få statistisk signifikans med de månedlige temperaturene enn med de årlige temperaturene. Jeg konkluderte med å bruke p-verdien regnet ut basert på de årlige temperaturene, både fordi jeg så at andre gjør det og fordi p-verdien basert på de årlige temperaturene var mest troverdig.

Beregningen av p-verdi i det nevnte innlegget forutsetter at temperaturene er statistisk uavhengige av hverandre. Dvs. at den vertikale avstanden fra en temperaturmåling til trendlinjen er statistisk uavhengig av de tilsvarende avstandene for temperaturmålingene før og etter i tid. For de årlige temperaturene stemmer det ganske bra. Men for de månedlige temperaturmålingene stemmer det ikke. Hvis f.eks. temperaturen i februar ligger over trendlinjen, ligger vanligvis også temperaturene for både januar og mars også over. Vi ser det klart i figur 1.
Figur 1.  NASA GISS månedlige temperaturavvik 1998 - 2010
I resten av innlegget går jeg gjennom hvordan vi kan kompensere for mangelen på statistisk uavhengighet.

I ligning (1) i innlegget Når er global oppvarming statistisk signifikant ? regnet vi ut standardfeilen til regresjonsanalysen. Der dividerte vi på antall frihetsgrader i beregningen, som ble satt til antall målinger N minus 2. Men pga. den sterke korrelasjonen mellom de månedlige nabomålingene har beregningen færre frihetsgrader enn det, fordi de N målingene ikke er statistisk uavhengige av hverandre. I ligningen må vi bruke antall statistisk uavhengige målinger, ofte betegnet som Neffektiv. Da blir standardfeilen til regresjonsanalysen større, og antall frihetsgrader som input til Student T sannsynlighetsfordelingen blir mindre. Begge deler bidrar til at beregnet p-verdi øker, dvs. til at beregnet statistisk signifikans blir dårligere.

Autokorrelasjonskoeffisient

Vi må etablere et mål for avhengigheten mellom nabomålingene for å vite hvor mye antall målinger N må reduseres for å få Neffektiv. Det gjøres ved å regne ut autokorrelasjonen til "feilene" til hver enkelt måling. "Feilen", heretter kalt residualet, til en måling er den vertikale avstanden fra målepunktet til trendlinjen. Beregningen av  autokorrelasjonskoeffisientene gjøres med ligning (1), der x er en vektor med de N residualene.
I telleren i ligning (1) blir residual til måling i multiplisert med residualet til måling i+k, der i går gjennom verdiene fra 1 til N-k, og alle produktene blir summert. (Pluss tegnet + er litt utydelig i ligningen). Når k er 0, blir teller og nevner like, dvs. at r0 er alltid 1. Når k er 1, blir alle naboresidualene multiplisert med hverandre, og r1 er et godt mål for den statistiske avhengigheten mellom målingene. Hvis målingene er helt uavhengige av hverandre, vil både fortegnet og størrelsene til residualene variere helt tilfeldig, og r1 blir nær null. Hvis høye verdier gjerne etterfølges av høye verdier, og lave verdier gjerne etterfølges av lave verdier, blir r1 positiv. Jo sterkere koblingen er, jo nærmere 1 blir r1. Og tilsvarende, hvis lave verdier gjerne etterfølges av høye verdier, og omvendt, blir r1 negativ.

k i ligning (1) blir kalt lag. Dvs. at r1 er lag-1 autokorrelasjonskoeffisienten, r2 er lag-2 autokorrelasjonskoeffisienten, osv. Figur 2 viser autokorrelasjonskoeffisientene for de månedlige temperaturresidualene i figur 1.

Figur 2  Autokorrelasjonskoeffisientene til de månedlige temperaturresidualene i figur 1.
Vi ser at lag-1 autokorrelasjonen er større enn de påfølgende lag autokorrelasjonene, og at den er positiv. Det er som forventet; når en måned er varm er det stor sansynlighet for at også nabomånedene er varme, og tilsvarende for kalde måneder.

Vi ser at lag-28 har en betydelig negativ verdi. Dvs. at når en måned er varm, så er det stor sansynlighet for at måneden 28 måneder senere er kald, og omvendt. Dette kunne vært tilfeldig for akkurat intervallet fra 1998 til 2010 for NASA GISS temperaturserien. Men som vi skal se i neste innlegg, går dette igjen for mange forskjellige intervaller og for alle temperaturseriene. Når det er 28 måneder mellom maks og min topper i temperaturen, må det være en naturlig syklisk variasjon med periodetid ca 2*28 måneder, dvs. ca. 4,5 år.

Figur 3 viser autokorrelasjonskoeffisientene for de årlige temperaturresidualene. Beregningene bak figur 3 er gjort for det samme intervallet og med den samme temperaturserien som for figur 2.
Figur 3  Autokorrelasjonskoeffisientene til de årige temperaturresidualene.
Figur 3 viser at lag koeffisientene for de årlige temperaturresidualene er mere tilfeldig enn for de månedlige temperaturene. Det er tilsvarende for de andre temperaturseriene og for andre intervaller. Dvs. at de årlige temperaturene er ganske uavhengige av hverandre, og vi kan derfor forsvare å sette antall uavhengige målinger lik antall målinger, dvs. ikke å modifisere for autokorrelasjonen mellom de årlige temperaturene. Det neste innlegget vil inneholde plot som begrunner dette bedre.

Reduksjon av antall frihetsgrader

Så tilbake til hvordan antall målinger N skal reduseres for å få antall statistisk uavhengige målinger  Neffektiv. Flere kilder, bl.a. Statistical issues Regarding Trends, referer til Santer et al. (2000) mht. hvordan Neffektiv skal beregnes. Formel (6) hos Santer et al. er gjengitt under som ligning (2). Vi velger å bruke Neffektiv både når standardfeilen til regresjonsanalysen beregnes og når Student T sannsynlighetsfordelingen brukes, noe som Santer et al. betegner som metode (AdjSE + AdjDF).
Effekten av autokorrelasjon i et eksempel

Figur 1 viser en trendberegning basert på månedlige temperaturer. Når vi ikke tar hensyn til autokorrelasjonen mellom de månedlige temperaturene, har beregningen 154 frihetsgrader, og p-verdien er 0.00001. Autokorrelasjonskoeffisienten r1 er 0,56, og når vi tar hensyn til autokorrelasjonen reduseres antall frihetsgrader til 41 og p-verdien stiger til den mere realistisk verdien 0.02441. Se mere detaljer i tabell 1.

Temperaturserie Trend [ °C/år] t-score p-verdi

NASA GISS
Årlig 0.0137 2.0845 0.06122
Månedlig Med AC 0.0133 2.3368 0.02441
Månedlig 0.0133 4.5289 0.00001

HadCRUT3
Årlig 0.0024 0.3938 0.70125
Månedlig Med AC 0.0020 0.3564 0.72419
Månedlig 0.0020 0.8359 0.40451

NCDC
Årlig 0.0072 1.3913 0.19164
Månedlig Med AC 0.0068 1.5821 0.12006
Månedlig 0.0068 2.8048 0.00568

Tabell 1.  Temperaturtrend 1998 - 2010 med tilhørende p-verdi. 
Med AC betyr at beregningen er gjort med justering av antall frihetsgrader pga. autokorrelasjonen mellom de månedlige temperaturene.

I forhold til tabellen i det tidligere nevnte innlegget er tabell 1 utvidet med radene der beregningene er gjort med justering for autokorrelasjon for de månedlige temperaturene. Å ta hensyn til autokorrelasjon for de månedlige temperaturene gjør beregnet p-verdi mere samsvarende med beregningene gjort basert på de årlige teemperaturene.

I fremtidige innlegg vil jeg ta hensyn til autokorrelasjonen i statistikk basert på de månedlige temperaturene, men ikke i statistikk basert på de årlige temperaturene.

Ingen kommentarer:

Legg inn en kommentar