mandag 27. februar 2012

Når er autokorrelasjonskoeffisient statistisk signifikant ?

Dette innlegget handler om statistisk signifikans for autokorrelasjonskoeffisienter, og det vurderer koeffisientene presentert i det forrige innlegget i så henseende. Jeg bruker formel for statistisk signifikans hentet fra et forelesningsnotat skrevet av Dave Meko fra University of Arizona.

Nullhypotesen
Som vanlig i signifikanstesting operer vi med en nullhypotese og en alternativ hypotese.

Nullhypotesen er at dataene ikke har noen iboende autokorrelasjon, og at det bare er tilfeldig støy på dataene som gjør en  beregnet autokorrelasjonskoeffisient forskjellig fra null. Nullhypotesen antar at temperaturresidualene etter en trendberegning er normalfordelte.

Den alternative hypotesen er at dataene har en iboende autokorrelasjon, og at det ikke er tilfeldig støy som gjør en beregnet autokorrelasjonskoeffisient forskjellig fra null. En beregnet autokorrelasjonskoeffisient er statistisk signifikant hvis det er mindre enn 5% sannsynlig at data uten en iboende autokorrelasjon gir en i tallverdi like stor eller større autokorrelasjonskoeffisient.

Konklusjon
Dette innlegget inneholder detaljer om statistikk og simuleringer som mange nok ikke er så interesserte i. Derfor starter jeg med konklusjonen mht. statistisk signifikans for autokorrelasjonskoeffisientene beregnet i det forrige innlegget.

Det forrige innlegget viste at lag 1 til 5 måneders autokorrelasjonskoeffisientene er positive, mens lag 30 måneders autokorrelasjonskoeffisientene er negative, alt når vi analyserer 20 års temperaturserier. Innlegget som du leser nå viser at:
  • Lag 1 til 5 måneders koeffisientene er alle statistisk signifikante med veldig god margin. Dvs. at det skyldes ikke tilfeldig støy på temperaturmålingene at det er sammenheng mellom temperaturene innenfor ca et halvt år. Sagt med andre ord; en varm eller kjølig periode varer gjerne minst et halvt år.
  • Lag 30 måneders koeffisientene er på grensen til å være statistisk signifikante. For noen 20-års intervaller er 30 måneders koeffisienten statistisk signifikant, og for andre er den det ikke. Dvs. at det med ca 95% sannsynlighet er en iboende autokorrelasjon i global temperatur som tilsier at en varm periode etterfølges av en kjølig periode ca 2,5 år senere.
  • Autokorrelasjonskoeffisientene regnet ut basert på de årlige temperaturseriene er langt unna å være statistisk signifikante.

Teori
Dave Meko notatet angir i sin formel (14) grenseverdiene for at autokorrelasjonskoeffisient rk er statistisk signifikant på 95% nivået. Formelen er gjengitt under som ligning (1).
N er antall verdier (dvs. temperaturer) i måleserien, og k er lag nummeret.

En beregnet koeffisient er statistisk signifikant hvis den er større enn øvre grense eller mindre enn nedre grense bestemt av ligning (1). Figur 1 viser hvordan rk(95%) varierer med N for lag 1, lag 15 og for lag 30. Når antall verdier er 240, som tisvarer månedlige temperaturer i 20 år, er grenseverdiene -0,13 og 0,12 for lag 1, og de er -0,14 og 0,13 for lag 30.
Figur 1. Grenseverdier for når beregnet autokorrelasjonskoeffisient er statistisk signifikant.

Autokorrelasjon er sykliske variasjoner i temperaturene. Men temperaturene har også en tilfeldig støy i seg som ikke skyldes sykliske variasjoner. Den tilfeldige støyen er IKKE med i ligning (1). Det kom overraskende på meg, og derfor sjekket jeg det med simuleringer.

Simuleringer
Jeg simulerte månedlige temperaturer for 20 år, dvs. totalt 240 temperaturer. I simuleringene lå det inne en oppvarming på 0,01 °C/år og en tilfeldig hvit støy. For hver simulering regnet jeg ut autokorrelasjonskoeffisientene for lag 1 til lag 70. Dette gjentok jeg mange ganger, regnet ut middelverdi og standardavvik på de beregnete koeffisientene, og plotet middelverdi og 2 ganger standardavviket. Dette gjorde jeg for 3 forskjellige nivåer på den hvite støyen. Normalt støynivå  har standardavvik på 0,1 °C, lavt støynivå 0,05 °C og høyt støynivå 0,15 °C. Figur 2 viser resultatet av 50 simulering for hver av de 4 støynivåene.
Figur 2.  Resultat av simuleringer uten sykliske variasjoner og med 3 forskjellige støynivåer.
Middelverdi av autokorrelasjonskoeffisientene er tegnet med hel strek, mens middelverdi +- 2 ganger standardavviket er tegnet med stiplet strek.

Grenseverdiene gitt av ligning (1) er tegnet inn med tykk sort stiplet strek (H0). I følge teorien om normalfordelingen skal ca. 95% av de beregnete koeffisientene ligge innefor middelverdi +- 2 ganger standardavviket. I følge forklaringen til ligning (1) er det 5% sjanse for at beregnete autokorrelasjonskoeffisienter ligger på utsiden av grenseverdiene beregnet med ligningen, forutsatt at det ikke er autokorrelasjon i dataene. Figur 2 viser at dette stemmer nesten overraskende bra. Når jeg øker antall simuleringer til f.eks. 50000, blir middelverdiene liggende oppå hverandre langs nullstreken, og de stiplete +- 2 ganger sigma kurvene blir liggende oppå den sorte stiplete streken. Jeg velger å vise figur 2 med bare 50 simuleringer for å få litt liv i figuren og for å unngå at linjer tegnes oppå hverandre.

Som skrevet tidligere ble jeg overrasket over at grensene for 95% signifikans ikke er avhengige av støynivået på temperaturene. Men støyen betyr mye når det virkelig ER autokorrelasjon i temperaturdataene. Jeg gjentok simuleringene vist i figur 2, men nå også med en syklisk variasjon med amplitude 0,1 °C og periodetid 10 år lagt oppå temperaturene. Jeg kjørte en simulering uten hvit støy i tillegg til de nettopp omtalte 3 støynivåene. Figur 3 viser resultatet.
Figur 3.  Resultat av simuleringer med sykliske variasjoner og med 4 forskjellige støynivåer.
Uten støy er r1 praktisk talt lik 1. Det er som forventet; endringene fra måned til måned er liten med en periodetid på 10 år. Koeffisienten når sin største negative verdi for lag 60 (5 år, dvs. halve periodetiden). Med periodetid 10 år er temperaturer adskilt med 5 år i motfase, derfor denne store negativ autokorrelasjonen.

Koeffisienten er null ved lag 31. Da ser vi noe av det samme som vist i figur 2; det er liten avstand mellom de stiplete kurvene for +- 2 ganger standardavviket.

Figur 3 viser at det er vanskelig å beregne autokorrelasjon i temperaturserier med mye støy. Det er intuitivt forståelig, for autokorrelasjonen drukner litt i støyen. Men figur 2 viser at støyen ikke blir tolket som autokorrelasjon når det ikke er noen autokorrelasjon i temperaturene (brun, blå, grønn og rød strek krysser nullinjen samme sted).

Statistisk signifikans for virkelige temperaturserier
Det forrige innlegget viste at det er en sterk positiv autokorrelasjon mellom globale temperaturer som er adskilt i tid med noen måneder, men det viste ikke noe om statistisk signifikans.

Med ligning 1 kan vi regne ut at autokorrelasjonen er signifikant for lag opp t.o.m. 6 måneder. Figur 4 viser koeffisientene for lag 6 måneder sammen med signifikansgrensen.
Figur 4.  Lag 6 måneder autokorrelasjonskoeffisientene for mange 20 års intervaller.
Alle er større enn øvre signifikansgrense, dvs. at alle er statistisk signifikante.

Det forrige innlegget viste også at det er en klar negativ autokorrelasjon mellom global temperatur som er adskilt i tid med ca 2,5 år, men uten å vise noe om statistisk signifikans. Det gjøres under i figur 5, som viser koeffisientene for lag 29 måneder sammen med den nedre signifikansgrensen.
Figur 5.  Lag 29 måneder autokorrelasjonskoeffisientene for mange 20 års intervaller.
For 20 års intervallene som slutter mellom 1995 og 2011 varierer lag 29 månederes koeffisienten omkring den nedre signifikansgrensen. Vi kan derfor ikke hevde at den klare negative autokorrelasjonen mellom temperaturer adskilt med ca 2,5 år er statistisk signifikant.


Det forrige innlegget viste at autokorrelasjonen mellom de årlige temperaturene er mindre enn mellom de månedlige temperaturene. Figur 6 viser at de årlige autokorrelasjonskoeffisientene er så små at de er langt unna å være statistisk signifikante. De har hele tiden vesentlig mindre tallverdi enn signifikansgrensene.
Figur 6  Lag 1 år autokorrelasjonskoeffisienter for mange 20 års intervaller.

Innlegget før det forrige avsluttet med teksten: "I fremtidige innlegg vil jeg ta hensyn til autokorrelasjonen i statistikk basert på de månedlige temperaturene, men ikke i statistikk basert på de årlige temperaturene." Dette handlet om lag 1 koeffisienten, som brukes til å redusere antall effektive frihetsgrader når vi regner på statistisk signifikans (p-verdi) for trender beregnet med lineær regresjonsanalyse. Innlegget som du leser nå viser at det er en fornuftig konklusjon. Lag 1 måned koeffisientene er statistisk signifikante og bør derfor tas hensyn til, men lag 1 år koeffisientene ikke er det.

Ingen kommentarer:

Legg inn en kommentar