onsdag 29. februar 2012

Lagged scatterplot og autokorrelasjonskoeffisienter

Vi har tidligere sett på definisjonen av autokorrelasjonskoeffisient, se ligning (1) her.

Vi så at det er en sterk positiv autokorrelasjon mellom temperaturer i nabomåneder, noe som er forventet. Kalde måneder har en tendens til å etterfølge kalde måneder, og tilsvarende for varme måneder.

Men vi så også at det er en betydelig negativ autokorrelasjon mellom temperaturer ca 2,5 år fra hverandre i tid. Figur 1 i et tidligere innlegg viser 6 forskjellige lag autokorrelasjonskoeffisienter for tilsammen 265 tjue-års intervaller. Lag 29 måneders koeffisientene varierer mellom 0 og -0,3. I innlegget som du leser nå velger vi ut intervallet f.o.m. januar 1991 t.o.m. desember 2010 som et typisk intervall for nærmere analyse.

Lagged scatterplot
For hver tidsserie og hvert lag er autokorrelasjonskoeffisienten ett tall. Det er nyttig å se detaljer bak tallet, fordi mange forskjellige sammenhenger kan gi det samme tallet. Lagged scatterplot viser slike detaljer, og det gir mye innsikt i hva som ligger bak dette ene talllet. Figur 1 viser lagged scatterplot for lag 1, dvs. for nabomåneder. Figur 2 viser tilsvarende plot for lag 30, dvs. for måneder som er adskilt 2,5 år. Begge figurene viser residualene (restfeilene) etter at en lineær regresjonsanalyse er gjort på de månedlige NASA GISS temperaturene i 20-års intervallet fra 1991 til 2010.
Figur 1. Lag 1 måneds lagged scatterplot for de månedlige NASA GISS temperatune f.o.m. 1991 t.o.m. 2010.
Legend skjuler ingen blå punkter.

De blå punktene i figur 1 og 2 forklares best med et eksempel fra figur 1. Prikken lengst til høyre har horisontal verdi 0,50°C og vertikalverdi 0,21°C. Det betyr at residualet med verdi 0,50°C etterfølges av et residual på 0,21°C. Figuren sier ikke noe om hvor i x vektoren disse to residualene er. Den røde streken i figur 1 og 2 passer best mulig alle de blå punktene. En helning oppover, som i figur 1, viser en positiv autokorrelasjon, mens en helning nedover viser en negativ autokorrelasjon. 

mandag 27. februar 2012

Når er autokorrelasjonskoeffisient statistisk signifikant ?

Dette innlegget handler om statistisk signifikans for autokorrelasjonskoeffisienter, og det vurderer koeffisientene presentert i det forrige innlegget i så henseende. Jeg bruker formel for statistisk signifikans hentet fra et forelesningsnotat skrevet av Dave Meko fra University of Arizona.

Nullhypotesen
Som vanlig i signifikanstesting operer vi med en nullhypotese og en alternativ hypotese.

Nullhypotesen er at dataene ikke har noen iboende autokorrelasjon, og at det bare er tilfeldig støy på dataene som gjør en  beregnet autokorrelasjonskoeffisient forskjellig fra null. Nullhypotesen antar at temperaturresidualene etter en trendberegning er normalfordelte.

Den alternative hypotesen er at dataene har en iboende autokorrelasjon, og at det ikke er tilfeldig støy som gjør en beregnet autokorrelasjonskoeffisient forskjellig fra null. En beregnet autokorrelasjonskoeffisient er statistisk signifikant hvis det er mindre enn 5% sannsynlig at data uten en iboende autokorrelasjon gir en i tallverdi like stor eller større autokorrelasjonskoeffisient.

Konklusjon
Dette innlegget inneholder detaljer om statistikk og simuleringer som mange nok ikke er så interesserte i. Derfor starter jeg med konklusjonen mht. statistisk signifikans for autokorrelasjonskoeffisientene beregnet i det forrige innlegget.

Det forrige innlegget viste at lag 1 til 5 måneders autokorrelasjonskoeffisientene er positive, mens lag 30 måneders autokorrelasjonskoeffisientene er negative, alt når vi analyserer 20 års temperaturserier. Innlegget som du leser nå viser at:
  • Lag 1 til 5 måneders koeffisientene er alle statistisk signifikante med veldig god margin. Dvs. at det skyldes ikke tilfeldig støy på temperaturmålingene at det er sammenheng mellom temperaturene innenfor ca et halvt år. Sagt med andre ord; en varm eller kjølig periode varer gjerne minst et halvt år.
  • Lag 30 måneders koeffisientene er på grensen til å være statistisk signifikante. For noen 20-års intervaller er 30 måneders koeffisienten statistisk signifikant, og for andre er den det ikke. Dvs. at det med ca 95% sannsynlighet er en iboende autokorrelasjon i global temperatur som tilsier at en varm periode etterfølges av en kjølig periode ca 2,5 år senere.
  • Autokorrelasjonskoeffisientene regnet ut basert på de årlige temperaturseriene er langt unna å være statistisk signifikante.

mandag 6. februar 2012

Autokorrelasjonskoeffisienter i temperaturserier

Det forrige innlegget handlet om autokorrelasjon i de månedlige temperaturseriene, og om hvordan vi kan justere for autokorrelasjon når vi vurderer statistisk signifikans for en beregnet trend. I innlegget skrev jeg at det er nødvendig med denne justeringen når vi regner på de månedlige temperaturene, men ikke når vi regner på de årlige temperaturene. Det begrunnes nærmere i innlegget som du leser nå. Jeg skrev også at det i de månedlige temperaturseriene er en negativ autokorrelasjon mellom måneder som ligger drøye 2 år fra hverandre i tid. Dvs. at når en måned er varm, så er det sannsynlig at måneden drøye 2 år tidligere var kald, og omvendt.  I det forrige innlegget viste jeg ett eksempel på det, og i innlegget som du leser nå vil jeg vise at det gjelder generelt for de siste 40 årene for NASA GISS, HadCRUT3, NCDC og BEST temperaturseriene.