mandag 6. februar 2012

Autokorrelasjonskoeffisienter i temperaturserier

Det forrige innlegget handlet om autokorrelasjon i de månedlige temperaturseriene, og om hvordan vi kan justere for autokorrelasjon når vi vurderer statistisk signifikans for en beregnet trend. I innlegget skrev jeg at det er nødvendig med denne justeringen når vi regner på de månedlige temperaturene, men ikke når vi regner på de årlige temperaturene. Det begrunnes nærmere i innlegget som du leser nå. Jeg skrev også at det i de månedlige temperaturseriene er en negativ autokorrelasjon mellom måneder som ligger drøye 2 år fra hverandre i tid. Dvs. at når en måned er varm, så er det sannsynlig at måneden drøye 2 år tidligere var kald, og omvendt.  I det forrige innlegget viste jeg ett eksempel på det, og i innlegget som du leser nå vil jeg vise at det gjelder generelt for de siste 40 årene for NASA GISS, HadCRUT3, NCDC og BEST temperaturseriene.

Autokorrelasjon mellom temperaturmålinger nær hverandre i tid
Figur 1.  Autokorrelasjonskoeffisienter for månedlige NASA GISS temperaturer

Først vil jeg si litt generelt om figurene som vises i dette innlegget.

Vertikal akse er autokorrelasjonskoeffisient rk, slik den er definert i ligning (1) i det forrige innlegget. k er lag nummer. Lag nummer 1 er spesielt interessant, fordi den kan brukes for å beregne antall statistisk uavhengige målinger i en måleserie.

Vi må regne ut en trend i et tidsintervall før vi kan regne ut autokorrelasjonskoeffisientene. I alle figurene i dette innlegget har jeg benyttet 20 års trendintervaller. Det er et valg; jeg kunne like gjerne benyttet 10 års trendintervaller, men det ville gitt mere støy i resultatene. Horisontal akse i figurene angir slutten av 20 års intervallene. Første tidsverdi på horisontal akse i figur 1 er desember 1989. Her er autokorrelasjonskoeffisientene for trendintervallet f.o.m. januar 1970 t.o.m. desember 1989 plottet inn. Neste tidsverdi i figuren er januar 1990, der koeffisientene basert på trendintervallet f.o.m. februar 1970 t.o.m. januar 1990 er plottet inn. Vi fortsetter slik opp til det siste intervallet, som dekker perioden f.o.m. januar 1992 t.o.m. desember 2011. Tilsammen er dette 265 tidsintervaller. For hvert av dem er det gjort en trendberegning med påfølgende beregning av autokorrelasjonskoeffisientene.

Så til tolkningen av figur 1. Lag-1 måned koeffisientene er ganske stabile omkring 0,6. Dvs. at det for alle de 265 tidsintervallene er en klar sammenheng mellom temperaturene i nabomånedene. Koeffisientene blir mindre og mindre etter hvert som lag nummer blir større. Selv lag-5 måned koeffisientene er stabile, varierende rundt 0,3. Dvs. at når en måned er varm, så er det sansynlig at også månedene 5 måneder før og 5 månerder senere er varme, og tilsvarende for kalde måneder. Linjene for lag-1 til lag-5 er som forventet, men kanskje mere stabile enn hva jeg på forhånd hadde trodd.

Lag-29 måned autokorrelasjonskoeffisientene er negative, noe jeg kommer tilbake til i figur 5, der lag-29 koeffisientene for alle de 4 temperaturseriene er plottet inn.

Figur 2 viser lag-1 måned koeffisientene for mange temperaturserier. De er regnet ut for de samme tidsintervallene som i figur 1.
Figur 2.  Lag 1-måned autokorrelasjonskoeffisientene foe de 4 temperaturseriene
NASA GISS, HadCRUT3 og NCDC har store og stabile lag-1 måned koeffisienter. Koeffisientene for BEST er mindre, og de varierer litt mere. Det er naturlig at BEST skiller seg litt ut, fordi den temperaturserien jo ikke tar med temperaturen over verdenshavene.

Et senere innlegg viser at autokorrelasjonskoeffisientene i figur 2 er statistisk signifikante med veldig god margin. Dvs. at det er mye mindre enn 5% sannsynlig at tilfeldig støy på en måleserie uten autokorrelasjon kan gi like store koeffisienter.

De to neste figurene viser autokorrelasjonskoeffisientene regnet ut basert på årlige temperaturserier. Figur 3 tilsvarer figur 1 og figur 4 tilsvarer figur 2.
Figur 3. Autokorrelasjonskoeffisienter for årlige NASA GISS temperaturer

Figur 4.  Lag-1 år autokorrelasjonskoeffisientene for de 4 temperaturseriene.
Et senere innlegg viser at ingen av autokorrelasjonskoeffisientene i figur 3 og 4  er statistisk signifikante.

Figur 2 og 4 anskueligjør beslutningen min i det forrige innlegget om å ta hensyn til autokorrelasjonen i statistikk for de månedlige temperaturseriene, men ikke for de årlige temperaturseriene. Lag-1 måned koeffisientene er stabile, store og statistisk signifikante; mens lag-1 år koeffisientene er små, varierer mye og er ikke statistisk signifikante.

Autokorrelasjon mellom temperaturmålinger med drøye 2 års avstand i tid.

Figur 1 viste lag-29 måneders autokorrelasjonskoeffisientene beregnet på grunnlag av NASA GISS. Figur 5 viser denne koeffisienten for alle de 4 temperaturseriene.
Figur 5   Lag-29 måneder autokorrelasjonskoeffisientene for de 4 temperaturseriene
Det er veldig god overenstemmelse mellom temperaturseriene. Når en måned er varm, er det sannsynlig at månedene 29 måneder både før og etter er kalde, og omvendt. Det samme gjelder selvfølgelig også for månedene 28 måneder før og etter, 30 måneder før og etter, osv. Men den negative autokorrelasjonen er sterkest når vi bruker 29 måneder som tidsdifferanse. Det vil selvfølgelig variere med hvilke tidsintervaller vi ser på, så vi må ikke henge oss opp i akkurat 29 måneders tidsdifferanse. Det er nok riktigere å si at temperaturdataene siden 1970 har en ganske sterk negativ autokorrelasjon når vi ser på temperaturer med ca 2½ års tidsdifferanse.

Når det er klar negativ autokorrelasjon mellom temperaturer med ca  2½ års tidsdifferanse, må det i tidsperioden 1970 til 2011 være naturlige variasjoner som summert opp har en  periodetid ca 5 år. Denne summen er overlagret den globale oppvarmingen.

Et senere innlegg viser at autokorrelasjonskoeffisientene i figur 5 er på grensen til å være statistisk signifikante.

Konklusjon

Det er interessant å arbeide med autokorrelasjon i temperaturserier. Ved å justere for autokorrelasjon når vi regner statistisk signifikans for temperaturtrender basert på månedlige temperaturer, får vi mere realistsike p-verdier for trendene, og de samsvarer ganske bra med tilsvarende p-verdier regnet ut basert på de årlige temperaturene. Uten justering for autokorrelasjon er p-verdiene regnet ut basert på de månedlige og de årlige temperaturene totalt forskjellige.

Det er interessante å se den sterke positive autokorrelasjonen mellom temperaturmålinger med noen måneders mellomrom. Det er som forventet. Men den klare negative autokorrelasjonen for temperaturmålinger med ca  2½ års tidsdifferanse kom mere overraskende på meg.

Jeg har stor sans for Jo Røsliens elegante forklaringer på statistiske problemstillinger i NRK programmet Siffer. Det har også forsker Hans Olav Hygen, noe han gir utrykk for her. I det innlegget belyser han forskjellen mellom vær og klima ved å vise en video fra Siffer der en mann lufter hunden sin. Hunden virrer frem og tilbake på hver side av mannens stødige kurs. Hunden representerer været og mannen klimaet. Videoen er en visualisering av autokorrelasjon i avstanden fra mannens stødige kurs til hundens virring. Når hunden er til venstre for den stødige kursen, er det sansnynlig at den er det like etterpå også (positiv autokorrelasjon). Men etter en viss tid er det sannsynlig at hunden er på motsatt side av mannens stødige kurs (negativ autokorrelasjon). Hundens virring er nok mest styrt av hva den oppdager på sin ferd, men det er sannsynlig at den, etter å ha vært på en side en stund, virrer over til motsatt side.

1 kommentar:

  1. Innlegget hadde opprinnelig bare antagelser basert på magefølelsen om statistisk signifikans for autocorrelasjonskoeffisientene. Basert på informasjon fra det neste innlegget har jeg nå skrevet når de er statistisk signifikante. Kort sagt var den opprinnelige magefølelsen riktig.

    SvarSlett