Beregningen av p-verdi i det nevnte innlegget forutsetter at temperaturene er statistisk uavhengige av hverandre. Dvs. at den vertikale avstanden fra en temperaturmåling til trendlinjen er statistisk uavhengig av de tilsvarende avstandene for temperaturmålingene før og etter i tid. For de årlige temperaturene stemmer det ganske bra. Men for de månedlige temperaturmålingene stemmer det ikke. Hvis f.eks. temperaturen i februar ligger over trendlinjen, ligger vanligvis også temperaturene for både januar og mars også over. Vi ser det klart i figur 1.
Figur 1. NASA GISS månedlige temperaturavvik 1998 - 2010 |
I ligning (1) i innlegget Når er global oppvarming statistisk signifikant ? regnet vi ut standardfeilen til regresjonsanalysen. Der dividerte vi på antall frihetsgrader i beregningen, som ble satt til antall målinger N minus 2. Men pga. den sterke korrelasjonen mellom de månedlige nabomålingene har beregningen færre frihetsgrader enn det, fordi de N målingene ikke er statistisk uavhengige av hverandre. I ligningen må vi bruke antall statistisk uavhengige målinger, ofte betegnet som Neffektiv. Da blir standardfeilen til regresjonsanalysen større, og antall frihetsgrader som input til Student T sannsynlighetsfordelingen blir mindre. Begge deler bidrar til at beregnet p-verdi øker, dvs. til at beregnet statistisk signifikans blir dårligere.
Autokorrelasjonskoeffisient
Vi må etablere et mål for avhengigheten mellom nabomålingene for å vite hvor mye antall målinger N må reduseres for å få Neffektiv. Det gjøres ved å regne ut autokorrelasjonen til "feilene" til hver enkelt måling. "Feilen", heretter kalt residualet, til en måling er den vertikale avstanden fra målepunktet til trendlinjen. Beregningen av autokorrelasjonskoeffisientene gjøres med ligning (1), der x er en vektor med de N residualene.
I telleren i ligning (1) blir residual til måling i multiplisert med residualet til måling i+k, der i går gjennom verdiene fra 1 til N-k, og alle produktene blir summert. (Pluss tegnet + er litt utydelig i ligningen). Når k er 0, blir teller og nevner like, dvs. at r0 er alltid 1. Når k er 1, blir alle naboresidualene multiplisert med hverandre, og r1 er et godt mål for den statistiske avhengigheten mellom målingene. Hvis målingene er helt uavhengige av hverandre, vil både fortegnet og størrelsene til residualene variere helt tilfeldig, og r1 blir nær null. Hvis høye verdier gjerne etterfølges av høye verdier, og lave verdier gjerne etterfølges av lave verdier, blir r1 positiv. Jo sterkere koblingen er, jo nærmere 1 blir r1. Og tilsvarende, hvis lave verdier gjerne etterfølges av høye verdier, og omvendt, blir r1 negativ.
k i ligning (1) blir kalt lag. Dvs. at r1 er lag-1 autokorrelasjonskoeffisienten, r2 er lag-2 autokorrelasjonskoeffisienten, osv. Figur 2 viser autokorrelasjonskoeffisientene for de månedlige temperaturresidualene i figur 1.
Figur 2 Autokorrelasjonskoeffisientene til de månedlige temperaturresidualene i figur 1. |
Vi ser at lag-28 har en betydelig negativ verdi. Dvs. at når en måned er varm, så er det stor sansynlighet for at måneden 28 måneder senere er kald, og omvendt. Dette kunne vært tilfeldig for akkurat intervallet fra 1998 til 2010 for NASA GISS temperaturserien. Men som vi skal se i neste innlegg, går dette igjen for mange forskjellige intervaller og for alle temperaturseriene. Når det er 28 måneder mellom maks og min topper i temperaturen, må det være en naturlig syklisk variasjon med periodetid ca 2*28 måneder, dvs. ca. 4,5 år.
Figur 3 viser autokorrelasjonskoeffisientene for de årlige temperaturresidualene. Beregningene bak figur 3 er gjort for det samme intervallet og med den samme temperaturserien som for figur 2.
Figur 3 Autokorrelasjonskoeffisientene til de årige temperaturresidualene. |
Reduksjon av antall frihetsgrader
Så tilbake til hvordan antall målinger N skal reduseres for å få antall statistisk uavhengige målinger Neffektiv. Flere kilder, bl.a. Statistical issues Regarding Trends, referer til Santer et al. (2000) mht. hvordan Neffektiv skal beregnes. Formel (6) hos Santer et al. er gjengitt under som ligning (2). Vi velger å bruke Neffektiv både når standardfeilen til regresjonsanalysen beregnes og når Student T sannsynlighetsfordelingen brukes, noe som Santer et al. betegner som metode (AdjSE + AdjDF).
Effekten av autokorrelasjon i et eksempel
Figur 1 viser en trendberegning basert på månedlige temperaturer. Når vi ikke tar hensyn til autokorrelasjonen mellom de månedlige temperaturene, har beregningen 154 frihetsgrader, og p-verdien er 0.00001. Autokorrelasjonskoeffisienten r1 er 0,56, og når vi tar hensyn til autokorrelasjonen reduseres antall frihetsgrader til 41 og p-verdien stiger til den mere realistisk verdien 0.02441. Se mere detaljer i tabell 1.
Temperaturserie | Trend [ °C/år] | t-score | p-verdi | |
NASA GISS | Årlig | 0.0137 | 2.0845 | 0.06122 |
Månedlig Med AC | 0.0133 | 2.3368 | 0.02441 | |
Månedlig | 0.0133 | 4.5289 | 0.00001 | |
HadCRUT3 | Årlig | 0.0024 | 0.3938 | 0.70125 |
Månedlig Med AC | 0.0020 | 0.3564 | 0.72419 | |
Månedlig | 0.0020 | 0.8359 | 0.40451 | |
NCDC | Årlig | 0.0072 | 1.3913 | 0.19164 |
Månedlig Med AC | 0.0068 | 1.5821 | 0.12006 | |
Månedlig | 0.0068 | 2.8048 | 0.00568 |
Tabell 1. Temperaturtrend 1998 - 2010 med tilhørende p-verdi.
Med AC betyr at beregningen er gjort med justering av antall frihetsgrader pga. autokorrelasjonen mellom de månedlige temperaturene.
I forhold til tabellen i det tidligere nevnte innlegget er tabell 1 utvidet med radene der beregningene er gjort med justering for autokorrelasjon for de månedlige temperaturene. Å ta hensyn til autokorrelasjon for de månedlige temperaturene gjør beregnet p-verdi mere samsvarende med beregningene gjort basert på de årlige teemperaturene.
I fremtidige innlegg vil jeg ta hensyn til autokorrelasjonen i statistikk basert på de månedlige temperaturene, men ikke i statistikk basert på de årlige temperaturene.
Ingen kommentarer:
Legg inn en kommentar