onsdag 29. februar 2012

Lagged scatterplot og autokorrelasjonskoeffisienter

Vi har tidligere sett på definisjonen av autokorrelasjonskoeffisient, se ligning (1) her.

Vi så at det er en sterk positiv autokorrelasjon mellom temperaturer i nabomåneder, noe som er forventet. Kalde måneder har en tendens til å etterfølge kalde måneder, og tilsvarende for varme måneder.

Men vi så også at det er en betydelig negativ autokorrelasjon mellom temperaturer ca 2,5 år fra hverandre i tid. Figur 1 i et tidligere innlegg viser 6 forskjellige lag autokorrelasjonskoeffisienter for tilsammen 265 tjue-års intervaller. Lag 29 måneders koeffisientene varierer mellom 0 og -0,3. I innlegget som du leser nå velger vi ut intervallet f.o.m. januar 1991 t.o.m. desember 2010 som et typisk intervall for nærmere analyse.

Lagged scatterplot
For hver tidsserie og hvert lag er autokorrelasjonskoeffisienten ett tall. Det er nyttig å se detaljer bak tallet, fordi mange forskjellige sammenhenger kan gi det samme tallet. Lagged scatterplot viser slike detaljer, og det gir mye innsikt i hva som ligger bak dette ene talllet. Figur 1 viser lagged scatterplot for lag 1, dvs. for nabomåneder. Figur 2 viser tilsvarende plot for lag 30, dvs. for måneder som er adskilt 2,5 år. Begge figurene viser residualene (restfeilene) etter at en lineær regresjonsanalyse er gjort på de månedlige NASA GISS temperaturene i 20-års intervallet fra 1991 til 2010.
Figur 1. Lag 1 måneds lagged scatterplot for de månedlige NASA GISS temperatune f.o.m. 1991 t.o.m. 2010.
Legend skjuler ingen blå punkter.

De blå punktene i figur 1 og 2 forklares best med et eksempel fra figur 1. Prikken lengst til høyre har horisontal verdi 0,50°C og vertikalverdi 0,21°C. Det betyr at residualet med verdi 0,50°C etterfølges av et residual på 0,21°C. Figuren sier ikke noe om hvor i x vektoren disse to residualene er. Den røde streken i figur 1 og 2 passer best mulig alle de blå punktene. En helning oppover, som i figur 1, viser en positiv autokorrelasjon, mens en helning nedover viser en negativ autokorrelasjon. 


Figur 1 viser en sterk positiv autokorrelasjen mellom temperaturresidualene i nabomåneder. Positive residualer etterfølges som oftest av positive residualer, og negative av negative. Det forrige innlegget viste at den positive autokorrelasjonen mellom nabomåneder er statistisk signifikant, noe som illustreres godt av figur 1. 
Figur 2. Lag 30 måneders (2,5 års) lagged scatterplot for de månedlige NASA GISS temperaturene f.o.m. 1991 t.o.m. 2010. Legend skjuler ingen blå punkter.
Figur 2 viser en svakere, men dog markert, negativ autokorrelasjon mellom temperaturresidualene i måneder 2,5 år fra hverandre i tid. Positive residualer har en tendens til å etterfølges av negative residualer 2,5 år senere, og omvendt. Det forrige innlegget viste at den negative autokorrelasjonen mellom måneder adskilt med ca 2,5 år er på grensen til å være statistsisk signifikant. Det stemmer med inntrykket vi får ved å betrakte figur 2.

De blå punktene i figur 1 og 2 viser ikke noe annet mønster enn tilfeldig støy overlagret en lineær trend. Dvs. at vi behøver ikke å søke etter mere kompliserte sammenhenger. Det er ikke alltid slik, noe som vises her under overskriften On the Importance of Scatterplots. Der står det bl.a. "The moral of these displays is clear: ALWAYS LOOK AT THE SCATTERPLOTS! The correlation coefficient is a numerical summary and, as such, it can be reported as a measure of association for any batch of numbers, no matter how they are obtained."

Den røde linjen i figur 1 (og tilsvarende for figur 2) er selv et resultat av en lineær regresjonsanalyse, men nå med residualer både som den uvhengige og den avhengige variabelen. Beregningen av helningen 0,609 i figur 1 er statistisk signifikant med p-verdi 0.000, mens beregningen av helningen -0,203 i figur 2 har p-verdi 0.08 og er derfor ikke statistisk signifikant. Det er ingen direkte sammenheng mellom disse signifikansberegningene og de som ble omtalt i det forrige avsnittet for autokorrelasjonskoeffisientene, men hvis de spriker for mye er det antagelig grunn til å sjekke nærmere. I vårt tilfelle ser vi ikke noe spesielt mønster i figur 1 og 2 utover tilfeldig støy overlagret en lineær trend, og det er derfor ikke overraskende at signifikansbetraktningene stemmer så nogenlunde.

Regresjonsanalysene bak den røde helningslinjen i figur 1 og 2 må ikke forveksles med trendanalysen som opprinnelig frembrakte residualene. Resultatet av denne opprinnelige trendanalysen er vist i figur 3.
Figur 3. Regresjonsanalyse av de månedlige NASA GISS temperaturene.
Den vertikale avstanden mellom punktene i den blå temperaturkurven og den røde trendlinjen er residualene (feilene) som er basis for figur 1 og 2.

Korrelogram med standardformel
Figur 1 og 2 viser detaljer bak lag 1 og lag 30 autokorrelasjonskoeffisientene med basis i trendanalysen vist i figur 3. Figur 4 viser alle autokorrelasjonskoeffisientene fra denne trendanalysen.
Figur 4. Korrelogram som viser alle autokorrelasjonskoeffisientene etter trendanalysen gjengitt i figur 3.

De tynne røde heltrukne strekene i figur 4 og i den kommende figur 5 er grenseverdiene for statistisk signifikans på 95% konfidensnivået. Koeffisientene er statistisk signifikante når de er utenfor båndet dannet av de to røde strekene.

Den røde helningslinjen i lagged scatterplot i figur 1 og 2 indikerer om det er noen autokorrelasjonen i temperaturserien, og evt.fortegnet på den. Men det er ikke direkte likhet mellom autokorrelasjonskoeffisienten i korrelogrammet i figur 4 og helningen til den røde linjen i figur 1 og 2. Det stemmer ganske bra for lag 1, der både helningen i figur 1 og verdien i figur 4 er 0,60. Men for lag 30 stemmer det dårlig. Helningn i figur 2 er -0,203 mens verdien i figur 4 er - 0,185. Forskjellen øker for større lag nummere, noe som skyldes at formlene for å beregne autokorrelasjon er forskjellig fra å beregne helningen i en lineær regresjonsanalyse. Formlene er gjengitt senere i dette innlegget.

Korrelogram med alternative formler
Beregningen av autokorrelasjonskoeffisientene i figur 4 er gjort med standardformelen som de fleste bruker. Korrelogrammet i figur 5 viser koeffisientene beregnet med 4 forskjellige formler, inkludert standardformelen.
Figur 5. Korrelogram beregnet med 4 forskjellige formler for autokorrelasjonskoeffisient.
Formlene benyttet i figur 5 er:

Symbolene i ligning (1) til (4) er:

r   Autokorrelasjonskoeffisient
k Lag nummer
N Antall temperaturer, månedlige eller årlige, som ingikk i trendberegningen.
x Vektor med de N temperaturresidualene (restfeilene) etter en trendberegning
n N - k
z De første n verdiene i x, dvs. x(1 : n)
y De siste n verdiene i x,   dvs. x(1+k : N)

x, y, og z med strek over er middelverdiene til de respektive vektorene.

Ligning (1) er standardformelen som forklart tidligere. Vi ser at telleren i ligning (1) blir mindre og mindre etterhvert som lag nummer k øker, mens nevneren er den samme. Det forklarer hvorfor standardformel-koeffisientene i figur 5 er små for store lag nummere.

Ligning (2) unngår reduksjonen ved store lag nummere ved å multiplisere formelen fra ligning (1) med N/(N-k). Ligning (2) omtales som den alternative formelen for autokorrelasjonskoeffisienten, bla. under overskriften Alternate estimate hos Wikipedia. Her blir også ligning (1) omtalt under overskriften Estimation of autocorrelations. På en annen nettside er ligning (2) beskrevet som den gamle måten å beregne koeffisienten på. En ulempe med ligning (2) er at den ikke garanterer at koeffisienten i absoluttverdi er mindre eller lik 1.

Ligning (3) er den vanlige formelen for å beregne korrelasjon mellom to vektorer z og y med lengde n, slik den bl.a. er beskrevet som formel 1 her.

Ligning (4) er formelen for å beregne helningen i lineær regresjonsanalyse, slik den bl.a. beskrives hos Wikipedia.  I figur 5 vises beregningen gjort med ligning 4 som sorte punkter i stiplet sort strek. Hvert sorte punkt har samme verdi som helningen til den røde trendlinjen i lagged scatterplot for aktuelt lag.

I praksis er det lag 1 måneds autokorrelasjonskoefisienten som benyttes når temperaturserier analyseres. Figur 5 viser at ligning (1) til (4) gir praktisk talt den samme lag 1 koeffisienten. Intuitivt virker det riktig at lag koeffisientene faller mot null for store lag nummere, slik de gjør med standardformelen. Dvs. at det er best å bruke standardformelen.

Ingen kommentarer:

Legg inn en kommentar