fredag 22. juni 2012

Durbin-Watson test for autokorrelasjon

Jan-Erik Solheim, Kjell Stordahl og Ole Humlum (SSH) predikterer sterkt fallende temperatur i tiåret som vi er inne i nå [1, 2]. De bruker Durbin-Watson testen for å sjekke om prediksjonene svekkes av autokorrelasjon i dataene, noe de mener ikke skjer. De forrige innleggene mine er om prediksjonene til SSH, som jeg mener er ekstremt usannsynlige. Nå går jeg gjennom Durbin-Watson testen og SSH's buk av den. 


SSH slår seg til ro med OK verdier fra Durbin-Watson testen selvom enkle vurderinger av dataene tilsier at modellen deres ikke lenger fungerer. I innlegget som du leser nå viser jeg plot som visualiserer disse enkle vurderingene.

Innlegget er delt opp i 4 deler.

1.    Durbin-Watson testen og statistisk signifikant autokorrelasjon.
2.    Konsekvensen av autokorrelasjon for konfidensintervallet rundt en prediksjon.
3.    Durbin-Watson testen anvendt på en typisk temperaturserie.
4.    Durbin-Watson testen anvendt på Anscombes kvartett.


1.    Durbin-Watson testen og statistisk signifikant autokorrelasjon

Durbin-Watson testen gjøres etter en regresjonsanalyse for å sjekke om det er statistisk signifikant autokorrelasjon i residualene. Durbin-Watson verdien regnes ut vha. ligning (1), der N er antall observasjoner og ei er residualet (feilen) til observasjon nummer i. Residualet ei er vertikal avstand mellom observert yi og beregnet regresjonskurve ved xi. I lineær regresjonsanalyse er regresjonskurven en rett linje. Index i er observasjonsnummer. I mange sammenhenger øker x verdien for hver ny observasjon, eksempelvis når x er tiden. Men x øker ikke alltid når i øker, som vi skal senere skal se eksempler på.
d er ca 2 når det ikke er autokorrelasjon i observasjonene. Ved positiv autokorrelasjon vil en positiv feil ved observasjon i sannsynligvis etterfølges av en positiv feil ved observasjon i+1. Vi ser av ligning (1) at da vil d reduseres, dvs. bli mindre enn 2. Ved negativ autokorrelasjon vil en positiv feil ved observasjon i sannsynligvis etterfølges av en negativ feil ved observasjon i+1. Tilsvarende ser vi at det øker verdien på d, dvs. den blir større enn 2. d er alltid mellom 0 og 4.


En positiv autokorrelasjon i observasjonene er statistisk signifikant når d er mindre enn en kritisk grense dC. Den kritiske grensen avhenger selvfølgelig av signifikansnivået og av antall observasjoner, slik vi er vant til i andre sammenhenger. Men dC avhenger også av dataene. Derfor angir statistikktabellene en nedre verdi dL og en øvre verdi dU. dC ligger et sted mellom disse. Når d er mindre enn dL, er det statistisk signifikant positiv autokorrelasjon. Når d er større enn dU og mindre enn (4-dU), er det ikke statistisk signifikant autokorrelasjon. Når d er mellom dL og dU, eller mellom (4-dU) og (4-dL,er det usikkert om autokorrelasjonen er statistisk signifikant. Når d er større enn (4-dL), er det statistisk signifikant negativ autokorrelasjon.

Jeg simulerte veldig mange sett med 11 observasjoner, jeg regnet ut d for hver av dem, og jeg sammenlignet hver d med dL og dU. I utgangspunktet la jeg y verdiene på en regresjonslinje med helning 0.5 uten autokorrelasjon i observasjonene. Forventet verdi av d var derfor 2. Jeg la så en normalfordelt hvit støy på y verdiene, noe som skapte støy på d. d verdiene fordelte seg som vist i figur 1. Det var størst sannsynlighet for å få d i nærheten av 2, men fordelingskurven ble ganske bred. Figuren har 4 vertikale sorte streker. De to til venstre er ved x lik 0,93 og 1,32, som er dL og dU for α lik 0,05. De to strekene til høyre er ved (4-dU) og (4-dL).
Figur 1  Sannsynlighetstetthetsfunksjon for Durbin-Watson verdien når det er tilfeldig støy, men ikke autokorrelasjon i temperaturene. Kurven er generert med simulerte temperaturer. Andre simuleringsparametere kan gi en litt annen kurve. 

4,4% av de beregnete d verdiene ligger i det røde området i figur 1. For disse settene med xy observasjoner viser d at det er statistisk signifikant autokorrelasjon, selv om det det ikke er autokorrelasjon i prosessen som dataene kommer fra. Det er støyen som har “lurt oss”.

76,8% av d verdiene ligger i det grønne området i figur 1. For disse settene med xy observasjoner viser d helt korrekt at det ikke er autokorrelasjon i dataene.

18,8% av d verdiene er i det gule området. For disse settene med xy observasjoner er vi usikre på om det er en statistisk signifikant autokorrelasjon i dataene.

Nullhypotesen sier at det ikke er autokorrelasjon i observasjonene, mens den alternative hypotesen sier at det er autokorrelasjon i dem. Med α lik 0,05 skal det være 5% sannsynlighet for å forkaste nullhypotesen når den er korrekt. Det stemmer bra med prosentsatsene i min simulering, der nullhypotsen jo er korrekt. Den virkelige dC ligger mellom dL og dU.

Når d verdien fra ligning (1) viser statistisk signifikant autokorrelasjon, er det all grunn til å tvile på om modellen med en enkel regresjonslinje er OK. Men det er desverre ikke omvendt. Det understrekes på flere nettsteder. Dataene må vurderes nøye fra flere synsvinkler selvom testen sier at det ikke er statistisk signifikant autokorrelasjon.

2.    Konsekvensen av autokorrelasjon for konfidensintervallet rundt en prediksjon

I et tidligere innlegg diskuterte jeg effekten av autokorrelasjon i bestemmelsen av statistisk signifikans for helningen som ble beregnet i en lineær regresjonsanalyse. Der definerte vi autokorrelasjonskoeffisient i ligning (1). Når det er autokorrelasjon i dataene, er ikke observasjonene uavhengige av hverandre. Derfor reduserte vi antall observasjoner N til et effektivt antall uavhengige observasjoner, som vist i ligning (2) i det nevnte innlegget.

I innlegget som du leser nå, vil jeg diskutere effekten av autokorrelasjon på konfidensintervallet rundt en prediksjon beregnet på grunnlag av en regresjonsanalyse.

I innlegget Konfidensintervall for estimat og prediksjon gikk jeg gjennom ligningene som beregner standardfeil (ligning 3, 4 og 5) og konfidensintervall (ligning 6) til prediksjoner og estimater. Antall målinger N inngår i begge beregningene. For å ta hensyn til autokorrelasjon kan vi redusere antall observasjoner N til et effektivt antall uavhengige observasjoner, og deretter bruke den reduserte N i ligningene. Reduksjonen gjøres med ligning (1) og (2) i det tidligere nevnte innlegget. Reduksonen gjør både standardfeilene og konfidensintervallene større. Konfidensintervallene blir større både fordi standardfeilen blir større og fordi et redusert antall frihetsgrader gir et større percentil i Student T sannsynlighetsfordelingen.

Jeg ser at SSH er inne på de samme tankene i [2], men de går ikke i detaljer. De diskuterer problemstillingen bare for temperaturserier der Durbin-Watson testen viser statistisk signifikant autokorrelasjon, men uten å regne ut nye konfidensintervall.

SSH legger vekt på at de alltid subtraherer 3 fra antall målinger for å få antall frihetsgrader. Det vanlige er å subtrahere 2, fordi målingene brukes til å beregne 2 mellomresultater før vi gjør prediksjonen, se [5]. Å subtrahere 3 i stedet for 2 øker både usikkerhetene og konfidenintervallene litt i modellen til SSH. Men effekten er liten, og den endrer ikke konklusjonene til hverken SSH eller meg selv. Jeg har gått gjennom beregningene også med å subtrahere 3, men jeg gjengir ikke de tallverdiene her. Det ville bare forvirret.

Jeg vil nå med et eksempel vise effekten av å redusere antall effektive målinger pga. autokorrelasjon. Eksempelet er vist i figur 3 litt senere i innlegget. Middeltemperaturen i 15 solsykluser brukes til å prediktere middeltemperaturen i den neste solsyklusen, som er #24. De 15 middeltemperaturene bidrar til å regne ut regresjonslinjen i figuren. Durbin-Watson d verdi er 0,88, dvs. at det er statistisk signifikant positiv autokorrelasjon. Lag 1 autokorrelasjonskoeffisienten er 0,29.

Når vi ikke tar hensyn til autokorrelasjon i beregning av standardfeil og konfidensintervall, er antall frihetsgrader 2 mindre enn antall målinger, dvs 13. Da er standardfeil og konfidensintervall små, og det er bare 0,14% sannsynlighet for å måle en så høy eller høyere middeltemperatur i solsyklus 24 som vi har gjort så langt, gitt at modellen er riktig.

Når vi tar hensyn til autokorrelasjonen, reduseres antall effektive målinger fra 15 til 8, og antall frihetsgreader reduseres til 6. Det øker både standardfeil og konfidensintervall, og det er nå 2,35% sannsynlighet for å måle en så høy eller høyere middeltemperatur i solsyklus 24.

3.    Durbin-Watson testen anvendt på en typisk temperaturserie

I [2] går SSH gjennom mange lokale temperaturserier. For hver temperaturserie viser de et scatterplot med sammenhengen mellom middeltemperatur i en solsyklus og lengden på den forrige solsyklusen. Nå velger jeg temperaturserien for Vardø i Finmark som et typisk eksempel. Vardø ligger midt i det geografiske området som SSH konsentrerer seg om, stedet har sammenhengende temperaturserie helt fra januar 1840, og Durbin-Watson testen i [2] viser ingen statistisk signifikant autokorrelasjon.

Plotet for Vardø er i den høyre delen av det midterste plotet i figur 12 i [2]. Jeg genererer det tilsvarende plotet med temperaturene som jeg har lastet ned, og viser det i min figur 2. (SSH har av ukjente årsaker utelatt solsyklus 9 i sin analyse av Vardø temperaturene. Temperaturene i solsyklus 9 er tilgjengelige, og det er ingen grunn til å tro at de er mere unøyaktige enn eksempelvis temperaturene i solsyklus 10.)
Figur 2   Sammenhengen mellom middeltemperatur i en solsyklus og lengden på den forrige syklusen.
Durbin-Watson verdien er 1,37 hos SSH. Jeg får 1,34 når jeg utelater solsyklus 9. Begge verdiene er såvidt større enn dH, dvs at testen ikke påviser statistisk signifikant autokorrelasjon.

I innlegget Solsyklus lengde og lokale temperaturer går jeg gjennom de fleste temperaturseriene som SSH gjør i [2]. I scatterplotene mellom middeltemperatur i en solsyklus og lengden på den forrige solsyklusen angir jeg solsyklus nummer som tekst over hvert punkt i scatterplotene, som vist for Vardø i figur 3 under. Jeg viser også middeltemperaturen så langt i solsyklus 24 og prediksjonen for solsyklus 24 som henholdsvis blå og rød stjerne. Denne informasjonen, som mangler i SSH's plot, er avgjørende for å kunne vurdere modellen.
Figur 3   Sammenhengen mellom middeltemperatur i en solsyklus og lengden på den forrige syklusen. Sekvensen av solsykluser vises med nummerering, noe som gir informasjon om tiden.
I figur 2, tilsvarende slik SSH viser plotene i [2], ser alt OK ut. Alle middeltemperaturene ligger innenfor 95% konfidensintervallet, det fremkommer ikke at middeltemperaturene i de siste solsyklusene alle er høyere enn modellen tilsier. Det fremkommer heller ikke hvor grovt modellen ser ut til å bomme for inneværende solsyklus 24. Denne manglende informasjonen er tilgjengelig i figur 3. Men den blir enda klarere i figur 4 under.
Figur 4  Residualene fra figur 2 og 3 tegnet som funksjon av solsyklus nummer.
Figur 4 viser klart at det er noe som ikke stemmer med modellen. Feilen i prediksjonene øker fra store negative verdier i de første solsyklusene til store positive verdier i de siste solsyklusene. Positiv feil vil si at observert temperatur er høyere enn modellen tilsier.



SSH viser bare plotet i figur 2. De forklarer detaljert Durbin-Watson testen. For dem viser testen ingen signifikant autokorrelasjon i middeltemperaturene fordi de ikke inkluderte solsyklus 9 i analysen. Figur 4 avslører hvor misvisende fremstillingen til SSH er.

4.    Durbin-Watson testen anvendt på Anscombes kvartett

Matematikk kan være slitsomt, frusterende - og morsomt. Jeg opplevde disse fasettene på samme dag da jeg brukte Durbin-Watson testen på de fire datasettene i Anscombes kvartett. Jeg har vist Anscombes kvartett i et tidligere innlegg. De fire datasettene har mange identiske statistiske verdier, og de får beregnet den samme regresjonslinjen, selv om scatterplottene deres er helt forskjellige. Figur 5 viser Anscombes kvartett.
Figur 5.   Scatterplot av Anscombes kvartett
De 4 datasettene i Anscombes kvartett har den samme lineære regresjonslinjen. Datasett #1 ser ut til å passe Ok til regresjonslinjen, mens de 3 andre ikke gjør det.


En lineær regresjonslinje er en enkel modell for et datasett, og Durbin-Watson testen er en måte å sjekke hvor godt modellen passer til datasettet. Jeg forventet derfor at Anscombe datasett #1, som passer best til regresjonslinjen, ville passere testen greit uten signifikant autokorrelasjon i dataene. Jeg forventet også at testen for datasettet #2, som helt opplagt ikke passer til en regresjonslinje, ville feile pga. statistisk signifikant autokorrelasjon. Og så ble det motsatt. Det var så overraskende at jeg først antok programmeringsfeil eller rot med dataene hos meg selv, men forklaringen var en annen. Jeg hadde studert scatterplotene mellom x og y i Anscombes kvartett, men jeg hadde ikke studert rekkefølgen på xy parene. Forklaringen ligger i rekkefølgen. Anscombes kvartett er et godt eksempel på at data må vurderes kritisk selv om Durbin-Watson testen er OK.

Hvert xy par har en feil eller residual. Det er vertikal avstand i skatterplotet mellom datapunktet og regresjonslinjen. Figur 6 viser disse feilene som en funksjon av observasjonsnummer. Rekkefølgen er en ny dimensjon som det er umulig å se i skatterplotet i figur 5.
Figur 6. Feilene (residualene) i Anscombes kvartett som en funksjon av observasjonsnummeret. ar1 er lag 1 autokorrelasjonskoeffisient, og d er Durbin-Watson statistikkverdi regnet ut for α=0,05.
Med 11 observasjoner sier Durbin-Watson testen at det er signifikant autokorrelasjon når d er mindre enn 0,93 eller større enn 3,07, og at det ikke er det når det er mellom 1,32 og 2,68. Dvs. at Anscombe sett #1 med d lik 3,21 har statistisk signifikant autokorrelasjon, mens de tre andre settene ikke har det. 

Når vi ser på figur 5 er det nærliggende å akseptere at regresjonslinjen representerer datasett 1 OK. Figur 6 setter spørsmålstegn ved om regresjonslinjen representerer dataene OK. Jeg ville i hvert fall ikke uten videre brukt regresjonslinjen til å prediktere fremtidige observasjoner. Den negative autokorrelasjonen kan skyldes en iboende egenskap ved prosessen bak datasett 1. Kort sagt, jeg måtte undersøke mere før jeg kunne trekke en konklusjon for datasett 1.

Durbin-Watson testen ser dataene som i figur 6. Vi mennesker liker skatterplot og har derfor en tendens til å se dataene som i figur 5. Anscombe kvartetten viser at vi må vurdere dataene på begge måter før vi trekker konklusjon. Min kritikk mot konklusjonen til SSH om sterkt fallende temperaturer i inneværende solsyklus er at de ikke har vurdert dataene tilsvarende slik de vises i figur 6.

Referanser


1.
Solar Activity and Svalbard Temperatures,
Jan-Erik Solheim, Kjell Stordahl og Ole Humlum

2.
The long sunspot cycle 23 predicts a significant temperature decrease in cycle 24
Jan-Erik Solheim, Kjell Stordahl og Ole Humlum

3.
Wikiperdias forklaring av Durbin-Watson testen, med videre referanser.

4.
Forklaring om hvordan antall frihetsgrader reduseres pga autokorrelasjon 

5.
Kort forklaring om hvordan antall frihetsgrader reduseres fordi målinger brukes til å estimere mellomresultater.




Ingen kommentarer:

Legg inn en kommentar