tirsdag 22. mai 2012

Solsyklus lengde og Svalbard temperatur


Jan-Erik Solheim, Kjell Stordahl og Ole Humlum har i løpet av det siste året skrevet flere artikler der de predikterer lave temperaturer i Norge og i Arktis i inneværende solsyklus 24. De, senere omtalt som SSH, begrunner dette med at forrige solsyklus var lang, og at det er en negativ korrelasjon mellom temperaturen i en solsyklus og lengden på den forrige solsyklusen. SSH har analysert mange temperaturserier fra den nordlige halvkulen, og de har for alle påvist negativ korrelasjon mellom solsyklus lengde og temperaturen i den påfølgende solsyklusen. Solsyklus 23 sluttet i november 2008, og hadde da vart i 12.2 år. Gjennomsnitlig lengde på solsykluser er ca 11 år.

I innlegget som du leser nå, kommenterer jeg notatet "Solar Activity and Svalbard Temperatures", som SSH fikk publisert i november 2011. Jeg kommer frem til den samme negative korrelasjonen som SSH beskriver. Men jeg mener at prediskjonen deres om fallende temperatur i den inneværende solsyklusen er ekstremt lite sannsynlig, noe jeg begrunner i innlegget som du leser nå.

mandag 14. mai 2012

Korrelasjonskoeffisient og Anscombes kvartett

Korrelasjon mellom 2 variabeler eller datasett betyr at det kan være en kobling mellom dem. Det er positiv korrelasjon når variabelene har en tendens til å endre seg i samme retning, eksempelvis at når x øker i verdi gjør y det samme. Det er negativ korrelasjon når variabelene har en tendens til å endre seg i motsatt retning. Korrelasjon mellom to variabeler kan bety at den ene variabelen er en funskjon av den andre, men det er ikke nødvendigvis slik. Korrelasjonen kan være helt tilfeldig, eller det kan være noe annet som styrer de to variabelene som vi undersøker.

I dette innlegget vil jeg gå gjennom hvordan korrelasjonskoeffisienten regnes ut. Jeg vil også gå gjennom et kjent eksempel som viser at både korrelasjonskoeffisient og en lineær regresjonsanalyse kan være misvisende. Jeg gjør dette som bakgrunn for en senere omtale av to artikler som jeg mener gir misvisende konklusjoner fordi lineær regresjonsanalyse og korrelasjonskoeffisienter brukes ukritisk.

onsdag 9. mai 2012

Konfidensintervall for estimat og prediksjon

I lineær regresjonsanalyse tar vi utgangspunkt i et sett med xy verdier. X er den uavhengige variabelen, og y er antatt å være en lineær funksjon av x. Observasjonene av y er antatt å ha overlagret en tilfeldig støy. I et tidligere blogginnlegg gikk jeg gjennom noen av formelene for statistikk tilknyttet dette. Her var tiden den uavhengige variabelen x, og global temperatur var den avhengige variabelen y. Standardfeilen til regresjonsanalysen, SEregression, ble definert. Den angir hvor godt de observerte y verdiene passer til den beregnete regresjonslinjen. Den var basis i utregningen av p-verdien, som angir graden av statistisk signifikans for regresjonslinjen.

Resultatet fra en lineær regresjonsanalyse kan brukes til å estimere (prediktere) y gitt en x verdi. Prediksjoner om noe som kan observeres eller måles en gang i fremtiden, har en iboende usikkerhet. Prediksjoner basert på en lineær regresjonsanalyse er intet unntak. Innlegget som du leser nå, går gjennom denne usikkerheten. Jeg gjør det som bakgrunn for en omtale av to artikler som Solheim, Storholt og Humlum (SSH) har skrevet, der de predikterer sterkt fallende temperatur i solsyklusen som vi er inne i nå. Av forskjellige grunner mener jeg at prediksjonene deres er svært lite sannsynlige, noe jeg kommer tilbake til i et senere innlegg. Jeg vil først gå gjennom noe av det matematiske grunnlaget for usikkerhetene til estimater og prediksjoner.