torsdag 19. desember 2013

Villedende temperaturtrender

Stigningen i den globale overflatetemperaturen har vært svakere etter tusenårsskiftet enn den var i de foregående tiårene. Men det er galt å hevde at den stigende temperaturtrenden frem til tusenårsskiftet er etterfulgt av en flat eller synkende trend.

I dette innlegget bruker jeg HadCRUT4 temperaturene slik Met Office offentliggjør dem på sine hjemmesider. Resultatene med NASA GISTEMP og NCDC temperaturene er tilsvarende.

Nettet florer med utsagn om at den stigende temperaturtrenden frem til begynnelsen av 2000-tallet er etterfulgt av en flat eller synkende trend. Utsagnene underbygges med skjematiske trendlinjer i diverse figurer. Det opplyses ikke om disse skjematiske trendlinjene er tegnet inn på subjektivt skjønn eller om det ligger matematiske beregninger bak dem. De kan se plausible ut, men trendlinjer beregnet med vanlig lineær regresjonsanalyse gir et helt annet bilde av temperaturutviklingen over de aktuelle tidsrommene.

Villedende brukne trendlinjer

Den rød linjen i Figur 1 er et eksempel på en slik skjematisk trendlinje. Figuren viser de månedlige HadCRUT4 temperaturene gjennom de siste 30 årene. De blå linjene er temperaturtrenden når vi deler de 30 årene opp i to segmenter og beregner trenden separat i hvert av dem med vanlig lineær regresjonsanalyse.

Figur 1: HadCRUT4 temperaturer i de siste 30 år, med separat beregnete trendlinjer (blå) og villedende skjematisk trendlinje (rød)
Tidsskillet mellom segmentene er valgt slik at den siste blå trendlinjen, fra november 2000 til oktober 2013, er helt flat. Den første blå trendlinjen, fra november 1983 til oktober 2000, er stigende med 0,22°C/tiår. Den sammenhengende røde trendlinjen er tegnet slik at den har samme helning som de beregnete blå trendlinjene. Men det er fullstendig galt å si at temperaturtrenden frem til slutten av 2000 var stigende for så å flate helt ut, fordi utsagnet utelater hoppet mellom de blå trendlinjene. Utsagnet må evt. være at temperaturtrenden frem til slutten av 2000 var stigende, så gjorde temperaturen plutselig et hopp oppover, og deretter har trenden vært helt flat. Men i et tregt klimasystem gjør ikke global overflatetemperatur plutselig et hopp oppover, så også det utsagnet er fullstendig galt. Den skjematiske røde trendlinjen er derfor villedende.


Vi gjør to separate vanlige lineære regresjonsanalyser når vi beregner de to blå trendlinjene i Figur 1. Det er to ukjente, helningen til linjen og dens skjæringspunkt med den vertikale y-aksen, i hver beregning. Hver beregning resulterer i en linje som best mulig passer med de månedlige temperaturene i sitt segment. Med denne metoden blir som oftest linjene til de to segmentene ikke sammenhengende.

Med forhåndsbestemte knekkpunkt(er) er det alltid mulig å beregne en sammenhengende brukket trendlinje som passer best mulig med de månedlige temperaturene. Kriteriet for å passe «best mulig» er det samme som i en vanlig lineær regresjonsanalyse. Med ett knekkpunkt har beregningen tre ukjente, helningene i trendlinjens to segmenter og skjæringspunktet med den vertikale y-aksen. Den brukne grønne trendlinjen i Figur 2 er resultat av en slik beregning. Knekkpunktet er ved samme tidspunkt som knekkpunktet i den røde linjen i Figur 1, dvs. mellom oktober og november 2000.

Figur 2: HadCRUT4 temperaturer i de siste 30 år, med beregnet trendlinje for hele intervallet (brun) og beregnet trendlinje med knekk i 2000 (grønn)
Den grønne trendlinjen viser en kraftig temperaturstigning (0,25°C/tiår) frem til oktober 2000 etterfulgt av en svakere stigning (0,05°C/tiår) frem til nå. Men spesielt det siste segmentet, snaue 13 år, er altfor kort til å beregne en robust trend over. Jeg synes ikke at den grønne linjen representerer temperaturutviklingen i de siste 30 årene. Men den viser hva en regresjonsanalyse uten synsing gir som resultat når vi beregner en trendlinje med knekk i 2000.

I Figur 2 er også den vanlige trendlinjen over 30 år tegnet inn som brun strek. Den viser gjennomsnittlig temperaturstigning på 0,17°C/tiår gjennom de siste 30 årene. WMO definerer klima som gjennomsnittlig vær gjennom 30 år. Med den definisjonen er den brune trendlinjen det beste anslaget over den langsiktige temperaturutviklingen som HadCRUT4 temperaturene nå kan gi oss.

I noen av sine temperaturplot legger Climate4You inn skjematiske trendlinjer. De viser en synkende trend frem til desember 1974, så en stigende trend frem til desember 2002, og så en synkende trend fra januar 2003. Den brukne røde trendlinjen i Figur 3 viser denne Climate4You trenden.

Figur 3: HadCrut4 temperaturer siden 1957. Rød strek er den villedende Climate4You trenden.
Figur 3 viser også trenden slik den fremkommer ved beregninger som omtalt for Figur 1 og Figur 2. Fargekodingen er den samme. De blå trendlinjene, som er beregnet separat for hvert sitt tidssegment, henger ikke sammen. Hvis vi mener at disse blå linjene representerer temperaturutviklingen siden januar 1957, må vi ha en god forklaring på hvorfor global overflatetemperatur gjorde kraftige hopp oppover både i januar 1977 og i januar 2003. En slik forklaring finnes ikke. Den røde Climate4You trendlinjen «løser» problemet med disse temperaturhoppene ved å justere helningene. Den stigende trenden frem til desember 2002 er justert oppover, og den negative trenden etter januar 2003 er justert nedover, og vips så henger de røde dellinjene sammen og ser plausible ut. Men de er villedende.

Den brukne grønne trendlinjen i Figur 3 er beregnet som forklart for den tilsvarende brukne linjen i Figur 2. Linjen i Figur 3 har de samme knekkpunktene som Climate4You har valgt for sin skjematiske trendlinje. Temperaturtrenden i det siste segmentet, fra januar 2003 til oktober 2013, er stigende med 95% konfidensintervall mellom -0,21°C/tiår og +0,25°C/tiår. Det kjempestore konfidensintervallet betyr at usikkerheten for en trend beregnet over drøye 10 år er så stor at det er useriøst å legge vekt på den.

Jeg mener ikke at den brukne grønne trendlinjen i hverken Figur 2 eller Figur 3 er representativ for temperaturutviklingen. Jeg tar de med utelukkende for å vise hvordan sammenhengende trendlinjer er når de beregnes på grunnlag av dataene.

OK brukne trendlinjer

Figur 4 viser temperaturene fra januar 1910 til oktober 2013 delt opp i tre segmenter. Det første segmentet slutter i desember 1941, det andre er mellom januar 1942 og august 1974, og det tredje starter i september 1974. De blå trendlinjene, som er beregnet separat for de tre segmentene, henger sammen. Vi kan derfor si at temperaturen var stigende mellom 1910 og 1941, synkende mellom 1942 og 1974, og så stigende etter 1974.

Figur 4: HadCRUT4 temperaturer fra 1910 med trender beregnet over tre segmenter.

Figur 4 plotter også den grønne brukne trendlinjen med knekkpunkter mellom de tre blå trendlinjene. Men den grønne linjen er helt skjult av de blå linjene.

Helningene til den grønne brukne trendlinjen i Figur 4, med 95% konfidensintervall i parentes og med benevning °C/tiår, er: 0.14 (0.09, 0.18), -0.02 (-0.07, 0.03), 0.17 (0.13, 0.21). Det er ikke overlapp mellom konfidensintervallene i påfølgende segmenter.

Figur 4 viser et eksempel der det er dekning for å si at det er knekkpunkter i temperaturtrenden. Men i dag er det ikke dekning for å hevde at det er et slikt knekkpunkt rundt år 2000.

Når trendlinjene som er beregnet separat i hvert enkelt segment henger sammen, gir algoritmen som beregner den brukne trendlinjen samme resultat. Vi må derfor zoome inn rundt et av knekkpunktene for å se at den grønne brukne trendlinjen virkelig er der. Dette er gjort i Figur 5.

Figur 5: Som forrige figur, men zoomet inn rundt knekkpunktet mellom august og september 1974
Kriteriet for at to separat beregnete trendlinjer henger sammen er at de skjærer hverandre i intervallet mellom slutten av det første segmentet og starten på det andre segmentet. De blå linjene i Figur 5 tilfredsstiller dette kriteriet.

Minimere standardfeilen i regresjonsanalysen

Knekkpunktene er bestemt på forhånd når den grønne brukne trendlinjen i Figur 4 beregnes. Algoritmen beregner den brukne trendlinjen som best mulig passer med temperaturmålingene. Som vi vet, og også ser av figurene, er det store variasjoner i temperatur fra måned til måned, noe som resulterer i avvik mellom temperaturene og den brukne trendlinjen. Algoritmen beregner standardfeilen til dette avviket. Algoritmen beregner skjæringspunktet med y aksen og helningene som minimerer standardfeilen. Standardfeilen endrer seg når vi flytter knekkpunkt(ene). I Figur 4 er et av knekkpunktene mellom august og september 1974. Figur 6 viser hvordan standardfeilen endrer seg når vi flytter dette knekkpunktet innenfor en treårsperiode rundt 1974. I figuren kalles standardfeilen for Standard Error [of] Regression. Beregningene bak figuren bruker temperaturene mellom januar 1942 og oktober 2013.

Figur 6: Standardfeilen til regresjonsanalysen som funksjon av knekkpunkt når det velges i en treårsperiode rundt 1974.

Figur 6 viser at standardfeilen har et minimum når knekkpunktet legges der de blå regresjonslinjene i Figur 5 møtes.

Beregningene bak neste figur, Figur 7, bruker temperaturene mellom september 1974 og oktober 2013. Figuren viser at standardfeilen ikke har noe minimum for knekkpunkt rundt tusenårsskiftet. Som omtalt tidligere i innlegget er det heller ikke mulig å beregne separate trendlinjer som er sammenhengende rundt tusenårsskiftet.

Figur 7: Standardfeilen til regresjonsanalysen som funksjon av knekkpunkt når det velges i en åtteårsperiode rundt 2000

Figur 7 viser også helningene til trenden i den brukne trendlinjen før og etter der vi setter inn knekkpunktet. Vi ser at trenden i det siste segmentet går fra å være stigende til fallende i 2004. Men da er lengden på segmentet så kort at trenden i det er uinteressant, og det har et helt uakseptabelt stort konfidensintervall.

Matematikk

De blå trendlinjene er beregnet separat for hvert segment med vanlig lineær regresjonsanalyse, som er greit forklart på Wikipedia. De er beregnet med Scilab funksjonen reglin, som gir samme resultat som MatLab funksjonen polyfit og Excell funksjonene INTERCEPT og SLOPE.

På nettsiden med tittel Multi-Phase Linear Regression slår Andy Ganse fra University of Washington beregningene sammen i en beregning. Den gir samme resultat som om beregningen gjøres separat for hvert segment. Ganse's formler krever ikke at trendlinjene henger sammen; det er en randbetingelse som han sjekker etterpå. Hvis de ikke henger sammen, skriver han at løsningen ikke kan brukes.

Hver grønne brukne trendlinje i figurene over er beregnet av en algoritme med tre eller flere ukjente. De ukjente er helningene til trendlinjen i de enkelte segmentene, og skjæringspunktet mellom den første delen av trendlinjen og den vertikale y-aksen. De ukjente beregnes slik at den brukne trendlinjen passer best mulig med de månedlige temperaturene, på samme måten som i en vanlige lineær regresjonsanalyse. Dette er godt forklart her og her. I den første linken oppgis data og resultater for et eksempel som er beregnet med funksjonen NLIN i SAS. Mine Scilab funksjoner gir eksakt samme krysning med den vertikale y-aksen, samme helninger til den brukne trendlinjen, og samme 95% konfidensintervall for helningene. Spesielt interesserte kan lese mere om brukne trendlinjer i kursmaterialet på hjemmesiden til C. J. Schwarz. (Gå inn på Course notes for intermediate statistics og velg kapitlet Regression - hockey sticks, broken sticks, piecewise, change points).

Det er autokorrelasjon i de månedlige temperaturene. Jeg kompenserer for autokorrelasjon som anbefalt i appendikset Methods i Foster and Rahmstorf (2011), på samme måten som trendkalkulatoren til Skeptical Science (SkS) gjør det. Jeg får samme resultat for helning og dens standardfeil som SkS kalkulatoren. Jeg kompenserer for autokorrelasjon på samme måten når jeg beregner standardfeil og konfidensintervall for helningene i en brukket trendlinje.



Ingen kommentarer:

Legg inn en kommentar