fredag 13. januar 2017

Rekalkulere trender og korrelasjoner rundt skiforholdene i Nordmarka med metoder som er robuste mot slengere.

Det forrige innlegget, Fremskrivninger for skiforholdene i Nordmarka er for optimistiske, baserte seg på de vanligste metodene for å beregne trendlinjer og korrelasjonskoeffisienter. Innlegget som du leser nå, gjentar beregningene med alternative metoder som kan være mer velegnet for de aktuelle dataene. Resultatene varierer noe, men hovedbildet er det samme. De alternative beregningsmetodene støtter konklusjonene i det forrige innlegget.

Minste kvadraters metode er den vanligste metoden for å beregne trendlinjer. Den er følsom når målingene har veldig store avvik fra trendlinjen. Både snødybde, temperatur og nedbør på en lokasjon har ofte slike store avvik. Det gjelder i enda større grad antall skidager i en sesong. Med minste kvadraters metode vil store avvik, senere omtalt som slengere, tillegges stor vekt og vil derfor påvirke resultatet urimelig mye. Minste kvadraters metode, senere omtalt som som OLS (Ordinary Least Square), kan derfor gi misvisende resultater.

Pearsons metode er den vanligste metoden for å beregne korrelasjonskoeffisienter. Den er også veldig følsom for slengere i målingene.

OLS og Pearson er de vanligste metodene, og når ikke annet er angitt er det underforstått at de benyttes. De ble begge benyttet i det forrige innlegget.

For data med slengere kan alternative metoder som bruker rangen til dataene i hver måleserie, benyttes. Eksempelvis vil verdiene i en serie med 30 målinger tillegges rang 1 til 30, der minste verdi tillegges rang 1 og største verdi rang 30. Det betyr ikke noe hvor store avvikene er, bare hvordan de er i forhold til hverandre. Likeledes brukes medianen til verdiene i stedet for middelverdien til verdiene. Som alternativ metode har jeg valgt å bruke Kendall-Theil robust line for å beregne lineære trender og Kendall tau-b for å beregne korrelasjonskoeffisienter. I et senere innlegg vil jeg gå gjennom matematikken for disse metodene, med både ligninger og forklaringer.

Innlegget som du leser nå, viser de samme figurene som det forrige innlegget, men nå med trendlinjene beregnet med Kendall-Theil. For hver figur vises usikkerheten knyttet til trendverdiene både som 95% konfidensintervall og som p-verdier. Innlegget viser også korrelasjonskoeffisienter mellom temperatur, nedbør og snødybde sammen med deres p-verdier beregnet med Kendall tau-b.

95% konfidensintervallet (95% CI) angir spennet som med 95% sannsynlighet favner den virkelige trenden. Et 95% CI er knyttet til målesettet og beregningsmetoden, og ikke til den virkelige trenden, som jo er ukjent. Med OLS ligger 95% CI alltid symmetrisk omkring den beregnede trenden, men med Kendall-Theil gjør det ikke det.

p-verdien angir sannsynligheten for å beregne en i tallverdi like stor eller større trend eller korrelasjon hvis det ikke er en virkelig trend eller korrelasjon i dataene. Når p-verdien er mindre enn 0,05, sier vi at trenden eller korrelasjonen er statistisk signifikant.

Generelt betyr autokorrelasjon at støyen eller avviket i en måling er påvirket av støyen eller avviket i den foregående målingen. Å ta hensyn til autokorrelasjonen i beregningene behøver ikke å innvirke på beregnet trend, men det innvirker vanligvis mye på statistikken, dvs. for hvor sikre vi er på resultatet. For noen måleserier er det opplagt at vi må ta hensyn til autokorrelasjonen. Et godt eksempel er trendberegninger av global temperatur basert på månedlige temperaturer. Varme måneder har en tendens til å etterfølge varme måneder, og kalde måneder har en tendens til å etterfølge kalde måneder. Vi har derfor færre uavhengige, eller effektive, målinger enn det virkelige antallet målinger. I statistikkberegningene gir mange målinger større sikkerhet enn få målinger. Når vi tar hensyn til autokorrelasjonen bruker vi antall effektive målinger, og ikke antall virkelige målinger. Vi tar hensyn til autokorrelasjon i trendberegninger basert på månedlige temperaturer. Da beregner vi omtrent samme sikkerhet i resultatet som når vi bruker årlige temperaturer uten å ta hensyn til autokorrelasjonen, noe som betyr at det er liten autokorrelasjon i de årlige temperaturene.

I dette og i det forrige innlegget analyserer vi årlige temperaturer, snødybder, nedbør og antall skidager. All snø smelter om sommeren, så det er ingen direkte autokorrelasjon pga snø fra forrige sesong. Jeg har derfor valgt ikke å ta hensyn til autokorrelasjon i statistikkberegningene verken med OLS eller Kendall-Theil.

I resten av innlegget vil trendene og korrelasjonene beregnet med Kendall-Theil og Kendall tau-b bli sammenlignet med tilsvarende verdier beregnet med OLS og Pearson. Også 95% CI-er og p-verdier vil bli sammenlignet. Det forrige innlegget inneholder noen vurderinger og forklaringer som ikke gjentas i dette innlegget.

Antall skidager

Figur 1:   Antall skidager i Nordmarka utenfor Oslo. De tynne røde linjene er trendene beregnet med Kendall-Theil.
I Figur 1 har jeg beregnet trenden før og etter 1980. Da henger trendlinjene sammen og kan betraktes som en trend for hele perioden fra 1900 til 2016. I den tilsvarende figur 1 i det forrige innlegget måtte jeg legge knekkpunktet i 1973 for at trendlinjene skulle henge sammen.

Trendlinjen i den siste perioden i Figur 1 ligger over 30-årsmiddelet. Det betyr at slengerne ned mot null skidager var mer dominerende enn slengerne med mange skidager. Som skrevet innledningsvis betyr ikke størrelsen på slengerne noe når trenden beregnes med Kendall-Theil, mens den betyr mye både for 30-årsmiddelet og for trenden beregnet med OLS.

Figur 1 og den tilsvarende figur 1 i det forrige innlegget tegner grovt sett det samme bildet. Det er vanskelig å si hva som er det riktigste bildet. Konklusjonen er vel at det ikke er så stor forskjell mellom beregningene gjort med OLS og med Kendall-Theil.

Tabellen under viser de numeriske resultatene for den siste trendlinjen i Figur 1 (1980 - 2016) og for den siste trendlinjen i den tilsvarende figur 1 (1973 - 2016) i det forrige innlegget.

Tabell 1: Trend i antall skidager beregnet med OLS (1973 til 2016 i det forrige innlegget) og Kendall-Theil (1980 til 2016 i dette innlegget).

Snødybde og temperatur i skisesongen desember til april


Figur 2: Midlere snødybde og temperatur i skisesongen desember til april. De blå kurvene viser snødybde med referanse til venstre vertikale akse, og de røde kurvene viser temperatur med referanse til høyre vertikale akse. Stiplede kurver er årsverdier, tykke kurver er 30-årsmiddel, og tynne linjer er trender beregnet for tidsrommet 1973 til 2016 med Kendall-Theil.

Figur 2 viser utviklingen av snødybde og temperatur i skisesongen desember til april. Den tilsvarende figur 2 i det forrige innlegget viser det samme, men der er trendlinjene beregnet med OLS. Trendene viser stort sett det samme bildet.

Tabell 2 viser kvantitative verdier for trendlinjene vist i Figur 2 og i den tilsvarende figur 2 i det forrige innlegget. Det er noen forskjeller mellom trendene beregnet med OLS i det forrige innlegget og trendene beregnet med Kendall-Theil i dette innlegget, men begge beregningsmetodene tegner stort sett det samme bildet. Den midlere snødybden reduseres med snaue 7 cm per tiår, og temperaturen stiger med ca 0,4°C per tiår.

Tabell 2:  Trender 1973 til 2016 beregnet med OLS (det forrige innlegget) og Kendall-Theil (dette innlegget) for skisesongen desember til april.

Snødybde, temperatur og nedbør i vintermånedene desember til februar

Figur 3 og 4 viser samme informasjon som de tilsvarende figurene 3 og 4 i det forrige innlegget, men i dette innlegget er trendene beregnet med Kendall-Theil. De kvantitative verdiene med tilhørende statistikk vises i Tabell 3.

Figur 3 viser at trendlinjene ligger over 30-årsmidlene for både snødybde og temperatur. Det er fordi slengerne med lave verdier jevnt over ligger lenger under medianen enn slengerne med høye verdier ligger over. Figur 4 viser at det er motsatt for nedbør, men ikke så markert. I begge figurene viser trendlinjene omtrent det samme bildet som de tilsvarende trendlinjene beregnet med OLS; det blir mindre snødybde, høyere temperatur og mer nedbør. Men det er kvantitative forskjeller, spesielt for nedbør, som det fremkommer av Tabell 3.

Figur 3: Midlere snødybde og temperatur i vintermånedene desember til februar. Trendlinjene er beregnet med Kendall-Theil.

Figur 4: Midlere snødybde og total nedbør i vintermånedene desember til februar. Trendlinjene er beregnet med Kendall-Theil.

Tabell 3: Trender 1973 til 2016 beregnet med OLS (det forrige innlegget) og Kendall-Theil (dette innlegget) for vintermånedene desember til februar.
For temperatur og snødybde viser Tabell 3 at det er god overensstemmelse mellom OLS og Kendall-Theil både for trend, 95% CI og p-verdi. Spesielt for 95% CI er det tillitvekkende at det er god overensstemmelse fordi beregning av 95% CI med Kendall-Theil er veldig forskjellig fra beregningen med OLS.

For nedbør viser Tabell 3 at trendene med tilhørende statistikk beregnet med OLS og Kendall-Theil avviker ganske mye fra hverandre. Men begge metodene angir en stigende trend som ikke er statistisk signifikant.

For alle trendene i både Tabell 2 og 3 er 95% CI i sin helhet på samme side av null når p-verdien er mindre enn 0,05, mens det omfavner null når p-verdien er større enn 0,05. Det er som forventet, og det vil nok alltid være tilfelle når beregningen er gjort med OLS. Men pga. den spesielle måten som 95% CI beregnes med Kendall-Theil er det ikke nødvendigvis slik med Kendall-Theil.

Korrelasjonskoeffisienter

Tabell 1 og 2 i det forrige innlegget viste korrelasjonene mellom nedbør, temperatur og snødybde i vintermånedene desember til februar før 1972 og etter 1973. Korrelasjonene var beregnet med Pearson, og detrendingen ble gjort med trend beregnet med OLS. Tabell 4 under gjengir resultatet i disse tabellene. p-verdien for hver korrelasjonskoeffisient er i tillegg tatt med. Som i det forrige innlegget er koeffisientene i uthevet skrift beregnet etter at dataene er detrendet, mens koeffisientene i parentes er beregnet uten å detrende dataene først.

Det forrige innlegget forklarte hensikten med å detrende, med detaljer i appendikset. For både disse og andre forklaringer henvises til det forrige innlegget.

Korrelasjonskoeffisientene og p-verdiene i Tabell 4 og 5 er mellom målingene angitt i øverst i kolonnen og til venstre i raden. Eksempelvis er korrelasjonskoeffisienten r i perioden 1898 til 1972 mellom temperatur og snødybde -0,26 med p-verdi 0,05 når både temperatur og snødybde er detrendet før beregningen ble gjort.

Tabell 4: Korrelasjonskoeffisienter og p-verdier beregnet med Pearson. Verdier i uthevet skrift er beregnet etter at dataene er detrendet. Detrendingen er gjort med trend beregnet med OLS.

Beregningen er nå gjentatt med Kendall tau-b korrelasjonskoeffisient. Dataene er nå detrendet med trend beregnet med Kendall-Theil. Resultatene er gjengitt i Tabell 5.

Tabell 5: Korrelasjonskoeffisienter og p-verdier beregnet med Kendall tau-B. Verdier i uthevet skrift er beregnet etter at dataene er detrendet. Detrendingen er gjort med trend beregnet med Kendall-Theil.

Det er god overenstemmelse mellom korrelasjonskoeffisientene beregnet med Pearson og med Kendall tau-b. De sistnevnte koeffisientene er jevnt over litt mindre, men de har en bedre p-verdi. Konklusjonen er den samme. For både Pearson og Kendall tau-b gjelder:

  • Det er positiv og statistisk signifikant korrelasjon mellom temperatur og nedbør, både før og etter 1972.
    Dvs. at det faller mer nedbør i milde vintre enn i kalde vintre.
  • Det er negativ og statistisk signifikant korrelasjon mellom temperatur og snødybde, både før og etter 1972.
    Dvs. at det er mer snø i kalde vintre enn i milde vintre.
  • Det er positiv og statistisk signifikant korrelasjon mellom nedbør og snødybde før 1972. Men etter 1973 er det ingen korrelasjon mellom nedbør og snødybde.
    Dvs. at det før 1972 var mer snø i vintre med mye nedbør enn i vintre med lite nedbør, men at nedbørsmengden ikke betydde noe for snødybden etter 1973. Dvs. at oppvarmingen har kommet så langt at mer nedbør om vinteren ikke lenger kompenserer for høyere temperatur mht. snø- og skiforholdene.


Ingen kommentarer:

Legg inn en kommentar