onsdag 22. februar 2017

Correlation when outliers in the data

This is the second post in a series of six that describes mathematics for calculation of correlation and trend in data with outliers. The posts are numbered 1 to 6. They should be read consecutively.

Post 1  Introduction to Statistical analysis of data with outliers
Post 2  Correlation when outliers in the data.
Post 3  Trend when outliers in the data.                                                To be added.
Post 4  Correlation and trend when an outlier is added.   Example.     To be added.
Post 5  Compare Kendall-Theil and OLS trends.             Simulations. To be added.
Post 6  Detect serial correlation when outliers.                Simulations. To be added.

Start of post 2:    Correlation when outliers in the data

The method  most commonly used to estimate the correlation between two datasets is to calculate the correlation coefficient based on the values in the two data sets.. But it is more robust against outliers to calculate it based on the ranks of the data. This blog post discusses the mathematics behind both methods.

fredag 17. februar 2017

Introduction to Statistical analysis of data with outliers

This is the first blog post in a series of four which describe mathematics for calculation of correlation and trend in data with outliers. The posts are numbered 1 to 4. They should be read consecutively. This first post is just an introduction.

Post 1  Introduction to Statistical analysis of data with outliers
Post 2  Calculate correlation when outliers in the data.
Post 3  Calculate trend when outliers in the data.                                 To be added.
Post 4  Correlation and trend when an outlier is added.   Example.     To be added.
Post 5  Compare Kendall-Theil and OLS trends.             Simulations. To be added.
Post 6  Detect serial correlation when outliers.                Simulations. To be added.

Start of post 1  Introduction to Statistical analysis of data with outliers

Five blog posts in June 2014 describe the mathematics that is most commonly used when analysing global temperature series. That mathematics is not well suited when there are large outliers in the data. The first blog post in that series gives an overview of those five posts.

Ordinary least square (OLS) error mathematics is the most commonly used method to calculate trends. It is based on data values, and it therefore performs poorly when there are large outliers in the data. Global temperatures do not have large outliers due to both the inertia in the global climate system and due to the thorough processing before the temperature data is released. Other climate data, such as precipitation, snow depth and skiing conditions at specific locations, have large outliers, and the OLS mathematics is not suitable for those data.

The calculation of the Pearson correlation coefficient is also based on data values. This is the most commonly used method to calculate correlation between variables. It too performs poorly when there are large outliers in the data.

Mathematics based on data ranks performs better than mathematics based on data values when analysing data with large outliers. In this series of blog posts I will describe the rank mathematics which I use to calculate the Kendall tau-b correlation coefficient and the Kendall-Theil robust trend line. For comparison I also shortly describe the Pearson and the OLS mathematics.

As will be seen, the mathematics that is used to calculate the Kendall tau-b correlation coefficient and the Kendall-Theil robust trend line is rather simple and easy to explain. But the mathematics that is used to quantify their uncertainties, which are p-values and confidence intervals, is more complicated.

Next post in the series

fredag 13. januar 2017

Rekalkulere trender og korrelasjoner rundt skiforholdene i Nordmarka med metoder som er robuste mot slengere.

Det forrige innlegget, Fremskrivninger for skiforholdene i Nordmarka er for optimistiske, baserte seg på de vanligste metodene for å beregne trendlinjer og korrelasjonskoeffisienter. Innlegget som du leser nå, gjentar beregningene med alternative metoder som kan være mer velegnet for de aktuelle dataene. Resultatene varierer noe, men hovedbildet er det samme. De alternative beregningsmetodene støtter konklusjonene i det forrige innlegget.

tirsdag 8. november 2016

Fremskrivninger for skiforholdene i Nordmarka er for optimistiske

Professor Asgeir Sorteberg (UIB) har gjort fremskrivninger for skisesongen 2050 1.  De er for mange lokasjoner, bl.a. for Kikut i Nordmarka i Oslo. Fremskrivningene baserte seg på tre scenarioer for fremtidige endringer i nedbør og temperatur, og det er brukt 17 forskjellige klimasimuleringer. Men basert på historiske data frem t.o.m. skisesongen 2016 fra målestasjonen på Bjørnholt, som ligger like høyt og ved den samme innsjøen som Kikut gjør, mener jeg at fremskrivningene for Kikut er altfor optimistiske. Jeg begrunner dette kort i de to neste avsnittene, og deretter mer detaljert i de påfølgende kapitlene.

Sortebergs fremskrivninger sier at det mest sannsynlige antall skidager i 2050 i de tre scenarioene er henholdsvis 90 (beste scenario), 68 (midterste scenario) og 40 (verste scenario). Skisesongen 2016 (de siste månedene i 2015 og de første månedene i 2016) hadde 84 skidager, og det er omtrent som forventet basert på den synkende trenden i de siste tiårene. Trendlinjen har falt med 11 dager per tiår siden 1973. Pga. tregheten i klimasystemet vil sannsynligvis global temperatur fortsette å stige i hele dette århundret. Det vil skje selv om vi mennesker skulle klare å redusere våre klimagassutslipp gradvis ned til en femtedel av dagens utslipp i 2050, og så videre ned til praktisk talt null i 2100 2. Jeg tror derfor at det beste scenarioet med 90 dager er helt urealistisk og at det midterste scenarioet med 68 dager er veldig optimistisk.

Generelt kan vi med global oppvarming forvente mer nedbør, og nedbørsmengden i Oslo-området har økt i de siste tiårene. Om det beste og det midterste scenarioet i fremskrivningene skriver Sorteberg at økt nedbør vil kompensere henholdsvis 'mye' og 'litt' for oppvarmingen. Om det verste scenarioet skriver han at oppvarmingen vil bli så kraftig at økt nedbør ikke lenger vil ha noen positiv virkning. Dette er altfor optimistisk, for oppvarmingen har allerede kommet så langt at mer nedbør ikke gir større snødybde.

torsdag 29. september 2016

Nedbørens effekt på vintertemperaturen i Nordmarka

Det forrige innlegget 1 viste at temperaturene i skisesongen desember til april i Nordmarka utenfor Oslo har steget med ca 0,4 grader Celsius per tiår siden starten på 1970-tallet. Temperaturene på Blindern (94 m.o.h), Tryvasshøgda (514 m.o.h) og Bjørnholt (360 m.o.h) er forskjellige, men endringene fra år til år er ganske like.

Temperaturene i skisesongen ble analysert for å belyse sammenhengen mellom temperatur og snødybde. Trendverdien på Blindern er nå ca pluss en halv grad Celsius og på Tryvasshøgda litt under minus en grad. Midt på vinteren er det gjerne kaldt når det er klarvær og litt mildere når det er overskyet. Det er derfor interessant å belyse forskjellen i temperatur når det er nedbør og når det ikke er det. Figur 1 gjør det for vintermånedene desember til februar 2.

Figur 1: Vintertemperatur på Bjørnholt i de siste ni vintrene. Rød kurve viser middelverdien av døgntemperaturene i de døgnene det har falt 3 mm nedbør eller mer. Blå kurve er middeltemperaturen i døgnene med mindre nedbør, og grønn kurve er middeltemperaturen i alle døgnene. De påfølgende figurene i innlegget bruker den samme fargekoden.

tirsdag 13. september 2016

Nordmarka temperatur

To tidligere innlegg analyserte utviklingen av snødybde og antall skidager i Nordmarka 1. De så også på samvariasjonen mellom endringene i snødybde, nedbør og temperatur. Snømålingene er fra Bjørnholt, og de startet allerede i 1897. Temperaturmålingene på Bjørnholt startet først i 2007, og de dekker et altfor lite tidsintervall til å kunne brukes i analysene i de to tidligere innleggene. De brukte derfor temperaturene på Blindern 2, og innlegget som du leser nå undersøker om det var OK å gjøre det.

Innlegget analyserer gjennomsnittstemperaturen i skisesongen desember til april og omtaler dette gjennomsnittet som vintertemperaturen.

Innlegget viser at vintertemperaturene på Bjørnholt i de ni årene som vi har målinger for, har samvariert veldig bra med vintertemperaturene på Tryvasshøgda. Det er også veldig god samvariasjon mellom endringene i vintertemperaturene på Tryvasshøgda og Blindern siden målingene startet på Tryvasshøgda i 1927. Vintre kaldere enn normalt på Blindern har også vært kaldere enn normalt på Tryvasshøgda, og tilsvarende for milde vintre. Det var derfor OK å bruke vintertemperaturene på Blindern i analysene i de to tidligere innleggene.

Bjørnholt ligger lenger inne i Nordmarka enn Tryvasshøgda. Blindern ligger lavest og er nærmest både Oslo by og fjorden. Figur 1 viser vintertemperaturene på disse stedene.

Figur 1: Vintertemperaturene på Blindern (94 m.o.h.), Tryvasshøgda (514 m.o.h.) og Bjørnholt (360 m.o.h.). Punktene er temperaturen i en vinter, de tykke kurvene er 30-årsmiddelet, og de tynne linjene er trenden i perioden 1973 til 2016 beregnet med lineær regresjonsanalyse. 2008 er den første vinteren med temperaturmålinger på Bjørnholt, og det er derfor ikke mulig å beregne hverken 30-årsmiddel ellet trend over en klimamessig relevant periode for Bjørnholt.

tirsdag 30. august 2016

Snødybde og temperatur

Et tidligere innlegg 1 har vist at antall skidager i Nordmarka i snitt har falt med elleve dager per tiår siden 1973, og at midlere snødybde i skisesongen har falt til 40 cm.

Stigende temperatur gir ofte mer nedbør. I noen sammenhenger hevdes det derfor at mer nedbør i de neste tiårene vil bidra til større snødybde, og at det vil motvirke de negative konsekvensene som stigende temperaturer kan få for skiforholdene. Dette er riktig når det er kuldegrader, men galt når det er varmegrader. Gjennom vinteren i Nordmarka er det både kulde- og varmegrader, så det er ikke opplagt hva nettoeffekten vil være. Fremskrivninger fra klimamodeller kan si noe om dette. Men det er også nyttig å studere hvordan sammenhengen mellom temperatur, nedbør og snødybde har utviklet seg siden snømålingene startet. Det kan indikere hvordan sammenhengen sannsynligvis vil utvikle seg i fremtiden.

Innlegget viser den totale nedbøren og middelverdiene av snødybden og temperaturen i skisesongen. Skisesongen i et år er desember i det foregående året og januar til april i det aktuelle året. Innlegget bruker snødybde- og nedbørmålinger fra Bjørnholt i Nordmarka og temperaturene i en homogenisert temperaturserie for Blindern i Oslo 2.

Figur 1: Midlere snødybde ved Bjørnholt og total nedbør på Blindern i skisesongen. Blått er snødybde og rødt er nedbør. Snømålingene begynte i 1897, men det var en pause mellom 1937 og 1954.
Figur 1 viser snødybden på Bjørnholt og temperaturen på Blindern. De stiplete kurvene viser sesongverdiene, og de heltrukne kurvene viser 30-årsmiddelet. Figuren viser at temperaturen begynte å stige kraftig på 1970-tallet, og at snødybden da begynte å minke kraftig.