torsdag 10. januar 2013

Korrelasjonskoeffisienter og Anscombes kvartett, del 2

Et tidligere innlegg beskriver korrelasjon mellom 2 variabler, med hovedvekt på Pearsons korrelasjonskoeffisient. Innlegget beskriver også Anscombes kvartett, som er fire x y vektorer med helt forskjellige sammenhenger mellom x og y. Pearsons korrelasjonskoeffisient er den samme for de fire settene med x y vektorer, på tross av forskjellene. Pearsons korrelasjonskoeffisient er den vanligste, men Anscombes kvartett demonstrerer at også den har svakheter.

To rangkorrelasjonskoeffisienter er de vanligste alternativene til Pearson. Det avgjørende i beregningen av disse er den relative rangeringen av dataene, ikke datene selv. Eksempelvis er koeffisienten lik 1 hvis både x og y verdiene hele tiden stiger utover i vektorene sine, uavhengig av  hvor mye eller hvor lite de stiger fra en verdi til den neste. Rangkorrelasjonskoeffisienter er robuste mot slengere. Eksempelvis betyr det ingenting om den største x verdien er litt større enn den nest største eller veldig mye større. Rangkorrelasjonskoeffisientene er alltid mellom +1 og -1, akkurat som Pearson.


Pearsons produkt-moment korrelasjonskoeffisient

Pearsons korrelasjonskoeffiient kalles gjerne r. Den er forklart her på Wikipedia. Kort sagt angir den hvor nær en rett linje skatterplottet mellom x og y er. r er ikke er robust mot slengere. Et veldig avvikende xy par får urimelig stor innflytelse. Den er forklart nærmere, med ligninger, i det tidligere innlegget.

Spearman rangkorrelasjonskoeffisient

Spearman rangkorrelasjonskoeffisient kalles gjerne ρ (rho). Den er forklart her på Wikipedia. I beregningen av ρ blir hver x og y verdi erstattet av indeksen de har i sorterte x y vektorer. Når to eller flere x eller y verdier er like store, får de en indeks som er gjennomsnittet av indeksene til de like verdiene. Deretter beregnes Spearman på samme måten som Pearson, som forklart i det tidligere innlegget.

Kendall rangkorrelasjonskoeffisient

Kendall rangkorrelasjonskoeffisient kalles gjerne τ (tau). Den er forklart her på Wikipedia. I beregningen av τ blir alle mulige kombinasjoner av par med x y verdier sammenlignet med hverandre. Hvis både x og y øker fra det første til den andre xy settet i paret, er paret samstemmende (concordant). Hvis begge minker, er paret uoverenstemmende (discordant). Hvis x og eller y verdiene er like, er paret bundet (tied), dvs. hverken samstemmende eller uoverenstemmende. Når vi ikke kompenserer for par som er bundet, kaller vi korrelasjonskoeffisienten for τA. Det er vanlig å kompensere for par som er bundet, og koeffisienten kaller vi da τB. Ligning (1) viser hvordan τB beregnes.


Jeg slet litt med å forstå hva txi og tyi er, og med hvordan de regnes ut. La oss ta et eksempel med x. To verdier i x vektoren går igjen flere ganger. Den første verdien blir gjentatt 4 ganger og den andre verdien 3 ganger. Da er tx0 lik 4 og tx1 lik 3.

Anscombes kvartett

Anscombe's kvartett er fire sett med 11 xy verdier hver. Skatterplotene mellom x og y i figur 1 viser at settene har helt forskjellige egenskaper, selvom flere statistiske beregninger på dem gir samme resultater.

Dette gjelder for de fire settene:
  • x har middelverdi 9.00 og standardavvik 3.22
  • y har middelverdi 7.50 og standardavvik 2.03
  • Pearsons korrelasjonskoeffisienten mellom x og y er 0.82 med p verdi 0.0022, dvs. at den er statistisk signifikant på 99% konfidensnivå.
  • Regresjonslinjen har helning 0.50 med p verdi 0.0022. Skjæringspunktet med y aksen er 3.00
Rangkorrelasjonskoeffisientene  ρ og τB er forskjellige for de fire settene, som vist i figur 1.

Figur 1. Anscombes kvartett.
Korrelasjonskoeffisient mellom x og y beregnet med tre alternativer:  Pearson r, Spearman ρ og Kendall τB.
I det første settet (x1 og y1 i det øverste venstre subplotet) ser det ut til å være en lineær sammenheng mellom x og y og noe tilfeldig støy på y. Da gir lineær regresjonsanalyse og Pearson  korrelasjonskoeffisient resultater som OK beskriver dataene. Kendal τB ser intuitivt ut til å være for liten.

Sett nummer to viser en klar sammenheng mellom x og y, men den er ikke lineær. Sammenhengen må beskrives anderledes enn med en lineær trendlinje og Pearsons korrelasjonskoeffisient. Kendal τB ser ut til å være mest representativ.

De to siste settene har begge hver sin slenger (outlier). Ofte er slengeren en feilmåling som bør fjernes. Men den kan også være tegn på noe annet som må analyseres separat. Uansett er det misvisende med en lineær trendlinje og korrelasjonskoeffisient når slengerene er inkludert. I begge tilfellene synes jeg at Kendal τB beskriver sammenhengen best.

Etterord

Kendalls korrelasjonskoeffisient brukes ofte i statistiske hypotesetester for å sjekke om to variaber er statistisk avhengige av hverandre. Det er bakgrunnen for min fordypning i korrelasjonskoeffisienter. Jeg har kontrollregnet korrelasjonskoeffisientene som Humlum, Solheim og Stordahl (HSS) har regnet ut for korrelasjonen mellom atmosfærisk CO2 innhold og global temperatur. Verdiene mine stemte ovehodet ikke med HSS sine verdier når jeg brukte Pearson. HHS oppgir ikke hvilken koeffisient de bruker, og da er det rimelig å anta at de bruker Pearson som er den vanligste. Jeg prøvde med Spearman og Kendall. Spearman ga omtrent samme resultat som Pearson. Men Kendall τB ga et helt annet resultat, og det stemte med HSS sine verdier. Jeg kommer tilbake til dette i et senere blogginnlegg.

Ingen kommentarer:

Legg inn en kommentar