mandag 14. mai 2012

Korrelasjonskoeffisient og Anscombes kvartett

Korrelasjon mellom 2 variabeler eller datasett betyr at det kan være en kobling mellom dem. Det er positiv korrelasjon når variabelene har en tendens til å endre seg i samme retning, eksempelvis at når x øker i verdi gjør y det samme. Det er negativ korrelasjon når variabelene har en tendens til å endre seg i motsatt retning. Korrelasjon mellom to variabeler kan bety at den ene variabelen er en funskjon av den andre, men det er ikke nødvendigvis slik. Korrelasjonen kan være helt tilfeldig, eller det kan være noe annet som styrer de to variabelene som vi undersøker.

I dette innlegget vil jeg gå gjennom hvordan korrelasjonskoeffisienten regnes ut. Jeg vil også gå gjennom et kjent eksempel som viser at både korrelasjonskoeffisient og en lineær regresjonsanalyse kan være misvisende. Jeg gjør dette som bakgrunn for en senere omtale av to artikler som jeg mener gir misvisende konklusjoner fordi lineær regresjonsanalyse og korrelasjonskoeffisienter brukes ukritisk.

Pearsons korrelasjonskoeffisient

Det er flere måter å regne ut korrelasjonen mellom to variabeler på. Den vanligste er Pearsons korrelasjonskoeffisient r. Den angir lineariteten mellom 2 variabeler. Det illustreres best ved å regne ut regresjonslinjen, og så tegne den inn i et skatterplot mellom variabelene, som vist i figur 1. Korrelasjonen er sterk når de vertikal avstandene mellom xy observasjonene og regresjonslinjen er små. Avstandene er vist med røde stiplete linjer i figuren.
Figur 1  Pearson korrelasjonskoeffisient regnet ut på et xy datasett.
I figur 1 er Pearsons korrelasjonskoeffisient r lik 0.816 med p verdi 0.002. Sistnevnte betyr at det bare er 0.2% sannsynlighet for at 11 tilfeldige xy verdier gir en i tallverdi like stor eller større korrelasjonskoeffisient. Dvs. at r er signifikant på 99% konfidensnivået.

Helningen til regresjonslinjen i figur 1 er 0.5 med p verdi 0.002. Det er ingen direkte sammenheng mellom helningen og korrelasjonskoeffisienten, men p verdien til korrelasjonskoeffisienten og p verdien til helningen er alltid like.

r er alltid mellom -1 og + 1. Den er +1 hvis alle punktene i skatterplotet ligger på  en rett linje som peker oppover, og den er -1 hvis alle punktene ligger på  en rett linje som peker nedover. I begge tilfellende er det en perfekt lineær sammenheng mellom variabelene.

Jeg bruker formelen for Pearsons korrelasjonskoeffisient rxy slik den er definert på mange nettsteder. På denne wikipedialinken er formelene for å regne ut rxy og den tilhørende t verdien som vist under:
Ligning (1) viser korrelasjonskoeffisienten rxy for et sett (sample på engelsk) med xy verdier. Korrelasjonskoeffisienten for alle mulige xy verdier, dvs. for hele populasjonen, kalles ofte ρ.

Ligning (2) viser t verdien for korrelasjonskoeffisienten. Nullhypotesen er at det ikke er noen korrelasjon mellom x og y, og t brukes for å regne ut sannsynligheten for at nullhypotesen er riktig. Denne sannsynligheten er korrelasjonskoeffisientens p verdi. Den alternative hypotesener sier at det er en korrelasjon mellom x og y. Den beregnet korrelasjonskoeffisienten er statistisk signifikant på 95% konfidensnivået hvis p verdien dens er mindre enn 0.05. Da er det mindre enn 5% sannsynlighet for at helt tilfeldige xy verdier vil gi en i tallverdi like stor eller større korrelasjonskoeffisient.

t er Student T sannsynlighetsfordelt med N-2 frihetsgrader fordi vi regner på nullhypotesen. I dette innlegget har jeg tidligere forklart hvordan Student T fordelingen brukes for å regne ut p verdien.

Korrelasjonskoeffisient for ukorrelerte x y

Selvom en beregnet korrelasjonskoeffisient r er signifikant på 95% konfidensnivået, er det 5% sannsynlighet for at det ikke er en reel korrelasjon mellom variabelene, dvs at ρ er null. Jeg har simulert mange sett med 11 xy verdier trukket fra en populasjon med ρ lik null, dvs. fra en populasjon uten korrelasjon mellom x og y. Jeg adderte en normalfordelt støy til xy observasjonene, og derfor ble det alltid regnet ut en r forskjellig fra null. Figur 2 viser 4 slike sett med simulerte xy verdier.

Figur 2. Fire tester der vi regnet ut korrelasjonskoeffisienten r for xy data som er ukorrelerte.
r ble forskjellig fra null pga. normalfordelt støy på dataene.

Jeg gjorde 100 000 tester tilsvarende de 4 som er vist i figur 2. For hver test talte jeg opp når p-verdien var mindre enn henholdsvis 0.1,  0.05 og  0.01. Resultatet stemte veldig bra med teorien.
  • 10.11 % av testene fikk p mindre enn 0.1
  •   5.07 % av testene fikk p mindre enn 0.05 
  •   1.05 % av testene fikk p mindre enn 0.01


Anscombes kvartett

Korrelasjonskoeffisienten er bare et tall, og det sier ikke alt om sammenhengen mellom x og y. Både Wikipedia og andre referanser på nettet understreker at det er helt nødvendig å vurdere skatterplot mellom x og y visuelt i tillegg til å se på korrelasjonskoeffisienten. 

Anscombe's kvartett er fire sett med 11 xy verdier hver. Skatterplotene mellom x og y i figur 3 viser at settene har helt forskjellige egenskaper, selvom statistiske beregninger på dem gir samme resultater.

Dette gjelder for de fire settene:
  • x har middelverdi 9.00 og standardavvik 3.22
  • y har middelverdi 7.50 og standardavvik 2.03
  • Korrelasjonskoeffisienten mellom x og y er 0.82 med p verdi 0.0022, dvs. at den er statistisk signifikant på 99% konfidensnivå.
  • Regresjonslinjen har helning 0.50 med p verdi 0.0022. Skjæringspunktet med y aksen er 3.00

Figur 3 viser Anscombes kvartett:
Figur 3. Skatterplot av Anscombes kvartett
I det første settet (x1 og y1 i det øverste venstre subplotet) gir lineær regresjonsanalyse og korrelasjonskoeffisient resultater som OK beskriver dataene.

Sett nummer to viser en klar sammenheng mellom x og y, men den er ikke lineær. Sammenhengen må beskrives anderledes enn med en lineær trendlinje og Pearsons korrelasjonskoeffisient.

De to siste settene har begge hver sin slenger (outlier). Ofte er slengeren en feilmåling som bør fjernes. Men den kan også være tegn på noe annet som må analyseres separat. Uansett er det misvisende med en lineær trendlinje og korrelasjonskoeffisient når slengerene er inkludert.



Ingen kommentarer:

Legg inn en kommentar