To rangkorrelasjonskoeffisienter er de vanligste alternativene til Pearson. Det avgjørende i beregningen av disse er den relative rangeringen av dataene, ikke datene selv. Eksempelvis er koeffisienten lik 1 hvis både x og y verdiene hele tiden stiger utover i vektorene sine, uavhengig av hvor mye eller hvor lite de stiger fra en verdi til den neste. Rangkorrelasjonskoeffisienter er robuste mot slengere. Eksempelvis betyr det ingenting om den største x verdien er litt større enn den nest største eller veldig mye større. Rangkorrelasjonskoeffisientene er alltid mellom +1 og -1, akkurat som Pearson.
Pearsons produkt-moment korrelasjonskoeffisient
Pearsons korrelasjonskoeffiient kalles gjerne r. Den er forklart her på Wikipedia. Kort sagt angir den hvor nær en rett linje skatterplottet mellom x og y er. r er ikke er robust mot slengere. Et veldig avvikende xy par får urimelig stor innflytelse. Den er forklart nærmere, med ligninger, i det tidligere innlegget.Spearman rangkorrelasjonskoeffisient
Spearman rangkorrelasjonskoeffisient kalles gjerne ρ (rho). Den er forklart her på Wikipedia. I beregningen av ρ blir hver x og y verdi erstattet av indeksen de har i sorterte x y vektorer. Når to eller flere x eller y verdier er like store, får de en indeks som er gjennomsnittet av indeksene til de like verdiene. Deretter beregnes Spearman på samme måten som Pearson, som forklart i det tidligere innlegget.Kendall rangkorrelasjonskoeffisient
Kendall rangkorrelasjonskoeffisient kalles gjerne τ (tau). Den er forklart her på Wikipedia. I beregningen av τ blir alle mulige kombinasjoner av par med x y verdier sammenlignet med hverandre. Hvis både x og y øker fra det første til den andre xy settet i paret, er paret samstemmende (concordant). Hvis begge minker, er paret uoverenstemmende (discordant). Hvis x og eller y verdiene er like, er paret bundet (tied), dvs. hverken samstemmende eller uoverenstemmende. Når vi ikke kompenserer for par som er bundet, kaller vi korrelasjonskoeffisienten for τA. Det er vanlig å kompensere for par som er bundet, og koeffisienten kaller vi da τB. Ligning (1) viser hvordan τB beregnes.
Jeg slet litt med å forstå hva txi og tyi er, og med hvordan de regnes ut. La oss ta et eksempel med x. To verdier i x vektoren går igjen flere ganger. Den første verdien blir gjentatt 4 ganger og den andre verdien 3 ganger. Da er tx0 lik 4 og tx1 lik 3.
Anscombes kvartett
Anscombe's kvartett er fire sett med 11 xy verdier hver. Skatterplotene mellom x og y i figur 1 viser at settene har helt forskjellige egenskaper, selvom flere statistiske beregninger på dem gir samme resultater.
Dette gjelder for de fire settene:
- x har middelverdi 9.00 og standardavvik 3.22
- y har middelverdi 7.50 og standardavvik 2.03
- Pearsons korrelasjonskoeffisienten mellom x og y er 0.82 med p verdi 0.0022, dvs. at den er statistisk signifikant på 99% konfidensnivå.
- Regresjonslinjen har helning 0.50 med p verdi 0.0022. Skjæringspunktet med y aksen er 3.00
Rangkorrelasjonskoeffisientene ρ og τB er forskjellige for de fire settene, som vist i figur 1.
Figur 1. Anscombes kvartett. Korrelasjonskoeffisient mellom x og y beregnet med tre alternativer: Pearson r, Spearman ρ og Kendall τB. |
Sett nummer to viser en klar sammenheng mellom x og y, men den er ikke lineær. Sammenhengen må beskrives anderledes enn med en lineær trendlinje og Pearsons korrelasjonskoeffisient. Kendal τB ser ut til å være mest representativ.
De to siste settene har begge hver sin slenger (outlier). Ofte er slengeren en feilmåling som bør fjernes. Men den kan også være tegn på noe annet som må analyseres separat. Uansett er det misvisende med en lineær trendlinje og korrelasjonskoeffisient når slengerene er inkludert. I begge tilfellene synes jeg at Kendal τB beskriver sammenhengen best.
Ingen kommentarer:
Legg inn en kommentar