lørdag 22. februar 2014

Utledning og tolkning av helningen i lineær regresjonsanalyse

Mange tidligere innlegg på bloggen handler om lineær regresjonsanalyse. Der har jeg skrevet at regneark og matematikkprogram inneholder bibliotekfunksjoner for å regne ut helningen til regresjonslinjen og dens skjæringspunkt med den vertikale y aksen. Nå vil jeg vise hvordan formlene for disse verdiene kan utledes.

Formelen for helningen kan også skrives som kovariansen mellom X og Y dividert med variansen til X. Den siste delen av innlegget utleder denne sammenhengen.

Disse utledningene er enkel matematikk som alle med realfaglig bakgrunn og interesse kan gjennomføre. Jeg skriver innlegget fordi jeg tror at kjennskap til disse utledningene øker forståelsen av lineær regresjonsanalyse. Jeg tror også at jevnlig gjennomgang av slike utledninger hjelper til å vedlikeholde egne matematikkferdigheter.

Jeg skrevet fem innlegg på engelsk om statistisk analyse av global overflatetemperatur etter at dette innlegget ble lagt ut. Det første av disse gjentar matematikken i dette innlegget. Det gjøres for at de fem innleggene på engelsk skal bli mer fullstendige enn de ville vært uten.


Utlede skjæringspunkt a og helning b

Vi har n målinger av X og Y som hører sammen. F.eks. kan xi være et tidspunkt og yi målingen ved det tidspunktet. I lineær regresjonsanalyse er modellen en lineær sammenheng mellom X og Y, som vist i (1).




Hver enkelt måling avviker litt fra modellen. Avviket omtales som error eller residual. Residualet ei til måling nummer i er vist i (2).




I vanlig lineær regresjonsanalyse bestemmer vi a og b slik at summen av residualene opphøyd i andre blir minst mulig. Denne summen kalles SSE (Sum of Squared Errors). Matematisk er den gitt av (3), der vi bruker verdien for ei slik den fremkommer i (2).










Med et gitt målesett bestående av n målinger (xi , yi) er SSE en funksjon av a og b. Minimum av SSE kjennetegnes av at den deriverte av SSE mht. både a og b er null. I (4) deriverer vi SSE mht. a.














I (5) deriverer vi SSE mht. b. I overgangen mellom andre og tredje linje i (5) deler vi på 2 og setter inn a slik den er beregnet i (4).














I (6) løser vi (5) mht. b















(6) kan skrives som (7), der vi bl.a. har dividert på n i både teller og nevner.






(7) og den siste linjen i (4) viser hvordan helningen b og skjæringspunktet a beregnes i en lineær regresjonsanalyse.

Varians og kovarians

Variansen til en variabel X er et mål på variasjonen i X. Matematisk er den gitt av (8), der operatoren E betyr forventet verdi av.
















Kovariansen mellom to variabler X og Y er et mål på samvariasjonen mellom dem. Positiv samvariasjon vil si at de har en tendens til å variere i samme retning, f.eks. at Y har en tendens til å øke når X øker. Matematisk er kovariansen gitt av (9).













Helningen b angitt med varians og kovarians

Kovariansen mellom X og Y (9) er identisk med telleren i (7). Variansen til X (8) er identisk med nevneren i (7). Helningen til regresjonslinjen (7) kan derfor omskrives som vist i (10).











Den første linjen i (10) gir en intuitiv forståelse av helningen. Det ingen samvariasjon mellom X og Y når kovariansen mellom dem er null. Da er trendlinjen beregnet med lineær regresjonsanalyse helt flat. Trendlinjen er stigende når kovariansen er positiv og synkende når kovariansen er negativ. Hvor bratt helningen er avhenger av både kovariansen og om det er størst variasjon i X eller i Y. Stor variasjon i X bidrar til slak helning, mens stor variasjon i Y bidrar til bratt helning.

Den siste linjen i (10) er grei hvis en skal beregne helningen uten bruk av bibliotekfunksjoner.

Ingen kommentarer:

Legg inn en kommentar