onsdag 9. mai 2012

Konfidensintervall for estimat og prediksjon

I lineær regresjonsanalyse tar vi utgangspunkt i et sett med xy verdier. X er den uavhengige variabelen, og y er antatt å være en lineær funksjon av x. Observasjonene av y er antatt å ha overlagret en tilfeldig støy. I et tidligere blogginnlegg gikk jeg gjennom noen av formelene for statistikk tilknyttet dette. Her var tiden den uavhengige variabelen x, og global temperatur var den avhengige variabelen y. Standardfeilen til regresjonsanalysen, SEregression, ble definert. Den angir hvor godt de observerte y verdiene passer til den beregnete regresjonslinjen. Den var basis i utregningen av p-verdien, som angir graden av statistisk signifikans for regresjonslinjen.

Resultatet fra en lineær regresjonsanalyse kan brukes til å estimere (prediktere) y gitt en x verdi. Prediksjoner om noe som kan observeres eller måles en gang i fremtiden, har en iboende usikkerhet. Prediksjoner basert på en lineær regresjonsanalyse er intet unntak. Innlegget som du leser nå, går gjennom denne usikkerheten. Jeg gjør det som bakgrunn for en omtale av to artikler som Solheim, Storholt og Humlum (SSH) har skrevet, der de predikterer sterkt fallende temperatur i solsyklusen som vi er inne i nå. Av forskjellige grunner mener jeg at prediksjonene deres er svært lite sannsynlige, noe jeg kommer tilbake til i et senere innlegg. Jeg vil først gå gjennom noe av det matematiske grunnlaget for usikkerhetene til estimater og prediksjoner.


Resten av innlegget
  • Går gjennom ligningene som beskriver standardfeil og konfidensintervall for estimater og prediksjoner. 
  • Viser standardfeil og 95% konfidensintervall til estimater og prediksjoner grafisk.
  • Gjengir resultater fra tester med simulerte data.

Forklaring av ligningene

Ligningene og symbolene som jeg bruker i dette innlegget, er vist under. (Ligningene ligger i en gif file som du kan åpne i et eget vindu mens du leser forklaringene.)


Ligning (1) representerer hypotesen om at det er en lineær sammenheng mellom x og y, og at det er en tilfeldig støy e på observasjonene av y

Lineær regresjonsanalyse med de N settene med xiyi gir en beregnet regresjonslinje med helning ß1 og skjæringspunkt ß0 med y aksen. Regresjonslinjen kan brukes for å estimere/prediktere en ŷ gitt en x verdi, som vist i ligning (2).

Standardfeilen til regresjonsanalysen regnes ut som vist i ligning (3). Den angir hvor godt yi observasjonene passer til regresjonslinjen.

ŷ er estimat av y ved en gitt x. ŷ kan tolkes enten som estimat av korrekt y verdi eller som prediksjon av en fremtidig y observasjon. Jeg bruker betegnelsen ŷestimate når ŷ tolkes som estimat av korrekt verdi, og ŷpredict når ŷ tolkes som prediksjon av en fremtidig y observasjon. ŷ er den samme ved begge tolkningene, men standardfeilen SE, dvs. usikkerheten, er forskjellig. SE(ŷestimate) inneholder bare usikkerheten til regresjonsanalysen, som vist i ligning (4). SE(ŷpredict) inneholder i tillegg usikkerheten til den fremtidige observasjonen, som vist i ligning(5). Legg merke til at SE i både ligning (4) og (5) avhenger av x. SE er minst rundt middelverdien av xi, og vokser når x fjerner seg fra middelverdien. Det er intuitivt riktig; vi har best nøyaktighet i området der observasjonene for regresjonsanalysen ble gjort.

Denne referansen forklarer forskjellen mellom SE(ŷestimate) og SE(ŷpredict) på samme måte som jeg nettopp har gjort. I denne referansen ser de på SE(ŷestimate) som standardfeilen til ŷ relativt middelverdien av veldig mange fremtidige y observasjoner. Disse er korrekt y pluss en tilfeldig støy e. Middelverdien av tilfeldig støy er null, så derfor er forklaringene i praksis like. I klimasammenheng er y vanligvis tidsavhengig, og det er derfor bare mulig å gjøre en fremtidig observasjon. Jeg har derfor valgt å bruke forklaringene fra den førstnevnte referansen. Begge referansene bruker samme ligninger som jeg har gjengitt i (4) og (5).

SSH predikterer temperatur i solsyklusen som vi er inne i nå basert på en sammenheng mellom middeltemperaturen i en solsyklus og lengden på den foregående solsyklusen. Denne prediksjonen kan vi sjekke når inneværende solsyklus er ferdig om ca 10 år. Vi må bruke ligning (5) i forbindelse med denne sjekken, fordi inneværende solsyklus bare skjer en gang. Men for å anslå usikkerheten i prediksjonen til SSH må vi bruke ligning (4), fordi den angir usikkerheten forbundet med regresjonsanalysen uten å ta med usikkerhet tilknyttet observasjon av temperaturen i inneværende solsyklus.

Avviket mellom observasjonene yi og regresjonslinjen ved xi er Student T sannsynlighetsfordelt med antall frihetsgrader lik antall observasjoner N minus 2. Ligning (6a) og (6b) angir 95% konfidensintervallet for ŷestimate og ŷpredict. Bruken av Student T sannsynlighetsfordelingen har jeg forklart nærmere her.


Grafisk visning av standardfeil og 95% konfidensinterval

Figur 1.  Standardfeil og 95% konfidensinterval for estimering og prediktering.
Utgangspunktet er et sett med 11 simulerte xy verdier.
Utgangspunktet for figur 1 er 11 sett med simulerte xy verdier. Den svarte streken viser den korrekte sammenhengen mellom x og y. Hver y observasjon er beheftet med tilfeldig støy, som i simuleringen har standardavvik 2. Observasjonene er tegnet inn som 11 blå punkter i figuren, med den beregnete regresjonslinjen tegnet som en blå strek.

Standardfeilen til regresjonen er anskueliggjort som stiplete blå streker på hver side av regresjonslinjen. Den er beregnet vha. ligning (3). Ca 2/3 av observasjonene bør ligge mellom de stiplete blå strekene.

Standardfeilen for ŷestimate er tegnet med stiplet rød strek, mens 95% konfidensintervallet er tegnet med heltrukket rød strek. Legg merke til at standardfeilen for ŷestimate er mindre enn standardfeilen til regresjonen i området der målingene ligger, men vokser seg større i området utenfor.

Standardfeil og 95% konfidensintervall for ŷpredict er tegnet tilsvarende med grønn farge. Legg merke til at standardfeilen for ŷpredict alltid er større enn standardfeilen til regresjonen, fordi den inneholder både usikkerhet til regresjonskurven og usikkerheten til den fremtidige observasjonen.

Estimering av y ved x lik 50, 70 og 90 er tegnet som røde stjerner på regresjonslinjen og i forlengelsen av denne. Disse estimeringene, eller prediksjonene, er det beste vi kan gjøre etter å ha utført regresjonsanalysen. I vårt tilfelle simulerer vi x og y, dvs. at vi kjenner fasiten. Den er tegnet inn som sorte stjerner langs linjen for den korrekte sammenhengen mellom x og y. Figuren viser ett eksempel av støyen. I dette eksempelet er to av de korrekte y verdiene utenfor båndet markert av de røde stiplete linjene. Statistisk skal bare en av tre være utenfor, men i et vilkårlig eksempel er det helt vanlig at to er utenfor. Alle de tre korrekte verdiene er godt innenfor innenfor båndet markert av de heltrukne røde strekene, dvs. at feilen på alle tre ŷestimat er godt innenfor 95% konfidensintervallet.

Observasjoner ved x lik 50, 70 og 90 er tegnet inn som grønne stjerner. De er korrekt y pluss en simulert støy, som vist i ligning (1). En av de tre observasjonene er utenfor båndet dannet av de stiplete grønne linjene, og ingen av dem er utenfor båndet dannet av de grønne heltrukne strekene. Det er som forventet med tre tilfeldige observasjoner.

Resultater fra tester med simulerte data

Figur 1 viser resultatet fra en simulering med 11 xy verdier og en påfølgende beregning av regresjonslinjen. Tre estimater er tegnet inn på regresjonslinjen. Figuren viser også tre xy observasjoner etter at  regresjonslinjen er beregnet. Programmet gjør 100 000 slike simuleringer, men tegner figuren bare for en av simuleringene.

Etter hver simulering tester programmet om feilen på ŷ relativt korrekt y er større enn henholdsvis SE(ŷestimat) og CI95%estimat). Programmet tester også om feilen på ŷ relativt observet y er større enn henholdsvis SE(ŷpredict) og CI95%predict). Resultatet er:

For feilen på ŷ relativt korrekt y:
  • 4.98% av tilfellene har korrekt y utenfor 95 % konfidensintervallet CI95%estimate). Forventet prosentsats er 5%.
  • 34.31 % av tilfellene har korrekt y utenfor ŷ ± SE(ŷestimate). Forventet prosentsats er 34.34%, regnet ut med Student T sansynlighetsfunksjonen med 9 frihetsgrader.
For feilen på ŷ relativt observert y:
  • 4.96% av tilfellene har observert y utenfor 95 % konfidensintervallet CI95%predict). Forventet prosentsats er 5%.
  • 34.32 % av tilfellene har observert y utenfor ŷ ± SE(ŷpredict). Forventet prosentsats er 34.34%, regnet ut med Student T sansynlighetsfunksjonen med 9 frihetsgrader.
Statistikkresultatene er praktisk talt de samme for x lik 50, 70 og 90. Resultatene bekrefter at både ligningene og tolkningene av dem er riktige.

Etterord oktober 2014

I teksten over henviser jeg til to referanser for standardfeilen til estimat og til prediksjon. Senere har jeg lest mye i boken Statistical Analysis in Climate Research av Hans Von Storch og Francis W Zwiers. Den er utgitt av Cambridge University Press i 1999 med ISBN 0 511 01018 4 virtual. Det er en god og anerkjent lærebok, og jeg ville nå brukt den som referanse.

Kapitell 8.3.10 i boken til Storch handler om konfidensintervall for estimat, og min ligning (4) er den samme som hans ligning (8.23). Kapitell 8.3.11 handler om konfidensintervall for prediksjon, og min ligning (5) er den samme som hans ligning i det kapitlet. Begge kapitlene beregner konfidensintervall slik jeg gjør i ligning (6a) og (6b).

Storch skriver at vi må tenke på et konfidensintervall som en variabel basert på et sett med målinger. Ofte kan vi gjøre flere sett med målinger for å beregne en verdi. Hvert sett med målinger vil resultere i en beregnet verdi og et konfidensintervall rundt denne. Konfidensintervallene er normalt forskjellige, noe Storch viser i sin Figur 5.4. Vi kan oppleve at to av disse konfidensintervallene ikke engang overlapper hverandre. Det er forvirrende å si at det er 95% sannsynlighet for at korrekt verdi er innenfor grensene til et beregnet konfidensintervall, for det indikerer at korrekt verdi er en variabel. Vi kjenner ikke korrekt verdi, men vi vet at det bare er en korrekt verdi og at den ikke er en variabel. Den kan umulig være innenfor to konfidensintervall som ikke overlapper hverandre. Det korrekte er å si at det er 95% sannsynlighet for at et konfidensintervall omfavner korrekt verdi.

Ingen kommentarer:

Legg inn en kommentar