tirsdag 25. august 2020

Betinget sannsynlighet – Bayes teorem

Dette er det første av tre innlegg i en miniserie om betinget sannsynlighet og Bayes teorem. Det andre innlegget er Tolke medisinske tester og det tredje innlegget er Klima ─ Bayesiansk vs frekventistisk tankegang. Innleggene er samlet i denne pdf-filen.

Statistikk og sannsynlighetsregning er sentralt i klimavitenskapen når trender og sammenhenger skal beregnes og analyseres. Denne klimabloggen har derfor mange innlegg om matematisk statistikk og mange innlegg som bruker statistikk. Men ingen av innleggene så langt er om betinget sannsynlighet der vi basert på eksisterende og ny kunnskap skal ta stilling til en ja-nei problemstilling. Det vil de neste innleggene handle om.

Vi ønsker alle visshet når vi forholder oss til en problemstilling. Men ofte er ikke det mulig fordi selv de beste ekspertene på problemstillingen bare kan angi sannsynlighetene som de forskjellige mulighetene har. Mange synes at det er vanskelig å forholde seg til slik usikkerhet. De ønsker klare svar, dvs. enten eller. De ønsker ikke, kanskje klarer ikke, å forholde seg til sannsynligheter angitt i prosenter.

Ved å innføre betinget sannsynlighet blir det enda vanskeligere. I tillegg til å forholde oss til sannsynligheter må vi tolke dem i ly av allerede kjent kunnskap. Et ofte brukt eksempel på betinget sannsynlighet er mammografi-undersøkelser av alle kvinner ved en bestemt alder. En mammografi-undersøkelse vil med stor sannsynlighet gi et positivt resultat hvis kvinnen virkelig har brystkreft. Men det motsatte er ikke tilfelle. Selv om et prøvesvar er positivt, er det liten sannsynlighet for at kvinnen har brystkreft. For de fleste av oss føles dette intuitivt galt. Også de av oss som har satt seg godt inn i temaet, må ofte tenke seg om flere ganger for å forstå at det vanligvis er slikt. Hensikten med dette og de neste to innleggene er å forklare betinget sannsynlighet, både med matematikk og med eksempler, som forteller at det ofte er slik som nettopp beskrevet med mammografi. Matematikken forklares i dette innlegget. Hvordan den kan anvendes på henholdsvis medisinske tester og på observasjoner innen klimavitenskapen forklares i de påfølgende to innleggene.

Bayes teorem

Bayes teorem, som vist i ligning (1), er sentralt innen betinget sannsynlighet. 

A er en tilstand, hypotese eller lignende som er enten riktig eller gal. Innen medisin kan hypotesen være at pasienten er smittet med et bestemt virus. Vi bruker ofte ordet sann i stedet for riktig og ordet falsk i stedet for gal fordi det samsvarer bedre med true og false i engelsk tekst.

B er en test, prøve, observasjon eller lignende som enten øker eller reduserer sannsynligheten for at A er sann. Innen medisin kan det være en test for å se om et bestemt virus er tilstede. Hvis viruset er tilstede er prøven positiv og B er sann. Hvis de ikke finner viruset i prøven, er den negativ og B er falsk.

Tegnet │ leses som 'gitt at'. p(A│B) er sannsynligheten for at A er sann gitt at B er sann. For enkelthets skyld leses det som 'sannsynligheten for A gitt B'.

¬ er tegnet for logisk negasjon. ¬A betyr at A ikke er sann. dvs. falsk. I en av de kommende ligningene inngår leddet p(B│¬A). Det er sannsynligheten for at B er sann gitt at A er falsk.

Priori

p(A) i ligning (1) er sannsynligheten for at A er sann før vi gjør B. Det er priori kunnskap som vi ofte kjenner ganske godt. Innen medisin kan det være sannsynligheten for at en tilfeldig person innenfor den gruppen vi undersøker, er syk eller smittet av et bestemt virus. 

Noen ganger kjenner vi ikke p(A) godt. Et ferskt eksempel er når Covid-19 pandemien rammet Norge i begynnelsen av mars 2020. Eksperter sa da at de ikke hadde peiling på hvor mange som er smittet, som er en folkelig måte å si at de ikke kjente p(A).

I eksempelet med mammografi-testing av alle kvinner ved en bestemt alder, er priori sannsynlighet p(A) lav fordi de fleste kvinner heldigvis ikke har brystkreft. Det er hovedårsaken til at sannsynligheten for brystkreft gitt positiv prøve er liten, selv om sannsynligheten for positiv prøve gitt brystkreft er høy.

Innen medisin kalles priori for prevalens, og den angir utbredelsen av en sykdom eller smitte i befolkningen eller i en del av befolkningen.

Sensitivitet p(B│A)

Når vi gjør en test eller foretar en observasjon, dvs. gjør B, vet vi ofte sannsynligheten for å få en sann B gitt at A er sann. Denne sannsynligheten kalles sensitiviteten.

Sensitiviteten er p(B│A). Innen statistikk omtales den som sannsynligheten for sann positiv. Innen medisin kan den si hvor følsom testen B er mht. til å oppdage sykdommen A.

En minus sensitiviteten, dvs 1 – p(B│A), angir sannsynligheten for falsk negativ. Det skrives som p(¬B│A). Innen medisin kan det være sannsynligheten for en negativ prøve gitt at pasienten er syk, dvs. at testen ikke fanger opp at pasienten er syk. Det er alvorlig fordi en syk person uvitende om egen sykdom kan smitte andre.

Spesifisitet   {p(¬B│¬A)}

Når vi gjør en test eller foretar en observasjon, dvs. gjør B, vet vi ofte sannsynligheten for å få en falsk B gitt at A er falsk. Denne sannsynligheten kalles spesifisiteten.

Spesifisiteten er p(¬B│¬A). Innen statistikk omtales den som sannsynligheten for sann negativ. Innen medisin angir den sannsynligheten for negativ prøve gitt at pasienten er frisk. 

En minus selektiviteten, dvs 1 – p(¬B│¬A), angir sannsynligheten for falsk positiv. Det skrives som p(B│¬A). Innen medisin kan det være sannsynligheten for en positiv prøve gitt at pasienten er frisk, dvs. at testen ikke fanger opp at pasienten er frisk. Falske positive er alvorlig fordi de bidrar til at vi ikke kan stole på at de som tester positivt virkelig er syke.

Sannsynligheten for sann B   {p(B)}

Basert på priori, sensitivitet og spesifisitet kan vi regne ut sannsynligheten for sann B som vist i ligning (2). (Jeg utelater multiplikasjonstegnet der jeg synes at det er underforstått og bare ville redusert leseligheten.) De to leddene i ligningen baserer seg på at A må være enten sann eller falsk.


Sannsynlighet for sann positiv {p(A│B)}

Ligning (2) satt inn i (1) gir (3).  Ligning (3) angir sannsynligheten for sann positiv.



Sannsynlighet for sann negativ {p(¬A│¬B)}

Ved å sette negasjonsoperatoren ¬ foran både A og B i ligning (1) får vi ligning (4) for sann negativ test.

I ligning (5) regner vi ut sannsynligheten for falsk B på tilsvarende måte som vi nettopp gjorde for sann B i ligning (2).

Ligning (5) satt inn i (4) gir (6). Ligning (6) angir sannsynligheten for sann negativ.

Mange nettsider er viet til Bayes teorem og betinget sannsynlighet. Et innlegg på bloggen til Scientific American skriver at Bayes teorem, på tross av at det har vært kjent lenge, har kommet 'på moten' i det siste tiåret. Jeg har samme erfaring som forfatteren av det innlegget har. Jeg husker ikke Bayes teorem fra statistikkundervisningen på NTNU omkring 1970, men jeg har lest mye om det i de siste årene. Wikipedia har en omfattende forklaring av teoremet.

Mange kalkulatorer på nettet regner ut sannsynligheten for sann positiv og sann negativ basert på sensitivitet, spesifisitet og priori, tilsvarende ligningene (3) og (6) over. Men til min overraskelse kom jeg over et par som ikke kommer til samme resultat som jeg selv gjør med ligningene over. Heldigvis er det flere nettsider som med eksempler og kalkulator 'er enige' med ligningene over. Jeg anbefaler kalkulatoren til Vassarstats nederst på denne siden. Jeg har brukt den til å sjekker figurene som kommer i neste innlegg og noen kombinasjoner av sensitivitet, spesifisitet og priori. Kalkulatoren bruker ~ tegnet for logisk negasjon i stedet for ¬ tegnet. Ellers er notasjonen den samme som i innlegget du leser nå.




Ingen kommentarer:

Legg inn en kommentar