Dette er andre innlegg i en miniserie om betinget sannsynlighet og Bayes teorem. Det første innlegget er Betinget sannsynlighet – Bayes teorem og det tredje innlegget er Klima ─ Bayesiansk vs frekventistisk tankegang.
Nå i august 2020 er mye oppmerksomhet rettet mot covid-19 pandemien. Jeg vil derfor se nærmere på sannsynlighetene rundt testene som gjøres for å avdekke om personer er smittet av SARS-CoV-2 viruset som forårsaker covid-19. Positiv test betyr at testen tyder på at personen er smittet av viruset. Smittet betyr at personen virkelig er smittet av viruset. Sann positiv betyr at en smittet person tester positivt. Sann negativ betyr at en person som ikke er smittet, tester negativt.
Jeg tar utgangspunkt i to rapporter som opererer med litt forskjellige sannsynligheter for testenes sensitivitet og spesifisitet. Sensitivitet, spesifisitet og prevalens er forklart i det forrige innlegget. Kort sagt er sensitiviteten sannsynligheten for positiv test når personen er smittet, spesifisiteten er sannsynligheten for negativ test når personen ikke er smittet, og prevalensen er prosent smittede i en gruppe.
Folkehelseinstituttet (FHI) publiserte nettsiden Testkriterier for koronavirus allerede 8. februar 2020 og har holdt den oppdatert siden da. I den siste oppdateringen 26. august 2020 skriver de at PCR testen som de bruker, har sensitivitet 80 prosent og spesifisitet 99,9 prosent. De skriver videre at prevalensen i Norge er 0,01 prosent.
Rapporten Covid Reference Edition 4 ble sist oppdatert 11. august 2020. Den publiseres på nettsiden covidreference.com. Der står det at gjennomsnittet av anti-body testene godkjent av FDA har sensitivitet 84,9 prosent og spesifisitet er 98,6 prosent. Jeg vet ikke hvorfor det er såpass stor forskjell mellom disse verdiene og verdiene som FHI opererer med.
Sann positiv som en funksjon av prevalens
Det er viktig å vite sannsynligheten for at en som tester positivt virkelig er smittet. Figur 1 viser sannsynligheten for det. Den er beregnet som en funksjon av prevalens og for fem forskjellige spesifisiteter. Kurvene er beregnet vha. ligning 3 i det forrige innlegget.
Figur 1: Sannsynligheten for at en tilfeldig person som tester positiv, virkelig er smittet av SARS-CoV-2 viruset. Den vises som en funksjon av prevalens for fem forskjellige spesifisiteter. |
Figur 1 er beregnet med en sensitivitet på 80 prosent. Samme figur beregnet med en sensitivitet på 84,6 prosent er så lik at det ikke er mulig å se forskjell på dem. Det er nok overraskende for mange. Forklaringen er at det er falske positive prøveresultater som senker sannsynligheten i Figur 1, og sannsynligheten for det er (1-spesifisiteten). Vi ser derfor at sannsynligheten i figuren er mye bedre når spesifisiteten er høy enn når den er litt lavere.
Sannsynligheten for at en person med positivt prøvesvar virkelig er smittet, stiger når prevalensen øker. Det er forståelig. Når det er veldig lite smitte, er det veldig høy sannsynlighet for at et positivt prøvesvar er falskt. Tilsvarende, når det er veldig mye smitte, er det veldig liten sannsynlighet for at et positivt prøvesvar er falskt.
For å forstå hvorfor sannsynligheten i Figur 1 stiger når prevalensen øker kan vi gjøre et tankeeksperiment med ytterpunktene for prevalensen. Med null prevalens er det ingen smitte blant de som testes. Da må en positiv prøve være en falsk negativ, dvs. at sannsynligheten for at en som tester positivt virkelig er smittet må være null. Med 100 prosent prevalens er alle smittet. Da må en positiv prøve være sann, for alle er jo smittet.
Sann negativ som en funksjon av prevalens
Det er også viktig å vite sannsynligheten for at en som tester negativt ikke er smittet. Også det er en funksjon av prevalensen, som vist i Figur 2. Kurvene er beregnet vha. ligning 6 i det forrige innlegget.
Figur 2: Sannsynligheten for at en tilfeldig person som tester negativt, ikke er smittet av SARS-CoV-2 viruset. Den vises som en funksjon av prevalens for fem forskjellige sensitiviteter. |
Ingen kommentarer:
Legg inn en kommentar