Mnoho lidí má problém s počty, a to zejména v oblasti pravděpodobnosti. Začátkem letošního roku (s náhodnou předvídavostí) jsme ve škole, kde pracuji, jako součást našeho „rozšiřování obzorů“ mimo školních osnov pro středoškoláky, s několika kolegy studentům prezentovali problém k vyřešení, zahrnující nedokonalé metody testování vzácných onemocnění. Řešení takových problémů může přinést překvapivé výsledky – takové, které i bystří studenti často zdráhají přijmout.
Například pokud je incidence (výskyt) onemocnění v populaci 0,1 % a test má míru falešné pozitivity 5 %, tak pravděpodobnost, že náhodně vybraný pozitivně testovaný jedinec dané onemocnění skutečně má, je přibližně jedna ku padesáti: přibližně 2 % neboli pravděpodobnost 0,02.
I když je snadné to ukázat, tak je pozoruhodné, jak rezistentních mnoho velmi inteligentních lidí k takovému závěru je, i když jim je předložen důkaz. „Test je ale z 95 % spolehlivý“, protestují. „Jak je možné, že osoba s pozitivním testem může mít méně než 95% pravděpodobnost onemocnění?“
Takový druh odpovědi si zasluhuje pozornost, protože jde o příklad závažného nepochopení příslušných údajů (a/nebo terminologie používané k popisu těchto údajů); a je to selhání, které činí lidi slepými (nebo ještě hůře: rezistentními) vůči oprávněným obavám o významu publikovaných výsledků nedávného plošného testování – obavám, kterým se stále nedostává pozornosti širší veřejnosti, kterou si zaslouží.
Co je „95% spolehlivost“?
Uvažujte o tvrzení, že „test je z 95 % spolehlivý“, jako o interpretaci k údaji, že test má míru falešné pozitivity 5 % (a pro zjednodušení má 0% míru falešné negativity). Tato interpretace prozrazuje závažné nepochopení toho, co se rozumí „mírou falešné pozitivity“. Míra falešné pozitivity ve skutečnosti znamená podíl lidí bez onemocnění, jejichž testy vyjdou pozitivně. Zásadní je, že to není totéž jako
- podíl pozitivních testů, které jsou falešně pozitivní; nebo
- podíl ze všech testů, které jsou falešně pozitivní
Když běžní inteligentní lidé popisují test jako z 95 % spolehlivý, tak tím myslí, že 95 % výsledků, které přináší, je správných. Realita, týkající se míry falešné pozitivity („FPR“ – false positive rate), jak je ve skutečnosti definována, je však zcela odlišná: protože míra falešné pozitivity je definována jako procento jedinců, kteří nejsou infikováni, ale mají pozitivní test, tak z toho jednoduše nevyplývá, že 5% míra falešné pozitivity znamená 95% spolehlivost testu, jak je obvykle chápáno – i když předpokládáme nulovou míru falešné negativity. Spolehlivost (z laického pohledu) testu je spíše funkcí obou dvou faktorů: (i) tendencí testu jako pozitivní identifikovat lidi, kteří pozitivní nejsou, a (ii) celkovou prevalencí onemocnění ve společnosti.
Příklady
Tento jev je pro většinu lidí obtížné abstraktně uchopit. Je proto užitečné uvést různé příklady.
(Pozn. překl.: SARS-CoV-2 ani jiný patogenní virus se do dnešního dne nepodařilo izolovat, přestože řada vědců a vědeckých institucí tvrdí opak. Izolace viru je přitom zásadním krokem pro vytvoření jakéhokoli testu. Žádný z testů tedy nedetekuje SARS-CoV-2, všechny pozitivní výsledky takových testů jsou chybné, a proto všechny testy na SARS-CoV-2 vykazují 100% falešnou pozitivitu. Hlavním cílem tohoto příspěvku je poukázat na problémy s testováním obecně a vysvětlit pojmy, které mohou při nesprávné interpretaci vést k chybným závěrům o spolehlivosti testů.
Autor článku David Mackie zde pracuje s hypotézou, že testy opravdu detekují SARS-CoV-2. I v takovém případě by ale testy vykazovaly vysoká procenta falešné pozitivity a v praxi by to znamenalo, že většina pozitivních výsledků je falešně pozitivní, tedy že testy nesprávně označily zdravé osoby jako SARS-CoV-2 pozitivní. Na tento problém už dlouhodobě upozorňuje řada autorů. Pozitivní výsledky testů zdravých osob se běžně vysvětlují jako důkaz toho, že virus mohou přenášet i lidé asymptomatičtí, tedy lidé bez jakýchkoli příznaků daného onemocnění. To však nebylo nikdy prokázáno. Na základě těchto údajů, které absolutně neodpovídají realitě, jsou zaváděna přísná restriktivní opatření pro celé populace.)
Příklad č. 1: Ubiquovirus. Takto pojmenovaný, protože ho má téměř každý. Jeho incidence ve společnosti je 95 %.
Předpokládejme, že máme test s 5% mírou falešné pozitivity a že testujeme 100 000 lidí.
- Vzhledem k tomu, že incidence (výskyt) viru je 95 %, tak ze 100 000 lidí bude mít virus 95 000 lidí. 5 000 lidí není nakaženo.
- Jelikož míra falešné pozitivity je 5 %, tak 5 % z 5 000 lidí v našem vzorku, kteří nejsou nakaženi, bude mít falešně pozitivní výsledek testu. To dělá 250 falešně pozitivních výsledků testů.
- Pokud předpokládáme, že test nevykazuje žádné falešně negativní výsledky, tak test našich 100 000 občanů přinese 95 000 pravdivě pozitivních výsledků, 250 falešně pozitivních výsledků a 4 750 pravdivě negativních výsledků.
V případě Ubiquoviru má tedy pozitivní test spolehlivost 95 000 na 95 250. Pokud obdržíte pozitivní test, tak je 99,73% pravděpodobnost, že virus máte. Podle standardů většiny lidí to je spolehlivost celkem působivá.
Příklad č. 2: Aliquovirus. Incidence ve společnosti 50 %.
Opět předpokládejme, že máme test s 5% mírou falešné pozitivity a že testujeme 100 000 lidí.
- Vzhledem k tomu, že incidence viru je 50 %, tak 50 000 lidí ze 100 000 virus má. 50 000 lidí není nakaženo.
- Jelikož míra falešně pozitivních výsledků je 5 %, tak 5 % z 50 000 lidí v našem vzorku, kteří nejsou nakaženi, bude mít test falešně pozitivní. To dělá 2 500 falešně pozitivních výsledků testu.
- Pokud předpokládáme, že test neprodukuje žádné falešně negativní výsledky, tak testování našich 100 000 občanů přinese 50 000 pravdivě pozitivních, 2 500 falešně pozitivních a 47 500 pravdivě negativních výsledků.
V případě Aliquoviru má tedy pozitivní test spolehlivost 50 000 na 52 500. Pokud obdržíte pozitivní výsledek testu, tak je 95,24% pravděpodobnost, že virus máte. 95,2 % sice není 99,7 %; ale většina lidí by to pravděpodobně stále považovala za docela spolehlivé: je to pravděpodobně test, který se vyplatí koupit, pokud cena není příliš vysoká a pokud na výsledku záleží.
Příklad č. 3: Rarovirus. Incidence ve společnosti 5 %.
Znovu předpokládejme test s 5% mírou falešné pozitivity a to, že testujeme 100 000 lidí.
- Vzhledem k tomu, že incidence viru je 5 %, tak 5 000 z našich 100 000 lidí virus mít bude.
- Jelikož je míra falešné pozitivity 5 %, tak 5 % z 95 000 lidí v našem vzorku, kteří nejsou nakaženi, bude mít falešně pozitivní výsledek testu. To dělá 4 750 falešně pozitivních výsledků testů.
- Pokud předpokládáme, že test neprodukuje žádné falešně negativní výsledky, tak testování našich 100 000 občanů přinese 5 000 pravdivě pozitivních, 4 750 falešně pozitivních a 90 250 pravdivě negativních výsledků.
V případě Raroviru má pozitivní test spolehlivost 5 000 / 9750.
Pokud vám vyjde test pozitivně, máte 51,28% pravděpodobnost, že virus máte. To je podle názoru kohokoli dost nespolehlivé. Je těžké si představit běžné okolnosti, za kterých by racionální jedinec zaplatil jakoukoli významnou částku peněz za test tak nespolehlivý, jako je binární výsledek. (Pokud by někdo mohl opakovaně sázet obrovské sumy peněz, s malou pravděpodobností, že by určitá cena akcií v průběhu denního obchodování vzrostla nebo klesla, pak ano: test, který by zaručoval tak úzké rozpětí pravděpodobnosti, by mohl být prospěšný; ale to není ten druh situace, s níž máme co do činění, když se testujeme na COVID-19).
Jde o to, že pokud vás zajímá spolehlivost testu v běžném, laickém smyslu, potom znalost pouhé míry falešné pozitivity testu vám odpověď nedá. Míra falešné pozitivity byla ve všech třech příkladech stejná, a přesto spolehlivost, v laickém smyslu, pozitivního testu byla u každého zcela odlišná. Chcete-li určit spolehlivost, musíte zohlednit incidenci (výskyt) viru ve společnosti jako celku.
Je důležité si uvědomit, že tím, že se o „spolehlivosti“ vyjadřuji z „laického“ pohledu, tak ji tím neznevažuji. Naopak, jak spolehlivý test je v laickém slova smyslu, je životně důležité. Spolehlivost testu v tomto běžném smyslu určuje takové záležitosti, jako jsou:
- především jestli vůbec test nebo hromadné testování stojí za to provést;
- jaké potenciální riziko pro ostatní představuje jedinec, kterému vyšel test pozitivně, a jaké závěry z toho lze vyvodit;
- jaké závěry ohledně obecného výskytu infekce v komunitě lze oprávněně vyvodit;
- a následně jaký oprávněný vliv může počet pozitivních testů v komunitě mít na veřejnápolitická rozhodnutí.
Aplikace na SARS-CoV-2
Dobře, ale jak je to v případě SARS-CoV-2? Je spíše jako Ubiquovirus, nebo spíše jako Rarovirus? No, nejsem žádný vědec, ale je jasné, že SARS-CoV-2 není jako ani jeden z nich; podle všeho je mnohem vzácnější než Rarovirus; a protože tomu tak je, tak efekt jakékoli míry falešné pozitivity na spolehlivost v laickém smyslu je ještě výraznější.
Nikdo s jistotou nezná skutečnou míru incidence (výskytu) SARS-CoV-2 ve Velké Británii (nebo v jakékoli jiné zemi). 18. října uváděly vládní údaje pro Anglii hodnotu 1088,8 na 100 000. Mám podezření (z níže uvedených důvodů), že může jít o obrovské nadhodnocení; ale kvůli výkladu použijeme toto číslo.
Jaká je míra falešné pozitivity? Opět nikdo neví. Nejlepší odhad, který máme, je z metaanalýzy Andrewa Cohena a Bruce Kessela o externím hodnocení kvality RT-PCR testů RNA virů z let 2004 až 2019. Tato analýza odhalila míru falešné pozitivity 0-16,7 % s mezikvartilovým rozpětím 0,8– 4,0 % a mediánem 2,3 %.
Pro ilustraci předpokládejme, že pro míru falešné pozitivity vezmeme hodnotu mediánu 2,3 % a provedeme stejný experiment jako předtím: testujeme 100 000 lidí náhodně vybraných z naší populace.
- Vzhledem k tomu, že incidence (výskyt) je 1089 (zaokrouhleno nahoru) na 100 000, měli bychom očekávat, že 1089 lidí bude pozitivních. 98 911 lidí je negativních.
- Jelikož míra falešné pozitivity je 2,3 %, tak 2274 (zaokrouhleno dolů) z těchto 98 911 neinfikovaných jedinců bude mít pozitivní test.
- Celkový počet pozitivních testů (za předpokladu, že nebudou žádně falešně negativní výsledky) proto bude 1089 + 2274 = 3363.
Pokud máte pozitivní test, tak to nepředstavuje více než 1089 / 3363 šanci – neboli 32,4 % – že jste skutečně nakaženi.
Záměrem tohoto článku však není tvrdit, že toto jsou správné údaje. Ve skutečnosti se domnívám, že míra výskytu infekce, dle tvrzení vlády, je obrovsky zveličená, a to v nemalé míře právě proto, že vládní údaje lehkovážně předpokládají, že všechny pozitivní testy představují skutečné nakažené lidi, a ignorují obrovské zkreslení, kdy i malá procenta falešně pozitivních testů mohou mít vliv na jakýkoli realistický odhad výskytu infekce v komunitě. Mým cílem je pouze pomoci širší veřejnosti pochopit, jak dramaticky může být spolehlivost pozitivního testu zpochybněna nízkým procentem falešně pozitivních výsledků, zejména tam, kde je skutečná incidence nízká.
Navíc je to začarovaný kruh, protože čím větší je zkreslení způsobené tím, že se nezohlední pravděpodobnost falešně pozitivních výsledků, tím je pravděpodobnější, že skutečná incidence bude nižší než jaké jsou údaje vlády. A čím nižší je skutečná incidence, tím méně je pravděpodobné (při dané míře falešné pozitivity), že jakýkoli pozitivní test bude správný. Vezmeme-li jen jeden hypotetický příklad, pokud by skutečná incidence SARS-CoV-2 byla, řekněme, 50 na 100 000 lidí, pak i za předpokladu relativně nízké míry falešné pozitivity 1 % by spolehlivost (jednoduše řečeno) pozitivního testu byla jen 4,8 %:
- Testováno je 100 000 lidí
- Vzhledem k tomu, že incidence je 50 na 100 000, tak skutečně nakažených je 50 lidí
- Jelikož míra falešné pozitivity je 1 %, měli bychom očekávat 999 falešně pozitivních výsledků (zaokrouhleno dolů)
- Šance, že pozitivní test odráží skutečnou infekci je 50 na 1049 neboli 4,8 %
Závěr
Jak jsem řekl na začátku, mnoho inteligentních členů veřejnosti má problém s čísly. To je jeden z problémů – ten, na který jsem se zde snažil co nejlépe poukázat, tím, že jsem co nejpečlivěji vysvětlil, jak překvapivý dopad na spolehlivost testování může ve skutečnosti mít i nízká míra falešné pozitivity v případech, kdy je skutečná incidence infekce v komunitě nízká.
Druhým problémem je, že výsledky úvah tohoto druhu jsou tak překvapivé, že dokonce i ti, kteří dokážou údaje zpracovat, mohou mít sklon pochybovat o správnosti definic, na nichž jsou úvahy založeny. Statistik mi například řekl, že moje definice míry falešné pozitivity jako podílu neinfikovaných lidí, kteří mají pozitivní test, „musí“ být chybná: míra falešné pozitivity „musí“ místo toho být procentem pozitivních testů, které se ukážou být falešnými. To by samozřejmě dávalo jakýsi smysl; a skutečně by to znamenalo, že údaje pro míru falešné pozitivity by lépe odpovídaly běžné koncepci spolehlivosti testu. Ale není to pravda.
Jak jsem řekl, nejsem vědec; a netvrdím, že údaje v mém posledním příkladu (ani v žádném jiném) jsou skutečnými čísly. Mým hlavním cílem je pouze pokusit se vysvětlit úvahy, které vedou ke skutečným a oprávněným obavám o současných počtech pozitivních výsledků testů. To stojí za to udělat, protože zkušenost učí, že argumentace je pro mnohé obtížně srozumitelná – natolik, že někteří mají sklon pochybovat o zdravém rozumu těch, kteří ji předkládají.
Je zřejmé, že široká veřejnost je v současné době slepá k reálné možnosti, že spolehlivost pozitivního testu je významně nižší než 100 %; a že (trestuhodně) ani vláda, ani masmédia nedělají nic pro to, aby informovala veřejnost o takových věcech, které mají obrovský a zjevný význam pro morální a praktickou legitimitu opatření veřejné politiky, která jsou přijímána jako reakce na údaje z testování.
SOUVISEJÍCÍ ČLÁNKY