| 11 min gelezen

Sensitiviteit, specificiteit, voorspellende waarden en likelihoodratio's voor Dummies

Diagnostische validiteit

Statistiek is een van de meest verwarrende onderwerpen voor fysio's en fysiostudenten. Hoogstwaarschijnlijk komt dit doordat we meer om mensen en gezondheid geven dan om wiskunde, toch?

Diagnostische validiteit

Nou, ik snap dat u meer geïnteresseerd bent in een goede beoordeling van uw patiënt, een goede behandeling en de nieuwste behandelmethoden, maar ik moet u zeggen dat u de statistische waarden moet kennen van een speciale test en zelfs cijfers over prevalentie, pre-test en post-test waarschijnlijkheid van vragen die u uw patiënten stelt tijdens uw hele anamnestische proces!
Ik durf zelfs te stellen dat u zonder de kennis van bovengenoemde cijfers geen idee hebt hoeveel waarde u kunt hechten aan bepaalde vragen die u uw patiënt stelt (en de antwoorden daarop) en dat u speciale tests zult uitvoeren zonder echt te weten wat een positief of negatief resultaat u zal vertellen.
Als ik zie of hoor dat een fysiotherapeut een speciale test zoals de Thessaly-test voor meniscusletsels uitvoert, die positief is, en hij achteraf 100% zeker weet dat zijn patiënt een meniscusletsel heeft, dan moet ik ineenkrimpen!
HOU DAAR ALSJEBLIEFT MEE OP!

Daarom dring ik er bij je op aan mijn post verder te lezen, waarin ik zal proberen u inzicht te geven in hoe je statistieken kunt en moet gebruiken om een betere fysio te worden en hoe die kennis jw bewustzijn van jouw klinisch redeneerproces vergroot!

In het algemeen begint jw met uw screening, dan uw anamnese, gevolgd door een basisbeoordeling. Op basis van de informatie die je tijdens de bovengenoemde onderdelen hebt gekregen, vorm je hypotheses die je wilt bevestigen of verwerpen.  Hier komen sensitiviteit en specificiteit om de hoek kijken. Laten we dus eerst eens kijken wat sensitiviteit en specificiteit zijn! De gemakkelijkste manier is om de korte video te bekijken die we een tijdje geleden hebben gemaakt:

Dus om het nog eens samen te vatten: Een negatief resultaat bij een 100% gevoelige test kan de ziekte uitsluiten (SnNOut) en een positief resultaat bij een 100% specifieke test kan de ziekte uitsluiten (SpPIn).

Een negatief resultaat bij een 100% gevoelige test kan de ziekte uitsluiten (SnNOut) en een positief resultaat bij een 100% specifieke test kan de ziekte uitsluiten (SpPIn).


Met de twee mnemonics SnNOut en SpPIn is het betrekkelijk eenvoudig om deze twee concepten in praktijk te brengen.
Meestal krijgt u een beter inzicht in hun definitie en wat ze eigenlijk zijn als u deze waarden kunt berekenen met behulp van een 2×2 tabel. Bekijk onze volgende video, die je laat zien hoe je het rekengedeelte doet:

Helaas zijn er in het echte leven nauwelijks 100% nauwkeurige tests, en daarom zal je veel vals-positieve en vals-negatieve resultaten hebben. Bovendien vertellen de sensitiviteit en de specificiteit ons hoe vaak een test positief is bij patiënten van wie we al weten of ze de ziekte hebben of niet. In de praktijk weten wij echter niet of onze patiënten een bepaalde aandoening hebben of niet. Wat wij in de praktijk liever doen, is de resultaten van een positieve of negatieve test interpreteren.
je weet meestal niet hoe groot de kans is dat de patiënt de ziekte daadwerkelijk heeft met een positief resultaat en hoe groot de kans is dat een patiënt de ziekte niet heeft met een negatief resultaat.
Deze waarden worden positief voorspellende waarde (PVW) en negatief voorspellende waarde (NNVW) genoemd, ook wel post-testkansen genoemd. Je raadt het al - we hebben nog een video die deze waarden uitlegt met behulp van de 2×2 tabel en je laat zien hoe je deze waarden kunt berekenen:

Zoals gezegd in de video zijn PVW en NVW geweldige hulpmiddelen als je een goed idee hebt van de prevalentie van je patiëntengroep en als die prevalentie identiek is aan de prevalentie van de RCT, waar je in de eerste plaats je statistische waarden voor een specifieke test vandaan hebt gehaald. Als dat niet het geval is, zijn PVW en NVW vrijwel nutteloos.
Stel je voor hoe de pre-test waarschijnlijkheid van een voorste kruisbandruptuur (VKB) verandert in verschillende omstandigheden: Zo zal de prevalentie van patiënten met een VKB scheur in een algemene praktijk veel lager zijn dan in een sportkliniek die gespecialiseerd is in knieblessures. Hoe hoger de prevalentie, hoe hoger de PPV en hoe lager de NPV.
Misschien zullen we daar in de toekomst ook een video over maken, maar het is belangrijk te onthouden dat we een betere waarde nodig hebben dan de PVW en NVW, en daar komen de likelihood ratio's om de hoek kijken.

De likelihood ratio combineert sensitiviteit en specificiteit en zegt ons hoe waarschijnlijk een bepaald testresultaat is bij mensen met de aandoening, vergeleken met hoe waarschijnlijk het is bij mensen zonder de aandoening. Bekijk de volgende video over likelihood ratios en hoe je ze kunt berekenen:

In het voorbeeld gebruikten we de Lachman-test, een van de meest nauwkeurige tests in de klinische praktijk, maar laten we eens kijken naar onze geliefde Thessaly-test en hoe ons voorbeeld daar uitpakt:
Volgens Goossens et al. (2015) heeft de Thessaly-test een sensitiviteit van 64% en een specificiteit van 53%, wat resulteert in een LR+ van 1,36 en een LR- van 0,68. Zoals je al ziet, liggen deze waarden vrij dicht bij LR = 1, wat ons vertelt dat ze de waarschijnlijkheid dat iemand een meniscusletsel heeft heel weinig veranderen. Om deze waarden toe te passen op het voorbeeld van onze VKB-scheur, weten we dat VKB-scheuren vaak gepaard gaan met meniscusscheuren. Hoewel onze patiënt geen vastzittend of knellend gevoel rapporteert, schatten wij de kans op een pre-test op ongeveer 30%.
Ons nomogram ziet er zo uit:

Nomogram Thessalië

Op basis van de (nauwkeurigere) berekeningen komen we uit op de volgende post-test kansen:
- Pre-test kansen: Prevalentie/(1-prevalentie) = 0,3/(1-0,3) = 0,43
- Post-test odds (LR+): 0,43 x 1,36 = 0,58
- Post-testkans (LR+): post-testkans / (post-testkans+1) = 0,58/(0,58+1) = 0,37 (dus 37%)
- Post-testkans (LR-): 0,43 x 0,68 = 0,29
- Post-test kans (LR-): post-test kans / (post-test kans+1) = 0,29/ (0,29+1) = 0,22(22%)

Dus met een positieve Thessaly-test heb je jouw kansen op een meniscus verhoogd van een veronderstelde 30% tot 37% en met een negatieve Thessaly-test hebt u uw kansen verlaagd tot 22%.
Zie je nu waarom ik boos wordt als mensen een test uitvoeren en dan aannemen dat hun patiënt een bepaalde aandoening wel of niet heeft?! En dit is allemaal gebaseerd op een aanname van de pre-testkansen, die de meeste mensen zelfs vergeten in aanmerking te nemen!

Als je meerdere testen wilt uitvoeren, bijvoorbeeld de Anterior Drawer-test in ons VKB-voorbeeld, baseer jw jouw waarschijnlijkheid vóór de test op de waarschijnlijkheid na de test van de Lachman-test. Dus bij een positieve Lachman begin je met een pre-test waarschijnlijkheid van 95%, en bij een negatieve Lachman begin je met een pre-test waarschijnlijkheid van 19%.
Hoewel de meeste tests ofwel een positief ofwel een negatief resultaat hebben, zijn er ook testclusters met meerdere resultaten. Dus als je bijvoorbeeld de cluster van Laslett neemt, komt u voor 2 van de 5 positieve tests uit op een LR+ van 2,7, voor 3/5 op een LR+ van 4,3, enz.

Wees er echter van bewust dat bij een zeer hoge pre-test waarschijnlijkheid, een andere test weinig waarde heeft en het beter is om met uw behandeling te beginnen. Hetzelfde geldt voor een zeer lage pre-testkans; in dat geval test u niet en behandelt u de aandoening ook niet.


Als een patiënt zich bijvoorbeeld bij u meldt met plotseling optredende lage rugpijn, neurologische symptomen in beide benen, problemen met mictie en zadelverdoving, bent u er vrij zeker van dat deze patiënt het cauda equina syndroom heeft, wat een rode vlag is en een dringende operatie vereist. Dus als u bijvoorbeeld 99% zeker bent van uw diagnose, zal een test met rechte benen (SLR) met een LR- van 0,2 de waarschijnlijkheid na de test verlagen tot 95%, wat nog steeds zeer hoog is en u deze patiënt toch zou willen laten opereren.
Als de test positief is, ga je waarschijnlijk van 99% naar 100% zekerheid, dus waarom zou je überhaupt de moeite nemen om te testen, vooral als het gaat om een dringende verwijzing voor een operatie?

Hetzelfde geldt voor een zeer lage pre-testkans. Als een patiënt bij u komt zonder uitstralende pijn onder de knie, is de kans dat deze patiënt een radiculair syndroom heeft als gevolg van een discushernia erg klein, laten we uitgaan van 5%. Dus wat zou er in dit geval gebeuren als je de SLR zou uitvoeren met een LR+ van 2.0? Je zou uitkomen op een waarschijnlijkheid na de test van 10% en als de test negatief is, zou de waarschijnlijkheid na de test gedaald zijn tot misschien 4%. Dus als je bijna zeker weet dat een patiënt een bepaalde ziekte niet heeft, waarom zou je het dan überhaupt testen?
In de praktijk hangt de beslissing om een bepaalde test te doen natuurlijk altijd af van verschillende factoren, zoals de kosten, de ernst van de ziekte, de risico's van de test, enz.

Laten we nu terugkeren naar wat ik in het begin beweerde, namelijk dat statistische waarden je helpen het resultaat van jouw vraagstelling tijdens het afnemen van de patiëntgeschiedenis te evalueren.
In feite kan elke vraag worden gezien als een specifieke test, waarbij het antwoord (ja of nee) de waarschijnlijkheid dat een patiënt een bepaalde aandoening heeft, vergroot of verkleint. Dit is ook de reden waarom een grondige anamnese meestal belangrijker is dan specifieke testen, omdat je in feite een reeks testen achter elkaar uitvoert,
als je een goede clinicus bent die een hypothese weet te vormen op basis van de antwoorden van je patiënt.

Laten we een ander voorbeeld nemen: Hoe beïnvloedt een positief antwoord op de vraag over langdurig gebruik van corticosteroïden de kans op een wervelfractuur?
Volgens Henschke et al. (2009) heeft langdurig gebruik van corticosteroïden een positieve LR+ van 48,5. De prevalentie (pretestkans) van een wervelfractuur bij de eerstelijnszorg kan volgens Williams et al. worden geschat op 1%-4%. (2013) bij patiënten die zich presenteren met lage rugpijn.
Bij langdurig gebruik van corticosteroïden zullen we dus uitkomen op een post-testkans van 33%, hoewel we in deze voorbeeldberekening zijn uitgegaan van slechts 1% prevalentie.
Ik denk dat het eerlijk is om te zeggen dat deze vraag over corticosteroïden altijd moet worden gesteld in de screeningprocedure voor wervelfracturen!
Laten we nu eens kijken naar een andere rode vlag die vaak wordt gebruikt bij de screening op maligniteit bij patiënten met lage rugpijn: Verrassend begin van lage rugpijn.
Volgens Deyo et al. (1988, ik geef toe dat dit een vrij oud onderzoek is), de LR+ voor deze vraag is 1,1. Volgens Henschke et al. (2009) is de prevalentie van maligniteit bij patiënten met lage rugpijn zelfs lager dan 1%, maar wij rekenen voor het gemak met deze 1%.
Dus de rode vlag verraderlijk begin verhoogt de post-test kans op maligniteit als oorzaak van lage rugpijn van 1% tot precies 1,1%. Ik denk dat we het erover eens kunnen zijn dat deze rode vlag uit elke richtlijn moet worden geschopt waarin hij voorkomt.

Online cursus
Orthopedische fysiotherapie van de bovenste en onderste ledematen

Vergroot uw kennis over de 23 meest voorkomende orthopedische aandoeningen in slechts 40 uur zonder een fortuin uit te geven aan CPD-cursussen.

Ik weet dat dit een lange post was en gefeliciteerd en respect als je het hier gehaald hebt! Mijn doel was je uitleg te geven over het werken met statistische waarden als sensitiviteit, specificiteit, PVW, NVW en vooral de likelihood ratio's, en je bewust te maken van het belang daarvan in je hele fysiotherapeutische proces.
Het zou fantastisch zijn als je bij je toekomstige patiënten rekening zou kunnen houden met de prevalentie van een bepaalde hypothese, een idee zou hebben van de impact van jouw anamnestische vragen op de pre-test waarschijnlijkheid, en u de kracht van specifieke tests goed zou kunnen evalueren.

Statistieken maken me vochtig

Voel je vrij om vragen te stellen in de comment en om deze blog post te delen als je het nuttig vond!

Bedankt voor het lezen!

Kai

Bronnen

Goossens P, Keijsers E, van Geenen RJ, Zijta A, van den Broek M, Verhagen AP, et al. Validiteit van de Thessaly test bij de evaluatie van meniscusscheuren in vergelijking met artroscopie: een diagnostische nauwkeurigheidsstudie. J.Orthop.Sports Phys.Ther. 2015;45(1):18-24, B1

Henschke N, Maher CG, Ostelo RW, de Vet HC, Macaskill P, Irwig L. Red flags to screen for malignancy in patients with low-back pain. Cochrane Database Syst.Rev. 2013;(2):CD008686. doi(2):CD008686.

Williams CM, Henschke N, Maher CG, van Tulder MW, Koes BW, Macaskill P, et al. Rode vlaggen om te screenen op wervelfractuur bij patiënten die zich presenteren met lage rugpijn. Cochrane
Database Syst Rev 2013;1:CD008643.

Physiotutors begon als een gepassioneerd studentenproject en ik ben er trots op dat het is uitgegroeid tot een van de meest gerespecteerde aanbieders van permanente educatie voor fysiotherapeuten over de hele wereld. Ons hoofddoel zal altijd hetzelfde blijven: fysiotherapeuten helpen het beste uit hun studie en carrière te halen, zodat ze de beste evidence-based zorg voor hun patiënten kunnen leveren.
Phy pijl rechts
Rug