Sensitiviteit, Specificiteit, Voorspellende Waarden en Likelihoodratios voor Beginners

Diagnostic validity

Statistiek is een van de meest verwarrende onderwerpen voor fysio’s en fysiostudenten. Waarschijnlijk komt dit doordat we meer om mensen en gezondheid geven dan om wiskunde, toch?

dafuq_statistics-265x300

Wel, ik snap dat u meer geinteresseerd bent in een goede beoordeling van uw patient, een goede behandeling en de nieuwste behandelmethoden, maar ik moet je zeggen dat je de statistische waarden van een speciale test moet kennen en zelfs getallen over prevalentie, pre-test en post-test waarschijnlijkheden van vragen die je jouw patienten stelt tijdens je hele anamnese proces!

Ik durf zelfs te stellen dat je zonder de kennis van bovengenoemde getallen geen idee zal hebben hoeveel waarde je kan hechten aan bepaalde vragen die je aan jouw patiënt stelt (en de antwoorden daarop) en dat je orthopedische tests zal uitvoeren zonder echt te weten wat een positieve of negatieve uitkomst je zal vertellen.

Als ik zie of hoor dat een fysio een speciale test uitvoert zoals de Thessaly test voor meniscuslaesies, deze positief uitvalt, en ze er achteraf 100% zeker van zijn dat hun patiënt een meniscuslaesie heeft, dan doet me dat ineenkrimpen!
HIER MOET JE ECHT MEE STOPPEN!

Daarom dring ik er bij je op aan mijn post verder te lezen, waarin ik zal proberen je inzicht te geven in hoe je statistiek kunt en moet gebruiken om een betere fysio te worden en hoe die kennis je bewuster maakt van jouw klinisch redeneerproces!

In het algemeen begin je met jouw screening, dan je anamnese, gevolgd door een basis-functie-onderzoek. Op basis van de informatie die je tijdens de voornoemde onderdelen hebt verkregen, vorm je jouw hypotheses die je wil bevestigen of verwerpen.  Dit is waar sensitiviteit en specificiteit een rol gaan spelen. Laten we dus eerst eens kijken naar wat sensitiviteit en specificiteit zijn! De gemakkelijkste manier is om de korte video te bekijken die we een tijdje geleden hebben gemaakt:

Dus om het nog eens samen te vatten: Een negatief resultaat bij een 100% sensitieve test kan de ziekte uitsluiten (SnNOut) en een positief resultaat bij een 100% specifieke test kan de ziekte uitsluiten (SpPIn).
Met de twee mnemotechnieken SnNOut en SpPIn is het betrekkelijk eenvoudig om deze twee begrippen in de praktijk te brengen.
Meestal krijg je een beter inzicht in hun definitie en wat ze eigenlijk zijn als je in staat bent deze waarden te berekenen met behulp van een 2×2 tabel. Bekijk onze volgende video, waarin we laten zien hoe je het rekengedeelte uitvoert:

Helaas zijn er in het echte leven nauwelijks 100% nauwkeurige tests, zodat er veel vals-positieve en vals-negatieve resultaten zullen zijn. Bovendien vertellen de sensitiviteit en specificiteit ons hoe vaak een test positief is bij patiënten van wie we al weten of ze de ziekte hebben of niet. In de praktijk weten we echter niet of onze patiënten een bepaalde aandoening hebben of niet. Wat we in de praktijk eerder doen, is de resultaten van een positieve of negatieve test interpreteren.
Bij een positieve uitslag weet je meestal niet hoe groot de kans is dat de patiënt de ziekte daadwerkelijk heeft en bij een negatieve uitslag hoe groot de kans is dat een patiënt de ziekte niet heeft.
Deze waarden worden positief voorspellende waarde (PPV) en negatief voorspellende waarde (NPV) genoemd, ook wel post-test waarschijnlijkheden genoemd. Je raadt het al – we hebben nog een video die deze waarden uitlegt met behulp van de 2×2 tabel en laat zien hoe u deze waarden kunt berekenen:

Zoals vermeld in de video zijn positieve voorspellende waarde (PVW) en negatieve voorspellende waarde (NVW) een goed hulpmiddel als je een goed idee hebt van de prevalentie van jouw patiëntengroep en als deze prevalentie identiek is aan de prevalentie van de RCT, waar je in de eerste plaats jouw statistische waarden voor een specifieke test vandaan hebt gehaald. Als dit niet het geval is, worden PVW en NPV vrijwel nutteloos.
Stel je voor hoe de pre-test waarschijnlijkheid van een voorste kruisband (ACL) ruptuur verandert in verschillende settings: Bijvoorbeeld, de prevalentie van patiënten met een ACL scheur in een algemene praktijk zal veel lager zijn dan in een sportkliniek die gespecialiseerd is in knieletsels. Hoe hoger de prevalentie, hoe hoger je PPV en hoe lager je NPV zal zijn.
Misschien zullen we daar in de toekomst ook een video over maken, maar het is belangrijk te onthouden dat we een betere waarde nodig hebben dan de PPV en NPV, en dat is waar de likelihood ratios in het spel komen.

De likelihood ratio combineert sensitiviteit en specificiteit en vertelt ons hoe waarschijnlijk een bepaald testresultaat is bij mensen met de aandoening, vergeleken met hoe waarschijnlijk het is bij mensen zonder de aandoening. Bekijk de volgende video over likelihood ratio’s en hoe je ze kunt berekenen:

In het voorbeeld hebben we de Lachman test gebruikt, een van de meest accurate testen die er in de klinische praktijk is, maar laten we eens kijken naar onze geliefde Thessaly test en hoe ons voorbeeld daar uitpakt:
Volgens Goossens et al. (2015) heeft de Thessaly test een sensitiviteit van 64% en een specificiteit van 53%, wat resulteert in een LR+ van 1,36 en een LR- van 0,68. Zoals je al kan zien, liggen deze waarden vrij dicht bij LR = 1, wat ons vertelt dat ze de waarschijnlijkheid dat iemand een meniscuslaesie heeft maar heel weinig zullen veranderen. Om deze waarden toe te passen op ons voorbeeld van onze ACL scheur, weten we dat ACL scheuren vaak gepaard gaan met meniscus scheuren. Hoewel onze patiënte geen melding maakt van een op slot zittende of vangtrekkende sensatie, schatten wij onze pre-test waarschijnlijkheid op ongeveer 30%.
Ons nomogram ziet er dan als volgt uit:

nomogram_thessaly

Op basis van de (nauwkeurigere) berekeningen komen we uit op de volgende post-test kansen (eng. probability):

  • Pre-test odds: Prevalentie/(1-prevalentie) = 0,3/(1-0,3) = 0,43
  • Post-test odds (LR+): 0,43 x 1,36 = 0,58
  • Post-test probability (LR+): post-test odds / (post-test odds+1) = 0,58/(0,58+1) = 0,37 (dus 37%)
  • Post-test odds (LR-): 0,43 x 0,68 = 0,29
  • Post-test probability (LR-): post-test odds / (post-test odds+1) = 0,29/ (0,29+1) = 0,22 (22%)

Dus met een positieve Thessaly test, heb je je kansen op een mensillaesie verhoogd van verondersteld 30% tot 37% en met een negatieve Thessaly test heb je je kansen verlaagd tot 22%.
Zie je waarom ik me druk maak als mensen een test doen en dan aannemen dat hun patiënt zeker wel of niet een bepaalde aandoening heeft?! En dit is allemaal gebaseerd op een aanname van de pre-test kansen, die de meeste mensen zelfs vergeten in overweging te nemen!

Als je meerdere tests wil uitvoeren, bijvoorbeeld de Anterior Drawer-test in ons ACL-voorbeeld, baseer je jouw pre-test probability op de post-test probability van de Lachman test. Dus in het geval van een positieve Lachman-test begin je met een pre-test probability van 95% en bij een negatieve Lachman-test begin je met een pre-test probability van 19%.
Hoewel de meeste tests ofwel een positieve ofwel een negatieve uitkomst hebben, zijn er ook testclusters met meerdere uitkomsten. Neem bijvoorbeeld de cluster Laslett: bij 2 van de 5 positieve tests kom je uit op een LR+ van 2,7, bij 3/5 op een LR+ van 4,3 enz.

statistics

Let wel, bij een zeer hoge pre-testkans heeft een nieuwe test weinig waarde en is het beter met de behandeling te beginnen. Hetzelfde geldt voor een zeer lage pre-test waarschijnlijkheid in welk geval je niet test en ook niet de aandoening behandelt.
Een voorbeeld: als een patiënt zich bij je meldt met plotseling optredende lage rugpijn, neurologische symptomen in beide benen, problemen met de urinelozing en zadelanesthesie, dan zou je er vrij zeker van zijn dat deze patiënt het cauda equina syndroom heeft, wat een rode vlag is en dringend moet worden geopereerd. Dus als je zeg 99% zeker bent van je diagnose, zal een straight leg raise test (SLR) met een LR- van 0.2 de post-test waarschijnlijkheid verminderen tot 95%, wat nog steeds erg hoog is en je zou deze patiënt nog steeds willen sturen voor een operatie.
Als de test dan weer positief zou zijn, zou je waarschijnlijk van 99% naar 100% zekerheid gaan, dus waarom zou je überhaupt de moeite nemen om te testen, vooral als het om een dringende verwijzing voor een operatie gaat?

Hetzelfde geldt voor een zeer lage pretestkans. Als een patiënt zich bij je meldt zonder uitstralende pijn onder de knie, is de kans van deze patiënt op een radiculair syndroom ten gevolge van een discushernia zeer klein, laten we zeggen 5%. Dus wat zou er in dit geval gebeuren als je de SLR uitvoerde met een LR+ van 0,2? Je zou uitkomen op een post-test waarschijnlijkheid van 10% en als de test negatief is, zou de post-test waarschijnlijkheid zijn gedaald tot misschien 4%. Dus als je er bijna zeker van bent dat een patiënt een bepaalde ziekte niet heeft, waarom zou je hem dan überhaupt testen?
In de praktijk hangt de beslissing om een bepaalde test te doen natuurlijk altijd af van verschillende factoren, zoals de kosten, de ernst van de ziekte, de risico’s van de test enz.

Laten we nu teruggaan naar wat ik in het begin beweerde, namelijk dat statistische waarden je helpen om het resultaat van jouw vraagstelling tijdens jouw anamnese te evalueren.
In feite kan elke vraag worden gezien als een special test, waarbij het antwoord (ja of nee) de waarschijnlijkheid dat een patiënt een bepaalde aandoening heeft zal vergroten of verkleinen.Dit is ook de reden waarom een grondige anamnese meestal belangrijker is dan speciale tests, omdat je in feite een reeks special tests achter elkaar uitvoert,
als je een goede clinicus bent die een hypothese weet te vormen op basis van de antwoorden van je patiënt.

Dus laten we een ander voorbeeld nemen: Wat is de invloed van een positief antwoord op de vraag over langdurig gebruik van corticosteroïden op de kans op een ruggengraatfractuur?
Volgens Henschke et al. (2009) heeft langdurig gebruik van corticosteroïden een positieve LR+ van 48,5. De prevalentie (pre-test probability) van een wervelfractuur die zich presenteert bij de eerstelijnszorg kan volgens Williams et al. (2013) geschat worden tussen 1%-4% bij patiënten die zich presenteren met lage rugpijn.
Dus bij langdurig gebruik van corticosteroïden komen we uit op een post-testkans van 33%, hoewel we in dit rekenvoorbeeld zijn uitgegaan van slechts 1% prevalentie.
Ik denk dat het eerlijk is om te zeggen dat deze vraag over corticosteroïden altijd gesteld zou moeten worden in de screeningprocedure voor ruggengraatfracturen!
Laten we nu eens kijken naar een andere rode vlag die vaak wordt gebruikt bij de screening op maligniteit bij patiënten met lage rugpijn: Geleidelijk ontstaan van lage rugpijn.
Volgens Deyo et al. (1988, ik geef toe dat dit een vrij oude studie is) is de LR+ voor deze vraag 1,1. Volgens Henschke et al. (2009) is de prevalentie van maligniteit bij patiënten met lage rugpijn zelfs lager dan 1%, maar we rekenen voor het gemak maar met die 1%.
Dus de rode vlag “geleidelijk ontstaan” verhoogt de post-test waarschijnlijkheid van maligniteit als oorzaak van lage rugpijn van 1% naar precies 1,1%. Ik denk dat we het erover eens kunnen zijn dat deze rode vlag uit elke richtlijn moet worden geschopt waarin hij wordt vermeld.

Ik weet dat dit een lange post was en gefeliciteerd en respect als je het tot hier hebt gehaald! Mijn doel was om je een uitleg te geven over hoe te werken met statistische waarden zoals sensitiviteit, specificiteit, PVW, NVW en vooral de likelihood ratio’s en om je bewust te maken van hun belang in jouw hele fysiotherapeutische proces.
Het zou fantastisch zijn als je bij jouw toekomstige patiënten rekening zou kunnen houden met de prevalentie van een bepaalde hypothese, een idee zou hebben van de impact van jouw anamnestische vragen op de pre-test waarschijnlijkheid en als je de kracht van jouw speciale testen goed zou kunnen evalueren.

statistics-make-me-moist

Voel je vrij om vragen te stellen in de comment en om deze blog post te delen als je het nuttig vond!

Bedankt voor het lezen!

Kai

Literatuur

Goossens P, Keijsers E, van Geenen RJ, Zijta A, van den Broek M, Verhagen AP, et al. Validity of the Thessaly test in evaluating meniscal tears compared with arthroscopy: a diagnostic accuracy study. J.Orthop.Sports Phys.Ther. 2015;45(1):18-24, B1

Henschke N, Maher CG, Ostelo RW, de Vet HC, Macaskill P, Irwig L. Red flags to screen for malignancy in patients with low-back pain. Cochrane Database Syst.Rev. 2013;(2):CD008686. doi(2):CD008686.

Williams CM, Henschke N, Maher CG, van Tulder MW, Koes BW, Macaskill P, et al. Red flags to screen for vertebral fracture in patients presenting with low-back pain. Cochrane
Database Syst Rev 2013;1:CD008643.

Phy arrow right
Terug
Meld je aan voor onze nieuwsbrief en ontvang onze nieuwste blogberichten & meer gloednieuwe info over Physiotutors in jouw inbox!

Wil je nooit een blogbericht van ons missen?