Lær
Hvad er statistisk styrke? | Statistik
Styrken er den langsigtede sandsynlighed for, at en række identiske undersøgelser kan påvise en statistisk signifikant effekt (f.eks. p<0,05), hvis der er nogen. Sandsynligheden for en type 2-fejl i en række identiske undersøgelser er én minus styrken (1-ß, ofte 20 %).
F.eks.
Hundrede studier er udført i den samme population med den samme struktur af behandling A vs. behandling B. Den sande behandlingsforskel i det virkelige liv mellem A og B er en 30 % større chance for fuld helbredelse i behandling A. Når statistikken udføres på disse hundrede undersøgelser (samme population, samme varians, samme standardafvigelse), vil i gennemsnit ca. 20 undersøgelser ikke vise en statistisk signifikant effekt. Dette er type 2-fejlraten eller falske negativer - direkte relateret til den statistiske styrke (1-ß).
Så for at sige det enkelt vil en undersøgelse med utilstrækkelig styrke sjældnere vise en statistisk signifikant effekt, selv om der faktisk er en forskel.
Dette påvirker kraften
Styrken påvirkes af nogle få faktorer, ligesom med p-værdier.
- Stikprøvestørrelse: større stikprøve = mere styrke (tydeligere forskelle mellem grupper, mindre datastøj)
- Varians: mindre varians = mere effekt
- Effektstørrelser: større effektstørrelser = mere styrke (lettere at spotte ved en test)
- Type af statistisk test: nogle tests giver mere styrke til gengæld for flere antagelser (der er ingen gratis frokoster i statistik).
Det er dog vigtigt at forstå, at den statistiske styrke (f.eks. 80%) er der for ét måleværktøj, for ét tidspunkt, for én effektstørrelse.
Lav effekt = upålidelig undersøgelse
Så en underpowered undersøgelse øger risikoen for type 2-fejl (falske negativer), men den øger også risikoen for type 1-fejl (falske positiver) med oppustede effekter. Dette kaldes 'vinderens forbandelse'. Det er derfor, man ikke bare kan kaste flere resultatmål ud i en stikprøvestørrelse og måle på flere tidspunkter, uden at den statistiske styrke går tabt. Gode forskere og klinikere ved, at sekundære resultatmål kun er vejledende, fordi undersøgelsen ikke har tilstrækkelig styrke til at måle det antal mål. Du har brug for nye undersøgelser for at bekræfte disse forslag. Det problem, der er beskrevet ovenfor, kaldes det multiple sammenligningsproblem.
Jeg kan forestille mig, at det lyder lidt kontraintuitivt. Lad os se på et eksempel.
F.eks.
Du underviser en gruppe på 200 studerende og beslutter dig for at dele dem op i to grupper. Formålet med din undersøgelse er at se, om der er kønsforskelle som f.eks. flere kvinder i den ene gruppe sammenlignet med den anden. Der er ingen forskel. Derefter ser man på øjenfarve, hårfarve, længden på pegefingeren, PR i bænkpres, livskvalitet, alder, antal søskende osv. Der er gode chancer for, at du finder et statistisk signifikant resultat et eller andet sted. Dette er problemet med flere sammenligninger.
Løsninger
For at undgå underdimensionerede undersøgelser og risikoen for falske positive eller falske negative resultater skal forskerne planlægge deres undersøgelser med tilstrækkelig styrke. Det kræver, at man tager højde for faktorer som stikprøvestørrelse, effektstørrelse, varians og den anvendte statistiske test. Flere test udgør også en risiko for falske positiver, som kan håndteres ved hjælp af metoder som justering af signifikansniveauet eller kontrol af False Discovery Rate. Ved at forstå begrebet statistisk styrke og dets betydning for hypotesetestning kan forskere designe undersøgelser, der giver pålidelige og meningsfulde resultater.
Referencer
Kan du lide det, du lærer?
KØB DEN FULDE FYSIOTUTORS VURDERINGSBOG
- E-bog på mere end 600 sider
- Interaktivt indhold (direkte videodemonstration, PubMed-artikler)
- Statistiske værdier for alle specialtest fra den seneste forskning
- Fås i 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- Og meget mere!