Lär dig
Vad är statistisk styrka? | Statistik
Effekten är den långsiktiga sannolikheten för att en serie identiska studier ska upptäcka en statistiskt signifikant effekt (t.ex. p<0,05) om det finns någon. Sannolikheten för ett fel av typ 2 i en serie identiska studier är ett minus styrkan (1-ß, ofta 20%).
Eg.
Hundra studier genomförs inom samma population med samma struktur för behandling A vs behandling B. Den verkliga behandlingsskillnaden i verkligheten mellan A och B är en 30% högre chans till fullständig återhämtning vid behandling A. När statistiken utförs på dessa hundra studier (samma population, samma varians, samma standardavvikelse) kommer i genomsnitt cirka 20 studier inte att visa en statistiskt signifikant effekt. Detta är typ 2-felprocenten, eller falskt negativa resultat, som är direkt relaterad till den statistiska styrkan (1-ß).
Enkelt uttryckt kan man säga att en studie med otillräcklig effekt sällan kommer att visa en statistiskt signifikant effekt, trots att det faktiskt finns en skillnad.
Detta påverkar kraften
Effekten påverkas av ett antal faktorer, precis som med p-värden.
- Urvalsstorlek: större urval = mer kraft (tydligare skillnader mellan grupper, mindre brus i data)
- Varians: mindre varians = mer kraft
- Effektstorlekar: större effektstorlekar = mer kraft (lättare att upptäcka genom ett test)
- Typ av statistiskt test: vissa test ger större effekt i utbyte mot fler antaganden (det finns inga gratisluncher inom statistiken)
Det är dock viktigt att förstå att den statistiska styrkan (t.ex. 80%) finns för ett mätverktyg, för en tidpunkt och för en effektstorlek.
Låg effekt = otillförlitlig studie
En studie med för låg styrka ökar alltså risken för typ 2-fel (falskt negativa resultat), men den ökar också risken för typ 1-fel (falskt positiva resultat), med uppblåsta effekter. Detta kallas för "vinnarens förbannelse". Det är därför som man helt enkelt inte kan använda flera utfallsmått i ett urval och mäta vid flera tidpunkter utan att den statistiska styrkan minskar. Bra forskare och kliniker vet att sekundära resultatmått bara är vägledande eftersom studien inte är tillräckligt kraftfull för den typen av mått. Det behövs nya studier för att bekräfta dessa förslag. Det problem som beskrivs ovan kallas för multipeljämförelseproblemet.
Jag kan tänka mig att detta låter lite kontraintuitivt. Låt oss titta på ett exempel.
Eg.
Du föreläser för en grupp på 200 studenter och bestämmer dig för att dela upp dem i två grupper. Syftet med din studie är att se om det finns könsskillnader, till exempel fler kvinnor i den ena gruppen jämfört med den andra. Det är ingen skillnad. Sedan tittar man på ögonfärg, hårfärg, längd på pekfingret, PR i bänkpress, livskvalitet, ålder, antal syskon osv. Chansen är stor att du kommer att stöta på ett statistiskt signifikant resultat någonstans. Detta är problemet med multipla jämförelser.
Lösningar
För att undvika underdimensionerade studier och risken för falskt positiva eller falskt negativa resultat måste forskarna planera sina studier med tillräcklig styrka. Detta kräver att man tar hänsyn till faktorer som urvalsstorlek, effektstorlek, varians och det statistiska test som används. Flera tester innebär också en risk för falska positiva resultat, vilket kan hanteras genom metoder som att justera signifikansnivån eller använda kontroll av False Discovery Rate. Genom att förstå begreppet statistisk styrka och dess betydelse vid hypotesprövning kan forskare utforma studier som ger tillförlitliga och meningsfulla resultat.
Referenser
Gillar du det du lär dig?
KÖP HELA FYSIOTUTORS BEDÖMNINGSBOK
- E-bok med 600+ sidor
- Interaktivt innehåll (direkt videodemonstration, PubMed-artiklar)
- Statistiska värden för alla specialtester från den senaste forskningen
- Finns i 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- Och mycket mer!