Statistik & Methodik

Was ist statistische Leistung? | Statistik

Besuchen Sie unseren Shop
Statistik

Was ist statistische Leistung? | Statistik

Die Trennschärfe ist die langfristige Wahrscheinlichkeit, dass eine Reihe identischer Studien einen statistisch signifikanten Effekt (z. B. p<0,05) nachweisen kann, falls es einen solchen gibt. Die Wahrscheinlichkeit eines Fehlers vom Typ 2 in einer Reihe von identischen Studien ist eins minus der Potenz (1-ß, oft 20%).

Beispiel.

Hundert Studien werden in der gleichen Population mit der gleichen Struktur von Behandlung A und Behandlung B durchgeführt. Der tatsächliche Behandlungsunterschied im wirklichen Leben zwischen A und B besteht in einer um 30 % höheren Chance auf vollständige Genesung bei Behandlung A. Wenn die Statistiken für diese einhundert Studien durchgeführt werden (gleiche Population, gleiche Varianz, gleiche Standardabweichung), werden im Durchschnitt etwa 20 Studien keine statistisch signifikante Wirkung zeigen. Dies ist die Typ-2-Fehlerrate oder falsch-negative Ergebnisse, die direkt mit der statistischen Aussagekraft (1-ß) zusammenhängt.

Einfach ausgedrückt: Eine unzureichend ausgestattete Studie wird seltener eine statistisch signifikante Wirkung zeigen, obwohl es tatsächlich einen Unterschied gibt.

 

Dies beeinflusst die Leistung

Die Aussagekraft wird von einigen Faktoren beeinflusst, genau wie bei den p-Werten.

  • Stichprobengröße: größere Stichprobe = mehr Aussagekraft (deutlichere Unterschiede zwischen den Gruppen, weniger Datenrauschen)
  • Varianz: kleinere Varianz = mehr Leistung
  • Effektgrößen: größere Effektgrößen = mehr Macht (leichter durch einen Test zu erkennen)
  • Art des statistischen Tests: Einige Tests liefern mehr Leistung im Austausch für mehr Annahmen (in der Statistik gibt es nichts umsonst)

Es ist jedoch wichtig zu verstehen, dass die statistische Aussagekraft (z. B.. 80 %) gibt es für ein Messinstrument, für einen Zeitpunkt, für eine Effektgröße.

 

Geringe Aussagekraft = unzuverlässige Studie

Eine unzureichend ausgestattete Studie erhöht also das Risiko von Fehlern des Typs 2 (falsch-negative Ergebnisse), aber auch das Risiko von Fehlern des Typs 1 (falsch-positive Ergebnisse), mit überhöhten Auswirkungen. Dies wird als "Fluch des Gewinners" bezeichnet. Aus diesem Grund kann man nicht einfach mehrere Ergebnisgrößen auf eine Stichprobengröße anwenden und zu mehreren Zeitpunkten messen, ohne dass die statistische Aussagekraft zusammenbricht. Gute Forscher und Kliniker wissen, dass sekundäre Ergebnismessungen nur suggestiv sind, weil die Studie für diese Anzahl von Messungen nicht ausgelegt ist. Sie brauchen neue Studien, um diese Vorschläge zu bestätigen. Das oben beschriebene Problem wird als das Problem des Mehrfachvergleichs bezeichnet.

Ich kann mir vorstellen, dass dies ein wenig kontraintuitiv klingt. Schauen wir uns ein Beispiel an.

Beispiel.

Sie halten eine Vorlesung mit 200 Studierenden und beschließen, sie in zwei Gruppen aufzuteilen. Das Ziel Ihrer Studie ist es, herauszufinden, ob es geschlechtsspezifische Unterschiede gibt, z. B. mehr Frauen in einer Gruppe als in der anderen. Es gibt keinen Unterschied. Dann schaut man sich die Augenfarbe, die Haarfarbe, die Länge des Zeigefingers, den PR beim Bankdrücken, die Lebensqualität, das Alter, die Anzahl der Geschwister usw. an. Die Chancen stehen gut, dass Sie irgendwo auf ein statistisch signifikantes Ergebnis stoßen werden. Dies ist das Problem des Mehrfachvergleichs.

Lösungen

Um Studien mit zu geringer Aussagekraft und das Risiko falsch positiver oder falsch negativer Ergebnisse zu vermeiden, müssen die Forscher ihre Studien mit einer angemessenen Aussagekraft planen. Dies erfordert die Berücksichtigung von Faktoren wie Stichprobengröße, Effektgröße, Varianz und den verwendeten statistischen Test. Mehrfachtests bergen auch das Risiko falsch positiver Ergebnisse, das durch Methoden wie die Anpassung des Signifikanzniveaus oder die Kontrolle der Falschentdeckungsrate verringert werden kann. Durch das Verständnis des Konzepts der statistischen Aussagekraft und seiner Bedeutung bei der Hypothesenprüfung können Forscher Studien konzipieren, die zuverlässige und aussagekräftige Ergebnisse liefern.

Verweise

Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistische Tests, P-Werte, Konfidenzintervalle und Aussagekraft: ein Leitfaden für Fehlinterpretationen. Europäische Zeitschrift für Epidemiologie, 31(4), 337-350. https://doi.org/10.1007/s10654-016-0149-3

Ingre M. (2013). Warum kleine Low-Powered-Studien schlechter sind als große High-Powered-Studien und wie man sich vor "trivialen" Ergebnissen in der Forschung schützen kann: Kommentar zu Friston (2012). NeuroImage, 81, 496-498. https://doi.org/10.1016/j.neuroimage.2013.03.030

Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistische Tests, P-Werte, Konfidenzintervalle und Aussagekraft: ein Leitfaden für Fehlinterpretationen. Europäische Zeitschrift für Epidemiologie, 31(4), 337-350. https://doi.org/10.1007/s10654-016-0149-3

Gefällt Ihnen, was Sie lernen?

Verwenden Sie die Bewertungs-App

  • Über 300 orthopädische Tests zur Befunderfassung
  • Statistiken, grundlegende Assessments und Screening-Tests enthalten
  • Direkte Links zu PubMed-Artikeln
  • Prägnante Testbeschreibungen
  • Video-Demonstration
  • Einfache Suche & Favoritenfunktion
E-Book

ALLE ORTHOPÄDISCHEN UNTERSUCHUNGEN AN EINEM ORT

ALLE PRODUKTE ANZEIGEN
Bewertung App-Banner
Bewertung E-Book
Bewertungen

Was Kunden über das Assessment E-Book zu sagen haben

Schauen Sie sich unser Alles-in-Einem-Buch an!
Laden Sie unsere KOSTENLOSE App herunter