Statistik & Methodik

Was ist ein P-Value? | Statistik

Besuchen Sie unseren Shop
Statistik

Was ist ein P-Value? | Statistik

Vereinfacht ausgedrückt drückt der p-Wert aus, wie überrascht man von den Daten ist, wenn man davon ausgeht, dass es keinen Effekt gibt. Je niedriger der p-Wert ist, desto unvereinbarer scheinen die Daten mit Ihrem Modell zu sein (d. h. mit der Annahme, dass es keinen Effekt gibt).

Beispiel.

Man vergleicht Behandlung A mit Behandlung B und geht davon aus, dass es keinen Effekt oder keinen Unterschied gibt; man erwartet, dass die Nullhypothese richtig ist. Sie führen den Test durch und erhalten einen p-Wert von 0,02. Das bedeutet, dass die von Ihnen gesammelten Daten ziemlich überraschend sind, wenn man bedenkt, dass Sie davon ausgingen, dass sich die Gruppen nicht unterscheiden würden.

Der p-Wert dient dazu, sich vor Zufälligkeiten zu schützen. Wenn Sie eine Studie durchführen, ist die Wahrscheinlichkeit groß, dass es sich bei den beobachteten Effekten nur um Zufallsdaten handelt - oder um Datenrauschen, wie wir es nennen. Deshalb kann es vorkommen, dass sich die Mittelwerte zwischen den Gruppen zwar deutlich unterscheiden, aber keine statistisch signifikanten Auswirkungen haben. Es kann auch andersherum sein. Es kann sein, dass eine Studie ein nicht signifikantes Ergebnis zeigt, aber ein echter Effekt vorliegt, vielleicht weil die Stichprobengröße einfach zu klein ist.

 

Was beeinflusst den p-Wert?

Die P-Werte werden von verschiedenen Faktoren beeinflusst: Stichprobengröße, Effektgröße und die Art des Tests mit den dazugehörigen Annahmen.

  • Stichprobengröße: Je größer die Gruppe, desto schneller erhalten Sie statistisch signifikante Ergebnisse bei kleinen Unterschieden - und umgekehrt.
  • Effektgröße: Je größer die Effektgröße, desto schneller erhalten Sie statistisch signifikante Ergebnisse, selbst bei kleineren Gruppen - und umgekehrt.
  • Art des Tests: Ein Test reagiert empfindlicher auf Unterschiede, wenn bestimmte Annahmen getroffen werden, z. B. in Bezug auf die Verteilung der Daten, die Unabhängigkeit der Messgrößen, die Homoskedastizität, die Einseitigkeit im Vergleich zur Zweiseitigkeit, die Unterschiede zwischen den Gruppen und innerhalb der Gruppen usw.

Beispiel. 

Eine große Studie kann selbst bei kleinsten Auswirkungen statistisch signifikante Ergebnisse liefern. Diese Auswirkungen sind vielleicht nicht von Bedeutung. In der ursprünglichen Penicillin-Studie wurde eine winzige Probe verwendet, um zu zeigen, dass die Auswirkungen auf die Beseitigung von Bakterien enorm sind.

 

P-Wert <0,05 Schwelle

Die von den meisten Forschern verwendete Schwelle für statistische Signifikanz (d.h. p < 0,05) ist rein willkürlich. Alles in allem sollte sich dies je nach Studienaufbau ändern. Wenn Sie wirklich keine falsch positiven Ergebnisse wünschen (z. B. eine Entscheidung für eine lebensbedrohliche Operation), brauchen Sie einen niedrigen Schwellenwert. Wenn man wirklich keine falsch-negativen Ergebnisse haben will (z. B. bei der Diagnose aggressiver Tumore), braucht man eine aussagekräftigeStudie mit einem höheren p-value-Schwellenwert. Dies veranschaulicht das Verhältnis zwischen Fehlern des Typs 1 (α) und des Typs 2 (ß) zwischen Geben und Nehmen.

Bitte beachten Sie, dass der p-Wert aus den Daten und nicht aus der Theorie abgeleitet wird. Sie können Ihre Theorie nicht mit einem statistisch signifikanten Effekt "beweisen". Das Einzige, was Sie tun können, ist zu versuchen, Ihre Theorie mit anderen Studien zu widerlegen, denn wenn sie zutrifft, hat Ihre Theorie Bestand. Dies ist eine Fälschung.

Missverständnisse rund um den p-Wert

Einige häufige Missverständnisse über den p-Wert in der medizinischen Forschung sind:

  • Ein signifikanter p-Wert bedeutet, dass die Wirkung oder der Zusammenhang groß oder klinisch bedeutsam ist.
  • Ein nicht-signifikanter p-Wert bedeutet, dass es keinen Effekt oder Zusammenhang gibt.
    • DieRealität: Ein nicht signifikanter p-Wert deutet lediglich darauf hin, dass das beobachtete Ergebnis statistisch nicht signifikant ist, bedeutet aber nicht zwangsläufig, dass es keine Wirkung oder keinen Zusammenhang gibt. Dies kann auf eine geringe statistische Aussagekraft oder andere Faktoren wie Messfehler oder Störvariablen zurückzuführen sein.
  • Ein p-Wert von 0,05 ist ein allgemeiner Schwellenwert für statistische Signifikanz.
    • DieRealität: Die Wahl des Signifikanzniveaus hängt vom jeweiligen Kontext ab und sollte auf Faktoren wie dem Studiendesign, dem Stichprobenumfang und den Folgen eines Fehlers vom Typ I beruhen. In manchen Situationen kann ein niedrigeres Signifikanzniveau angemessen sein, z. B. bei Studien mit mehreren Vergleichen oder hohen Einsätzen.
  • Ein signifikanter p-Wert beweist die Kausalität.
    • DieRealität: Die statistische Signifikanz gibt nur die Wahrscheinlichkeit an, dass das beobachtete Ergebnis oder ein extremeres Ergebnis unter der Nullhypothese erzielt wird. Sie beweist keine Kausalität, wofür zusätzliche Beweise aus Studiendesign, biologischer Plausibilität und anderen Faktoren erforderlich sind.
  • Ein großer Stichprobenumfang führt immer zu einem signifikanten p-Wert.
    • DieRealität: Ein großer Stichprobenumfang erhöht die Aussagekraft, um eine Wirkung oder einen Zusammenhang festzustellen, aber er garantiert keinen signifikanten p-Wert. Auch die Größe des Effekts, die Variabilität und andere Faktoren spielen eine Rolle bei der Bestimmung der statistischen Signifikanz.

Referenzen

Elkins, M. R., Pinto, R. Z., Verhagen, A., Grygorowicz, M., Söderlund, A., Guemann, M., Gómez-Conesa, A., Blanton, S., Brismée, J. M., Agarwal, S., Jette, A., Karstens, S., Harms, M., Verheyden, G., & Sheikh, U. (2022). Statistische Schlussfolgerungen durch Schätzung: Empfehlungen der International Society of Physiotherapy Journal Editors. Die Zeitschrift für manuelle und manipulative Therapie, 30(3), 133-138.

Neyman, J. und Pearson, E.S. (1928) Über die Verwendung und Interpretation bestimmter Testkriterien für Zwecke der statistischen Inferenz. Biometrika, 20A, 175-240.

Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistische Tests, P-Werte, Konfidenzintervalle und Aussagekraft: ein Leitfaden für Fehlinterpretationen. Europäische Zeitschrift für Epidemiologie, 31(4), 337-350.

Kamper S. J. (2019). Interpretation der Ergebnisse 2 - Statistische Signifikanz und klinische Aussagekraft: Verknüpfung von Evidenz und Praxis. The Journal of orthopaedic and sports physical therapy, 49(7), 559-560. 

Karl Popper, Vermutungen und Widerlegungen, London: Routledge and Keagan Paul, 1963, S. 33-39; aus Theodore Schick, ed., Readings in the Philosophy of Science, Mountain View, CA: Mayfield Publishing Company, 2000, S. 9-13

Christley, R.M. (2010). Macht und Fehler: Erhöhtes Risiko für falsch-positive Ergebnisse in Studien mit zu geringem Wirkungsgrad. The Open Epidemiology Journal, 3, 16-19.

Fleming A. On the Antibacterial Action of Cultures of a Penicillium, with Special Reference to their Use in the Isolation of B. influenzæ. Br J Exp Pathol. 1929 Jun;10(3):226-36. PMCID: PMC2048009.

Erickson, R. A., & Rattner, B. A. (2020). Mehr als p < 0,05 in der Ökotoxikologie: Ein Leitfaden für Praktiker. Umwelttoxikologie und -chemie, 39(9), 1657-1669.

Gefällt Ihnen, was Sie lernen?

Verwenden Sie die Bewertungs-App

  • Über 300 orthopädische Tests zur Befunderfassung
  • Statistiken, grundlegende Assessments und Screening-Tests enthalten
  • Direkte Links zu PubMed-Artikeln
  • Prägnante Testbeschreibungen
  • Video-Demonstration
  • Einfache Suche & Favoritenfunktion
E-Book

ALLE ORTHOPÄDISCHEN UNTERSUCHUNGEN AN EINEM ORT

ALLE PRODUKTE ANZEIGEN
Bewertung App-Banner
Bewertung E-Book
Bewertungen

Was Kunden über das Assessment E-Book zu sagen haben

Schauen Sie sich unser Alles-in-Einem-Buch an!
Lade unsere KOSTENLOSE App herunter