Дізнайтеся
Що таке статистична сила? | Статистика.
Потужність - це довгострокова ймовірність того, що серія ідентичних досліджень виявить статистично значущий ефект (наприклад, p<0,05), якщо він є. Ймовірність помилки 2-го типу в серії ідентичних досліджень дорівнює одиниці мінус степінь (1-ß, часто 20%).
Наприклад.
Сто досліджень проводяться на одній і тій самій популяції з однаковою структурою лікування А та лікування Б. Реальна різниця в лікуванні між А і Б в реальному житті - це на 30% вищий шанс повного одужання при лікуванні А. Якщо провести статистику цих ста досліджень (однакова популяція, однакова дисперсія, однакове стандартне відхилення), то в середньому близько 20 досліджень не покажуть статистично значущого ефекту. Це помилка типу 2, або хибнонегативний результат, безпосередньо пов'язаний зі статистичною потужністю (1-ß).
Простіше кажучи, недостатньо потужне дослідження рідше показує статистично значущий ефект, хоча насправді різниця існує.
Це впливає на владу
На потужність впливають кілька факторів, так само, як і на p-значення.
- Розмір вибірки: більша вибірка = більша потужність (чіткіші відмінності між групами, менше шуму в даних)
- Дисперсія: менша дисперсія = більша потужність
- Розмір ефекту: більший розмір ефекту = більша потужність (легше визначити за допомогою тесту)
- Тип статистичного тесту: деякі тести дають більшу потужність в обмін на більше припущень (у статистиці немає безкоштовних обідів)
Важливо розуміти, що статистична сила (напр. 80%) існує для одного інструменту вимірювання, для одного моменту часу, для одного розміру ефекту.
Низька потужність = ненадійне дослідження
Таким чином, недостатня потужність дослідження збільшує ризик помилок типу 2 (хибнонегативних результатів), але також збільшує ризик помилок типу 1 (хибнопозитивних результатів), що призводить до завищеного ефекту. Це називається "прокляття переможця". Ось чому ви просто не можете накидати на розмір вибірки кілька вимірювань результатів і проводити вимірювання в різні моменти часу, щоб не втратити свою статистичну потужність. Хороші дослідники та клініцисти знають, що показники вторинних результатів є лише рекомендаційними, оскільки дослідження не передбачає такої кількості показників. Потрібні нові дослідження, щоб підтвердити ці припущення. Проблема, описана вище, називається проблемою множинних порівнянь.
Можу уявити, що це звучить дещо контрінтуїтивно. Розглянемо приклад.
Наприклад.
Ви читаєте лекцію групі з 200 студентів і вирішили розділити їх на дві групи. Мета вашого дослідження - з'ясувати, чи існують гендерні відмінності, наприклад, чи більше жінок в одній групі порівняно з іншою. Немає ніякої різниці. Потім ви дивитеся на колір очей, волосся, довжину вказівного пальця, жим штанги лежачи, якість життя, вік, кількість братів і сестер тощо. Швидше за все, ви десь натрапите на статистично значущий результат. Це проблема множинних порівнянь.
Рішення
Щоб уникнути недостатньої потужності досліджень і ризику хибнопозитивних або хибнонегативних результатів, дослідники повинні планувати свої дослідження з достатньою потужністю. Це вимагає врахування таких факторів, як розмір вибірки, розмір ефекту, дисперсія та використаний статистичний тест. Багаторазове тестування також створює ризик хибних спрацьовувань, який можна усунути за допомогою таких методів, як регулювання рівня значущості або контроль частоти хибних спрацьовувань. Розуміючи концепцію статистичної потужності та її важливість для перевірки гіпотез, дослідники можуть розробляти дослідження, які дають надійні та значущі результати.
Посилання
Наприклад, те, що ви вивчаєте?
КУПИТИ ПОВНИЙ ПОСІБНИК З ОЦІНКИ ФІЗІОТЕРАПЕВТІВ
- 600+ сторінок електронної книги
- Інтерактивний контент (пряма відеодемонстрація, статті з PubMed)
- Статистичні значення для всіх спеціальних тестів з останніх досліджень
- Доступно на 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- І багато іншого!