Те, що ми називаємо P-зломкою, - це тест на значимість кілька разів і лише повідомляти про результати значущості. Добре це чи погано, залежить ситуація.
Для пояснення давайте подумаємо про справжні наслідки в байєсівських термінах, а не нульові та альтернативні гіпотези. Поки ми вважаємо, що наші інтереси викликають постійний розподіл, ми знаємо, що нульова гіпотеза помилкова. Однак у випадку двостороннього тестування ми не знаємо, чи є він позитивним чи негативним. У цьому світлі ми можемо вважати значення р для двосторонніх тестів як міру того, наскільки міцні докази того, що наша оцінка має правильний напрямок (тобто позитивний чи негативний ефект).
p<α
Тепер подумайте, що станеться, коли ви продовжуєте повертатися назад, щоб отримати більше даних. Кожен раз, коли ви отримуєте більше даних, ваша ймовірність виправити напрямок, обумовлений достатньою кількістю даних, лише зростає. Отже, під цим сценарієм ми повинні усвідомити, що отримуючи більше даних, хоча ми насправді збільшуємо ймовірність помилки I типу, ми також зменшуємо ймовірність помилкового висновку неправильного напрямку.
Візьміть це на противагу більш типовому зловживанню P-злому; ми перевіряємо 100 розмірів ефектів, які мають велику ймовірність бути дуже маленькими та повідомляємо лише про значні. Зауважте, що в цьому випадку, якщо всі ефекти невеликі, у нас майже 50% шансів помилитися в напрямку, коли ми оголосимо про важливість.
Звичайно, отримані p-значення, отримані з цих даних-подвоєння, все ж повинні надходити із зерном солі. Хоча, як правило, у вас не виникає проблем з тим, що люди збирають більше даних, щоб бути більш впевненими в розмірі ефекту, цим можна зловживати іншими способами. Наприклад, розумний PI може усвідомити, що замість того, щоб зібрати всі 100 точок даних одночасно, вони могли заощадити купу грошей і збільшити потужність, спочатку зібравши 50 точок даних, проаналізувавши дані, а потім зібравши наступні 50, якщо це не суттєво . У цьому сценарії вони збільшують вірогідність того, що напрямок ефекту буде неправильним, обумовленим декларуванням значущості, оскільки вони мають більше шансів отримати неправильний напрямок ефекту з 50 точками даних, ніж зі 100 точками даних.
І нарешті, врахуйте наслідки не отримувати більше даних, коли ми маємо незначний результат. Це означало б, що ніколи не збирайте більше інформації з цієї теми, що насправді не підштовхує науку вперед, чи не так? Одне недостатнє дослідження вбило б ціле поле.