Це дискусійне питання про перетин статистики та інших наук. Я часто стикаюся з однією і тією ж проблемою: дослідники моєї галузі схильні говорити, що ефекту немає, коли значення p не менше рівня значущості. На початку я часто відповідав, що це не тестування гіпотез. З огляду на те, як часто виникає це питання, я хотів би обговорити це питання з більш досвідченими статистиками.
Розглянемо нещодавню статтю в науковому журналі від «найкращої видавничої групи» Nature Communications Biology (є кілька прикладів, але зупинимось на одному)
Дослідники трактують не статистично значимий результат таким чином:
Таким чином, хронічне помірне обмеження калорій може продовжити тривалість життя та покращити здоров'я примата, але це впливає на цілісність сірого речовини мозку, не впливаючи на когнітивні показники .
Доказ:
Однак виступи у завданні лабіринту Барнса не відрізнялися між контрольними та обмеженими калоріями тваринами (LME: F = 0,05, p = 0,82; рис. 2а). Аналогічно, завдання мимовільного чергування не виявило різниці між контрольними та обмеженими калоріями тваринами (LME: F = 1,63, p = 0,22; рис. 2b).
Автори також пропонують пояснення відсутності ефекту, але ключовим моментом є не пояснення, а сама претензія. Надані сюжети для мене виглядають значно по-різному "на очі" (мал. 2).
Більше того, автори ігнорують попередні знання:
Повідомлялося про шкідливий вплив обмеження калорій на когнітивні показники як для щурів, так і для мозкових та емоційних функцій у людини
Я можу зрозуміти те саме твердження щодо величезних розмірів вибірки (жодного ефекту = ніякого практично значущого ефекту там немає), але в конкретних ситуаціях використовувались складні тести, і мені не очевидно, як виконувати розрахунки потужності.
Запитання:
Чи я пропустив якісь деталі, які роблять їх висновки дійсними?
Беручи до уваги необхідність повідомляти про негативні результати в науці, як довести, що це не "відсутність результату" (що ми маємо з ), а "негативний результат (наприклад, різниці між групами немає") використовуючи статистику? Я розумію, що для величезних розмірів вибірки навіть невеликі відхилення від нуля викликають відхилення, але припустимо, що ми маємо ідеальні дані і все ж потрібно довести, що нуль практично відповідає дійсності.
Чи повинні статистики завжди наполягати на математично правильних висновках на кшталт "маючи цю силу, ми не змогли виявити ефект значного розміру"? Дослідники з інших галузей сильно не люблять подібні формулювання негативних результатів.
Я був би радий почути будь-які думки з цієї проблеми, і я прочитав і зрозумів відповідні питання на цьому веб-сайті. Є чітка відповідь на питання 2) -3) з точки зору статистики, але я хотів би зрозуміти, як відповідати на ці питання у випадку міждисциплінарного діалогу.
UPD: Я думаю, що хорошим прикладом негативного результату є 1-й етап медичних випробувань, безпека. Коли вчені можуть вирішити, що препарат безпечний? Я думаю, вони порівнюють дві групи та роблять статистику щодо цих даних. Чи є спосіб сказати, що цей препарат безпечний? Кокран використовує точні "жодних побічних ефектів не виявлено", але лікарі кажуть, що цей препарат безпечний. Коли баланс між точністю та простотою опису дотримується, і ми можемо сказати, що "немає наслідків для здоров'я"?