У відповідь на зростаючу групу статистиків та дослідників, які критикують корисність тестування гіпотез (NHT) для науки як сукупного зусилля, Американська спеціальна група психологічних асоціацій зі статистичних висновків уникала прямої заборони НТГ, але натомість запропонувала дослідникам повідомляти розміри ефекту на додаток до p-значень, отриманих від NHT.
Однак розміри ефектів не просто накопичуються в ході досліджень. Метааналітичні підходи можуть накопичувати розподіли розмірів ефектів, але розміри ефектів, як правило, обчислюються як співвідношення між величиною неочищеного ефекту та нез'ясованим "шумом" в даних даного експерименту, що означає, що на розподіл розмірів ефекту впливає не тільки мінливість в необробленій величині ефекту в ході досліджень, але також мінливість прояву шуму в ході досліджень.
На відміну від цього, альтернативний показник сили ефекту, коефіцієнти ймовірності дозволяють як інтуїтивно зрозуміти інтерпретацію на основі кожного окремого дослідження, так і може бути легко агрегований у ході досліджень для мета-аналізу. У межах кожного дослідження імовірність представляє вагомість доказів для моделі, що містить заданий ефект відносно моделі, яка не містить ефекту, і, як правило, може бути повідомлена як, наприклад, "Обчислення коефіцієнта ймовірності для ефекту X виявив у 8 разів більше доказів ефекту, ніж для відповідної нулі ". Крім того, коефіцієнт ймовірності також дозволяє інтуїтивно уявляти силу нульових значень, наскільки коефіцієнти ймовірності нижче 1 являють собою сценарії, коли нуль надає перевагу, а прийняття зворотного значення цього значення представляє вагомість доказів щодо нуля над ефектом. Помітно, коефіцієнт ймовірності представлений математично як співвідношення незрозумілих дисперсій двох моделей, які відрізняються лише дисперсією, поясненою ефектом, і, таким чином, не є величезним концептуальним відходом від розміру ефекту. З іншого боку, обчислення коефіцієнта метааналітичної вірогідності, що представляє вагомість доказів для ефекту в ході досліджень, є просто питанням отримання продукту коефіцієнтів ймовірності в дослідженнях.
Таким чином, я стверджую, що для науки, яка прагне встановити ступінь грубих доказів на користь ефекту / моделі, коефіцієнт вірогідності - це шлях.
Існують більш нюансовані випадки, коли моделі відрізняються лише від конкретного розміру ефекту, і в цьому випадку може бути бажаним якесь подання інтервалу, за який ми вважаємо, що дані відповідають значенню параметрів ефекту. Дійсно, робоча група APA також рекомендує звітувати про довірчі інтервали, які можна використовувати для цього, але я підозрюю, що це теж необдуманий підхід.
Інтервали довіри настільки часто неправильно трактуються ( як студенти, так і дослідники ). Я також побоююсь, що їхня здатність до використання в NHT (шляхом оцінки включення нуля в ІП) буде служити лише для подальшого затримки вимирання NHT як інфекційної практики.
Натомість, коли теорії диференціюються лише за розміром ефектів, я припускаю, що баєсовський підхід був би більш доцільним, коли попередній розподіл кожного ефекту визначається кожною моделлю окремо, а отримані задні розподіли порівнюються.
Чи здається таким підхід, замінюючи p-значення, розміри ефекту та довірчі інтервали співвідношенням ймовірності та, якщо необхідно, порівняння байєсівської моделі? Чи пропускає вона якусь необхідну інфекційну особливість, яку надають тут злісні альтернативи?