Я читав 2008 документ Джеффа Каммінг реплікації і Інтервали: значення передбачати майбутнє лише смутно, але довірчі інтервали роблять набагато краще p p[~ 200 посилань в Google Scholar] - і бентежить одне з центральних вимог. Це одна з серії робіт, де Кеммінг сперечається проти -значень і на користь довірчих інтервалів; моє питання, однак, не стосується цієї дискусії і стосується лише однієї конкретної заяви про -значення.
Дозвольте навести цитата з реферату:
Ця стаття показує, що якщо початковий експеримент призводить до двократного , є шансів, що однохвоста p -значення з реплікації потрапить у інтервал (.00008, .44) , a 10 \% шансів, що p <.00008 , і повністю 10 \% шансу, що p> .44 . Примітно, що інтервал, що називається p- інтервалом, є таким широким, але великим розміром вибірки.
Куммінг стверджує, що цей " інтервал", а насправді весь розподіл -значень, які можна було б отримати при тиражуванні оригінального експерименту (з тим же фіксованим розміром вибірки), залежить лише від вихідної -значення і не залежать від істинного розміру ефекту, потужності, розміру вибірки чи іншого:
[...] розподіл ймовірності може бути отриманий, не знаючи і не припускаючи значення для (або потужності). [...] Ми не припускаємо жодних попередніх знань про , і використовуємо лише інформацію [спостерігається різниця між групами] дає про як основу для розрахунку для даного розподілу та інтервалів.
Мене це бентежить, оскільки мені здається, що розподіл -значень сильно залежить від потужності, тоді як оригінальний по собі не дає ніякої інформації про це. Можливо, справжній розмір ефекту дорівнює і тоді розподіл рівномірний; або, можливо, справжній розмір ефекту величезний, і тоді ми повинні очікувати в основному дуже малих значень. Звичайно, можна почати з припущення деяких попередніх над можливими розмірами ефектів і інтегруватися над ним, але Каммінг, схоже, стверджує, що це не те, що він робить.p o b t δ = 0 p
Питання: Що саме тут відбувається?
Зауважте, що ця тема пов'язана з цим питанням: яка частка повторних експериментів матиме розмір ефекту в межах 95% довірчого інтервалу першого експерименту? з відмінною відповіддю від @whuber. Кумінг має доповідь на цю тему на тему: Cumming & Maillardet, 2006, Інтервали довіри та тиражування: Куди впаде наступний? - але це ясно і безпроблемно.
Я також зауважу, що претензія Каммінга повторюється кілька разів у документі « Методи природи 2015 року» . Нестабільне значення створює невідтворювані результати , на які, можливо, траплялися деякі з вас (це вже має 100 цитат у Google Scholar):
[...] відбудеться значна зміна значення повторних експериментів. Насправді експерименти рідко повторюються; ми не знаємо, наскільки може бути різним наступнийАле ймовірно, що це може бути зовсім інакше. Наприклад, незалежно від статистичної потужності експерименту, якщо одна копія повертає значення , існує шансів, що повторний експеримент поверне значення між і (і зміна [sic], що був би ще більшим).P P 0,05 80 % P 0 0,44 20 % P
(До речі, зауважте, як, незалежно від того, чи є твердження Каммінга правильним чи ні, папір Nature Methods цитує це неточно: за словами Куммінга, це лише ймовірність вище . І так, папір говорить "20% чан g e ". Pfff.)0,44