Отже, якщо ви провели три дослідження подібних розмірів і отримали значення р 0,05 за всі три рази, ваша інтуїція полягає в тому, що "справжнє значення" повинно бути 0,05? Моя інтуїція інша. Кілька подібних результатів, здавалося б, підвищують значущість (і тому р-значення, які є ймовірністю, повинні бути нижчими). Р-значення насправді не є ймовірністю. Вони є твердженнями щодо вибіркового розподілу спостережуваних значень за певною гіпотезою. Я вважаю, що це, можливо, дало підтримку думці, що можна зловживати ними як такими. Я шкодую, що зробив це твердження.
У будь-якому випадку, при нульовій гіпотезі про відсутність різниці шанси отримати декілька крайніх p-значень здадуться набагато більш імовірними. Кожен раз, коли я бачу твердження про те, що р-значення рівномірно розподіляється від 0-1 під нульовою гіпотезою, я відчуваю вимушеність перевірити його за допомогою моделювання, і поки що твердження, здається, має місце. Я, мабуть, не думаю свідомо в логарифмічному масштабі, хоча принаймні частина моєї мозкової нервової мережі повинна бути.
Якщо ви хочете кількісно оцінити цю інтуїцію, запропонована вами формула (з невеликим переглядом) відображається на сторінці Вікіпедії: http://en.wikipedia.org/wiki/Fisher%27s_method , а відповідна графіка дозволяє кількісно оцінити візуально та напів- кількісно вплив отримання двох малих p-значень на загальну значимість. Наприклад, зчитування з кольорово-графічної графіки, 2 одночасних p-значення 0,05 давали б синтетичне p-значення приблизно .02. Ви також можете дослідити вплив на t-статистику подвоєння розміру вибірки. Розмір вибірки входить до вибіркової t-статистики як 1 / sqrt (n-1), щоб ви могли подивитися на вплив цього фактора в результаті переходу від 50 до 100. (в R :)
plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
abline(h=1/sqrt(c(50,100)))
Ці два підходи дають різні кількісні результати, оскільки співвідношення значень 1 / sqrt (n) для 50 і 100 не є таким, як відношення 0,05 до 0,02. Обидва підходи підтримують мою інтуїцію, але в різній мірі. Можливо, хтось інший може вирішити цю невідповідність. Ще третім підходом було б врахувати ймовірність отримання двох випадкових малюнків "True", коли біноміальна ймовірність кожного розіграшу була 0,05. (вкрай несправедлива кістка) Ця спільна подія повинна мати ймовірність .05 * .05 = .002, результат якого може бути розглянуто з "іншого боку" оцінки Фішера. Я щойно провів моделювання 50000 одночасних тестів. Якщо накреслити результати, то це дуже схоже на карти космічного фонового випромінювального поля ... тобто. переважно випадкові.
t1 <- replicate(50000, t.test(rnorm(50))$p.value )
t2 <- replicate(50000, t.test(rnorm(50))$p.value )
table(t1 < 0.05, t2 < 0.05)
plot(t1, t2, cex=0.1)
# FALSE TRUE
# FALSE 45099 2411
# TRUE 2380 110
110/(50000-110)
#[1] 0.002204851