Яка частка повторних експериментів матиме розмір ефекту в межах 95% довірчого інтервалу першого експерименту?


12

Давайте дотримуватимемося ідеальної ситуації з випадковим вибіркою, гауссовими популяціями, рівними розбіжностями, відсутністю P-злому тощо.

Крок 1. Ви проводите експеримент скажімо, порівнюючи два вибірки, і обчислюєте 95% довірчий інтервал для різниці між двома сукупностями.

Крок 2. Ви проводите ще багато експериментів (тисяч). Різниця між засобами буде залежати від експерименту до експерименту через випадкову вибірку.

Запитання: Яка частка різниці між засобами від колекції експериментів на етапі 2 буде лежати в довірчому інтервалі кроку 1?

На це не можна відповісти. Все залежить від того, що сталося на кроці 1. Якщо цей експеримент на етапі 1 був дуже нетиповим, відповідь на питання може бути дуже низьким.

Тож уявіть, що обидва кроки повторюються багато разів (з кроком 2 повторюються ще багато разів). Тепер, я думаю, можна було б придумати очікування, яка частка повторних експериментів в середньому має розмір ефекту в межах 95% довірчого інтервалу першого експерименту.

Здається, що відповідь на ці питання потрібно розуміти для оцінки відтворюваності досліджень, зараз дуже гаряча область.


Для кожного оригінального (етап 1) експерименту , визначте як частка наступних (етап 2) результатів, які дають результати в межах початкового інтервалу достовірності результату. Ви хочете обчислити емпіричний розподіл ? x i xixix
Меттью Ганн

Так, ви розумієте, про що я прошу
Гарві Мотульський

@MatthewGunn запитав, чи хочете ви емпіричного розподілу "фракції захоплення" для подальших спостережень. У вашому дописі було запитано: "... я думаю, можна було б придумати очікування, яка частка повторних експериментів в середньому має розмір ефекту в межах 95% довірчого інтервалу першого експерименту" . Це не розподіл, а очікуване значення (середнє значення).

Аналіз Вюбера чудовий, але якщо вам потрібна цитата, то ось документ, в якому детально обговорюється саме це питання: Cumming & Maillardet, 2006, Intervals Intervals and Replication: Where will Next Next Fall? . Вони називають це відсотком захоплення інтервалу довіри.
Амеба каже, що повернеться до Моніки

Відповіді:


12

Аналіз

Оскільки це концептуальне запитання, для простоти розглянемо ситуацію, в якій довірчий інтервал будується для середнього за допомогою випадкова вибірка розміру та друга випадкова вибірка взята розміром , все з того ж нормального розподілу. (Якщо вам подобається, ви можете замінити s значеннями з розподілу Student на ступінь свободи; наступний аналіз не зміниться.)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αμx(1)nx(2)m(μ,σ2)Ztn-1

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

Шанс, що середнє значення другої вибірки лежить в межах ІС, визначеному першим, є

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Оскільки середнє значення вибірки не залежить від першого стандартного відхилення вибірки (для цього потрібна нормальність), а другий зразок не залежить від першого, різниця в вибірці означає не залежить від . Більше того, для цього симетричного інтервалу . Тому, записуючи для випадкової величини і відкладаючи обидві нерівності, імовірність, про яку йдеться, така ж, як іx¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

З законів очікування випливає, що має середнє значення і дисперсіюU0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Оскільки - лінійна комбінація змінних Normal, вона також має нормальне розподіл. Тому є раз a змінної. Ми вже знали, що - разів змінна . Отже, є на разів змінною з розподілом . Необхідна ймовірність задається розподілом F якUU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

Обговорення

Цікавий випадок, коли другий зразок має той же розмір, що і перший, так що і лише та визначають ймовірність. Ось значення побудовані проти для .n/m=1nα(1)αn=2,5,20,50

Малюнок

Графіки піднімаються до граничного значення для кожного оскільки збільшується. Традиційний розмір тесту позначається вертикальною сірою лінією. Для величинних значень граничний шанс для становить близько .αnα=0.05n=mα=0.0585%

Розуміючи цю межу, ми зазирнемо в деталі невеликих розмірів зразків і краще зрозуміємо суть справи. Оскільки зростає великим, розподіл наближається до розподілу . З точки зору стандартного нормального розподілу , ймовірність потім наближаєтьсяn=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Наприклад, з , і . Отже, граничне значення, яке досягається кривими при при збільшенні буде . Ви можете бачити, що майже досягнуто (де шанс .)α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Для малих взаємозв'язок між та взаємодоповнюючою ймовірністю - ризик того, що КІ не покриває другого значення - майже ідеально закон про владу. αα Інший спосіб виразити це тим, що додаткова ймовірність журналу є майже лінійною функцією . Обмежувальне відношення приблизноlogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

Іншими словами, для великих та будь-якому місці, що знаходиться поблизу традиційного значення , буде близьким доn=mα0.05(1)

10.166(20α)0.557.

(Це мені дуже нагадує аналіз перекриваються довірчих інтервалів, які я розмістив на /stats//a/18259/919 . Дійсно, магічна сила там, , є майже майже зворотною магічною силою тут, . У цей момент ви повинні мати можливість повторно інтерпретувати цей аналіз з точки зору відтворюваності експериментів.)1.910.557


Результати експериментів

Ці результати підтверджуються прямолінійним моделюванням. Наступний Rкод повертає частоту покриття, шанс, обчислений з , і Z-бал, щоб оцінити, наскільки вони відрізняються. Зазвичай Z-бали мають розмір менше , незалежно від (або навіть, чи обчислюється або CI), що вказує на правильність формули .(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

Ви кажете, що використання t замість z не матиме великої різниці. Я вірю вам, але ще не перевірили. При малому розмірі вибірки два критичних значення можуть сильно відрізнятися, і розподіл t є правильним способом обчислення ІС. Чому ви віддаєте перевагу використовувати z ??
Харві Мотульський

Це суто ілюстративно, а простіше. При використанні цікаво, що криві на фігурі починаються високими і опускаються до їх межі. Зокрема, шанс відтворити вагомий результат тоді значно більший для малих зразків, ніж для великих! Зауважте, що нічого не можна перевірити, оскільки ви вільні інтерпретувати як відсотковий бал відповідного розподілу Student t (або будь-якого іншого розподілу, який ви можете назвати). Нічого не змінюється в аналізі. Якщо ви хочете побачити конкретні ефекти, коментуйте рядок у коді. ZtZαqt
whuber

1
+1. Це чудовий аналіз (і у вашій відповіді є занадто мало підсумків для того, що це таке). Щойно я натрапив на документ, який дуже детально обговорює це саме питання, і я подумав, що вас може зацікавити: Cumming & Maillardet, 2006, Інтервали довіри та реплікація: Куди буде означати падіння наступного? . Вони називають це відсотком захоплення інтервалу довіри.
амеба каже, що повернеться до Моніки

@Amoeba Дякую за довідку. Я особливо вдячний за один загальний висновок, який міститься в ньому: "Реплікація займає центральне місце в науковому методі, і дослідники не повинні закривати на це очі лише тому, що це робить очевидним властиву невизначеність одного дослідження".
whuber

1
Оновлення: Завдяки постійній дискусії в спорідненої теми, тепер я вважаю , мої міркування в наведеному вище коментарі було НЕ правильно. 95% КІ мають 83% "захоплення реплікації", але це твердження про повторний вибірки, і його не можна трактувати як надання ймовірності, обумовленої одним певним довірчим інтервалом, принаймні не без подальших припущень. (Можливо, і цей, і попередні коментарі краще буде видалити, щоб не бентежити подальших читачів.)
Амеба каже Відновити Моніку

4

[Відредаговано, щоб виправити помилку, яку зазначив Уубер.]

Я змінив код @ Whuber для використання розподілу t і покриття ділянки як функції розміру вибірки. Результати нижче. При високому розмірі вибірки результати, звичайно, відповідають ВУберу.

введіть тут опис зображення

А ось адаптований код R, запустіть двічі з альфа-налаштуванням або 0,01, або 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

І ось файл GraphPad Prism, який зробив графік.


Я вважаю, що ваші сюжети не використовують розподіл t через помилку: ви встановлюєте значення Tзовнішньої петлі! Якщо ви хочете побачити правильні криві, просто побудуйте їх безпосередньо, використовуючи теоретичний результат у моїй відповіді, наведений у кінці мого Rкоду (а не спираючись на імітовані результати):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber

1
@whuber. Yikes! Звичайно, ти маєш рацію. Збентежує. Я це виправив. Як ви зазначали, покриття вище, ніж невеликі розміри зразків. (Я виправив симуляції, і не спробував вашу теоретичну функцію.)
Харві Мотульський,

Я радий, що ви виправили це, адже дуже цікаво, наскільки високим є покриття для невеликих розмірів зразків. Ми також можемо перевернути ваше запитання і скористатися формулою, щоб визначити, яке значення використовувати, якщо ми хотіли б запевнити (перед тим, як робити будь-які експерименти), з ймовірністю (скажімо), що середнє значення другий експеримент лежав би в двосторонньому інтервалі довіри визначеному від другого. Це, як звичайна практика, може бути одним із інтригуючих способів вирішення критики щодо NHST. Zα/2p=0.951α
whuber

@whuber Я думаю, що наступним кроком буде дивитися на розподіл покриття. Поки ми маємо середнє покриття (середнє для багатьох перших експериментів, із середнім числом багатьох експериментів у кожному). Але залежно від першого експерименту, в деяких випадках середнє покриття буде поганим. Було б цікаво побачити розподіл. Я намагаюся навчитися R досить добре, щоб це дізнатися.
Гарві Мотульський

Щодо розповсюдження, дивіться документ, до якого я посилався у коментарях вище.
амеба каже, що повернеться до Моніки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.