Чому цей розподіл рівномірний?

Ми досліджуємо байєсівські статистичні випробування, і натрапимо на дивне (на мене принаймні) явище.

Розглянемо наступний випадок: нас цікавить вимірювання того, яке населення, А чи В, має більш високий коефіцієнт конверсії. Для перевірки встановлюємо , тобто ймовірність конверсії однакова в обох групах. Ми створюємо штучні дані за допомогою біноміальної моделі, наприклад $p_A = p_B$

n_{A} \sim Binomial (N, p_{A})

$n_A \sim \text{Binomial}(N, p_A)$

Потім ми намагаємося оцінити за допомогою байєсівської бета-біноміальної моделі, тому ми отримуємо для кожного коефіцієнта перетворення, наприклад, $p_A, p_B$

P_{A} \sim Beta (1 + n_{A}, N - n_{A} + 1)

$P_A \sim \text{Beta}(1 + n_A, N - n_A +1 )$

Наша тестова статистика обчислюється шляхом обчислення через monte carlo. $S = P(P_A > P_B\; |\; N, n_A, n_B)$

Мене здивувало те, що якщо , то . Мої думки полягали в тому, що вона буде зосереджена приблизно на 0,5 і навіть збільшиться до 0,5, оскільки розмір вибірки, , зростає. $p_A = p_B$ $S \sim \text{Uniform(0,1)}$ $N$

Моє запитання: чому коли ? $S \sim \text{Uniform(0,1)}$ $p_A = p_B$

Ось декілька кодів Python для демонстрації:

%pylab
from scipy.stats import beta
import numpy as np
import pylab as P

a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples)
P.show()

— Cam.Davidson.Pilon
джерело

Зауважте, що не може бути точно рівномірним, оскільки це дискретна змінна. Тому ви запитуєте про асимптотичну поведінку. Більше того, для малих (менше , приблизно, при ) розподіл навіть не віддалено близький до рівномірного.

S

$S$

N

$N$

100 / min (p, 1 - p)

$100/\min(p,1-p)$

p = p_{A} = p_{B}

$p=p_A=p_B$

— whuber

@whuber S не є дискретним, це ймовірність, що може впасти між 0 і 1. Крім того, навіть при низькому N я спостерігаю рівномірну поведінку.

— Cam.Davidson.Pilon

Тоді я, мабуть, нерозумію вашу установку. Наскільки я можу сказати, для будь-яких заданих значень значення є числом. Тому, приймаючи, що і є фіксованими на даний момент (як вони є у вашому коді), є функцією . Але останні, будучи реалізацією двох біноміальних розподілів, можуть досягти лише дискретного набору значень. Коли я відтворюю свій код , я рішуче неоднорідні гістограм для малих .

N, n_{A}, n_{B},

$N,n_A,n_B,$

S

$S$

N, p_{A},

$N, p_A,$

p_{B}

$p_B$

S

$S$

(n_{A}, n_{B})

$(n_A,n_B)$ R

N

$N$

— whuber

Хоча справді ваш має значення від до , не плутайте це з недискретними: він може мати не більше чітких значень (а насправді має менше, ніж це). Це не може бути абсолютно ясно, тому що ваша симуляція генерує оцінку з , а не його правильних значення і оцінки по суті є безперервне розподіл.

S

$S$

0

$0$

1

$1$

N^{2}

$N^2$

S

$S$

— whuber

@whuber так, ви праві, чудове спостереження. Я до сих пір застряг, чому це виглядає рівномірно.

— Cam.Davidson.Pilon

Відповіді:

TL; DR: Суміші звичайних розподілів можуть виглядати рівномірно, коли розміри контейнерів великі.

Ця відповідь запозичує зразок коду @ whuber (який я вважав спочатку помилкою, але в ретроспективі, мабуть, натяк).

Основоположні пропорції в популяції рівні: a = b = 0.5.
Кожна група, А і В мають 10000 членів: N = 10000.
Ми будемо проводити 5000 повторів моделювання: for i in range(5000):.

На насправді, що ми робимо це з . У кожному з 5000 ітерацій ми зробимо . $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$

У кожній ітерації ми будемо моделювати випадкове число А і В , які є «успіхами» (АКА перетворена) , дані , що лежать в основі рівних пропорцій , визначені раніше: . Номінально це дасть A = 5000 та B = 5000, але A і B змінюються від sim run до sim run та розподіляються по 5000 циклів моделювання незалежно та (приблизно) нормально (ми повернемось до цього). $\rm simulation_\rm{prime}$ A = np.random.binomial(N, a); B = np.random.binomial(N, b)

Давайте тепер переглянемо для єдиної ітерації в якій A і B отримали рівну кількість успіхів (як це буде середній випадок). У кожній ітерації ми, задавши A і B, створимо випадкові величини бета-розподілу для кожної групи. Тоді ми порівняємо їх і з’ясуємо, чи , даючи ПРАВИЛЬНУ або (1 або 0). Наприкінці запуску ми виконали 15000 ітерацій та маємо 15000 значень TRUE / FALSE. Середнє значення цих показників дасть єдине значення з (приблизно нормального) розподілу вибірки на частку $\rm simulation_\rm {underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ $\rm simulation_\rm {underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ .

За винятком того, що зараз вибере 5000 значень A і B. A і B рідко будуть абсолютно рівними, але типові відмінності в кількості успіхів A і B спотворюються на загальний розмір вибірки A і B. Типовий As і B отримає більше витягів від їх вибіркового розподілу пропорцій , але ті, що знаходяться на краях розподілу A / B, також будуть витягнуті. $\rm simulation_\rm{prime}$ ${\rm Beta}_A > {\rm Beta}_B$

Отже, що по суті ми перетягуємо на багато сим-прогонів - це комбінація розподілу вибірки для комбінацій A і B (з більшою кількістю витягів із розподілу вибірки, зроблених із загальних значень A і B, ніж нечасті значення A і B). Це призводить до отримання сумішей нормального розподілу. Якщо ви комбінуєте їх за невеликим розміром біна (як це за замовчуванням для функції гістограми, яку ви використовували, і була вказана безпосередньо у вихідному коді), ви отримуєте щось, схоже на рівномірний розподіл. ${\rm Beta}_A > {\rm Beta}_B$

Поміркуйте:

a = b = 0.5
N = 10
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples,1000)
P.show()

— russellpierce
джерело

Так що між моїм та вашим кодом є різниця. Я вибираю вибірки A і B у кожній петлі, ви вибираєте її один раз і обчислюєте S 5000 разів.

— Cam.Davidson.Pilon

Невідповідність полягає у ваших дзвінках до rbinom, який повертає вектор. Подальший виклик rbetaвсередину replicateвекторизований, тому внутрішня (внутрішня) петля використовує різні і для кожної з 15000 генерованих випадкових змінних (обгортання остаточних 5000 з моменту вашого ). Дивіться докладніше. Це відрізняється від коду @ Cam з тим, що має єдині фіксовані і використовуються у всіх 15000 викликах з випадковими змінними для кожної з 5000 циклів вибірки ( ).

A

$A$

B

$B$ NSIM = 10000?rbeta

A

$A$

B

$B$ replicate

— кардинал

ось вихід для тих, хто цікавиться: imgur.com/ryvWbJO

— Cam.Davidson.Pilon

Єдине, що мені відомо про те, що є потенційно доречним на концептуальному рівні, це те, що: а) очікуваний розподіл результатів є симетричним; б) розмір відрізка 1 завжди рівномірний; в) розмір відрізка 2 для симетричного розподілу також завжди буде рівномірним, d) кількість можливих розподілів вибірки, які можна отримати із збільшення з N, д) значення S не можуть скластись на 0 або 1, оскільки бета не визначена, якщо в будь-якій групі є 0 успіхів , і f) зразки обмежені між 0 і 1.

— russellpierce

Що стосується лише спостереження, ми можемо побачити, що відстані між центроїдами розподілів вибірки зменшуються в міру того, як центроїди розподілів вибірки відходять від .5 (ймовірно, пов'язане з точкою f вище). Цей ефект, як правило, протидіє тенденції високих частот спостережень до більш загальних майже рівних успіхів у випадку групи А та групи В. Однак давати математичне рішення щодо того, чому це так, і чому воно повинно давати нормальні розподіли для певних розмірів бункера, немає ніде поблизу моєї території.

— russellpierce

Щоб отримати деяку інтуїцію щодо того, що відбувається, давайте сміливо зробимо дуже великим і, тим самим, ігноруючи поведінку та використовуючи асимптотичні теореми, які заявляють, що і бета-і біноміальні розподіли стають приблизно нормальними. (З деякими неприємностями, все це може бути зроблено суворо.) Коли ми це робимо, результат виходить із конкретного співвідношення між різними параметрами. $N$ $O(1/N)$

Оскільки ми плануємо використовувати Нормальне наближення, ми звернемо увагу на очікування та відхилення змінних:

Як біноміальний змінні, і є очікування і дисперсії з . Отже і є очікування і дисперсією . $(N, p)$ $n_A$ $n_B$ $pN$ $p(1-p)N$ $\alpha=n_A/N$ $\beta=n_B/N$ $p$ $p(1-p)/N$
Як бета-версія , має очікування та дисперсію . , ми виявимо, що очікує $(n_A+1, N+1-n_A)$ $P_A$ $(n_A+1)/(N+2)$ $(n_A+1)(N+1-n_A) / [(N+2)^2(N+3)]$ $P_A$

$Е (П_{А}) = α + О (1 / N)$ $\mathbb{E}(P_A) = \alpha+O(1/N)$
і дисперсія

$Вар (П_{А}) = α (1 - α) / N + О (1 / N^{2}),$ $\text{Var}(P_A) = \alpha(1-\alpha)/N + O(1/N^2),$
з аналогічними результатами для . $P_B$

Отже, наблизимо розподіли і з нормальними та нормальними (де другий параметр позначає дисперсію ) . Отже, розподіл приблизно нормальний; а саме, $P_A$ $P_B$ $(\alpha, \alpha(1-\alpha)/N)$ $(\beta,\beta(1-\beta)/N)$ $P_A-P_B$

П_{А} - П_{Б} \approx Нормальний (α - β, \frac{α (1 - α) + β (1 - β)}{N}) .

$P_A-P_B \approx \text{Normal}\left(\alpha-\beta, \frac{\alpha(1-\alpha) + \beta(1-\beta)}{N}\right).$

Для дуже великих вираз не помітно відрізнятиметься від за винятком дуже низького ймовірність (інший знехтуваний термін ). Відповідно, якщо є стандартним нормальним CDF, $N$ $\alpha(1-\alpha) + \beta(1-\beta)$ $p(1-p)+p(1-p)=2p(1-p)$ $O(1/N)$ $\Phi$

Пр (П_{А} > П_{Б}) = Пр (П_{А} - П_{Б} > 0) \approx Φ (\frac{α - β}{\sqrt{2 p (1 - p) / N}}) .

$\Pr(P_A\gt P_B) =\Pr(P_A-P_B\gt 0) \approx \Phi\left(\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}\right).$

Але оскільки має нульове середнє значення, а дисперсія $\alpha-\beta$ $2p(1-p)/N,$ - це стандартна нормальна змінна (принаймні приблизно). - йогоінтегральне перетворення ймовірності; єоднорідним. $Z=\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}$ $\Phi$ $\Phi(Z)$

— дзижчати
джерело

Я з вами до тих пір, поки

... тоді ви підете іншим напрямком, якого я не зовсім дотримувався. Чи

визначається двічі, один раз як стандартний нормальний CDF, а потім як інтегральне перетворення ймовірності? Я сподіваюся, що ви зможете розширити свій опис навколо цих кроків і пов’язати їх з початковим кодом / проблемою. Можливо, обведіть назад і перезапустіть, які конкретні параметри дають рівномірний результат.

P_{A} - P_{B} \approx N o r m a l

$P_A - P_B \approx Normal$

Φ

$\Phi$

— russellpierce

@rpierce (1) Різниця

приблизно нормальна, оскільки

незалежні, і кожен приблизно нормальний. Середнє значення є різницею засобів, а дисперсія - сумою дисперсій. (2) Інтеграл ймовірності перетворення є ВПР: це має місце для будь-якої випадкової величини

з безперервним розподілом

, що

є однорідним.

P_{A} - P_{B}

$P_A-P_B$

P_{A}

$P_A$

P_{B}

$P_B$

X

$X$

F

$F$

F (X)

$F(X)$

— whuber

О, я отримав 1, це був матеріал, після якого я загубився. Це буде розумно глухо, але чому

такий же, як CDF?

P r (P_{A} > P_{B})

$Pr(P_A>P_B)$

— russellpierce

X = P_{A} - P_{B}

$X = P_A-P_B$

μ = α - β

$\mu=\alpha-\beta$

σ^{2} = 2 p (1 - p) / N

$\sigma^2 = 2p(1-p)/N$

X

$X$

Пр (Х > 0) = Пр ((Х - мк) / σ > (0 - мк) / σ) = 1 - Φ (- мк / σ) = Φ (мк / σ) .

$\Pr(X\gt 0) = \Pr((X-\mu)/\sigma \gt (0-\mu)/\sigma) = 1-\Phi(-\mu/\sigma) = \Phi(\mu/\sigma).$

@whuber це досить дивовижно. Ви чудовий вчитель. Я ціную і вашу відповідь, і відповідь rpierce, я все одно буду йому вдячний, як це вирішило нашу проблему, і ви показали, чому відбувається така поведінка. Ти!

— Cam.Davidson.Pilon