Я намагаюся зробити A / B тестування байєсівського шляху, як у ймовірнісному програмуванні для тестів хакерів та байесівських A / B тестів . Обидві статті припускають, що яка приймає рішення, вирішує, який із варіантів краще ґрунтується виключно на ймовірності якогось критерію, наприклад, , отже, краще. Ця ймовірність не дає жодної інформації про те, чи було достатньо кількості даних, щоб зробити з неї якісь висновки. Отже, мені незрозуміло, коли зупинити тест.A
Припустимо , що є два довічних RVs, і , і я хочу , щоб оцінити , наскільки ймовірно, що і на основі спостережень і . Крім того, припустимо, що та розподілені бета-версією.B p A > p B p A - p BABpApB
Оскільки я можу знайти параметри для та , я можу відібрати та оцінити . Приклад в python:p Ap BP ( p A > p B | дані )
import numpy as np
samples = {'A': np.random.beta(alpha1, beta1, 1000),
'B': np.random.beta(alpha2, beta2, 1000)}
p = np.mean(samples['A'] > samples['B'])
Я міг би отримати, наприклад, . Тепер я хотів би мати щось на зразок .P ( p A > p B | дані ) = 0,95 ± 0,03
Я досліджував достовірні інтервали та фактори Байєса, але не можу зрозуміти, як їх обчислити для цього випадку, якщо вони взагалі застосовні. Як я можу обчислити ці додаткові статистичні дані, щоб у мене був хороший критерій припинення?