Безпечне визначення розміру вибірки для тестування A / B


22

Я інженер програмного забезпечення, який прагне створити інструмент для тестування а / б . У мене немає твердої статистики, але я читав зовсім небагато читань протягом останніх кількох днів.

Я дотримуюсь описаної тут методики і підсумую відповідні моменти нижче.

Інструмент дозволить дизайнерам та експертам домену налаштувати веб-сайт для розподілу трафіку, отриманого за певною URL-адресою, на дві або більше URL-адрес. Наприклад, трафік, що надходить на http://example.com/hello1, може бути розділений між http://example.com/hello1 та http://example.com/hello2 . Трафік розподілятиметься рівномірно між цільовими URL-адресами, а ефективність маркетингових процесів на кожній із цільових URL-адрес буде порівнюватися.

У цьому експерименті розмір вибірки Nбуде відповідати відвідувачам. Тест вимірює "конверсії", термін, що описує, коли відвідувач здійснює певну дію в маркетинговому процесі. Конверсії виражаються у відсотках і бажано більш високий коефіцієнт конверсії. Це робить тест порівнянням незалежних пропорцій. Інструмент повинен бути легко використаний для виготовлення тестів із безпечними результатами. Вибір відповідного значення Nє важливим.

У вищезазначеній статті, що використовується для аналізу, використовується аналіз потужності двох незалежних пропорцій N. Цей метод вимагає, щоб заздалегідь знати коефіцієнт конверсії керування, а також вказати бажане поліпшення конверсії. Він також визначає рівень значущості 95% та статистичну потужність 80%.

Запитання:

  1. Це метод визначення Nзвуку? Якщо так, то який найбезпечніший спосіб визначити коефіцієнт конверсії контролю до початку тесту?
  2. Чи існують обґрунтовані способи визначення N, які не вимагають заздалегідь знати коефіцієнти конверсії контролю?
  3. Чи звучить методологія у пов'язаній статті ? Якщо ні, чи існують якісь доступні та легкозасвоювані методи, до яких ви могли б зв’язати мене?

Відповіді:


12

Найпоширеніший метод проведення такого випробування - це довірчі інтервали біноміальних пропорцій (див. Http://bit.ly/fa2K7B )

Ви ніколи не зможете дізнатися "справжній" коефіцієнт конверсії двох шляхів, але це дасть вам можливість сказати щось на користь "З 99% впевненістю, A є ефективнішим при перетворенні, ніж B".

Наприклад: Припустимо, що ви провели 1000 випробувань вниз по шляху А. З цих 1000 випробувань 121 було успішним перетворенням (коефіцієнт конверсії 0,112), і ми хотіли б 99% довірчого інтервалу приблизно за цей результат 0,121. Г-скор на 99% довірчих інтервалів 2,576 (ви тільки подивіться це вгору в таблиці), тому по Таким чиномз 99% впевненістю можна сказатищо0,094 р0,148, де р є «справжнім» швидкість перетворення процесу А.

p^±2.576(0,121(1-0,121)1000)p^±0,027
0,094p^0,148p^

Якщо ми побудуємо аналогічний інтервал для процесу B, ми можемо порівняти інтервали. Якщо інтервали не збігаються, ми можемо з 98% впевненістю сказати, що один кращий за інший. (Пам'ятайте, що ми впевнені лише на 99% щодо кожного інтервалу, тому наша загальна впевненість у порівнянні становить 0,99 * 0,99)

NN

Вдачі вам (Я, до речі, вкорінююся в процесі B).


2
LАТЕХp^

p^0,094p^0,148суcессестriалсp^p

Ця відповідь невірна. Конкретно: "Якщо інтервали не збігаються, ми можемо з 98% впевненістю сказати, що один кращий за інший" є помилковим. Враховуючи два 99% довірчих інтервалу, що не перекриваються, впевненість, що різниця виключає 0, як найменше 99%. Якщо інтервали однакового розміру, різниця суттєва приблизно на рівні 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan Чи ваші коментарі стосуються інших значень? Наприклад, чи правильно сказати (на вашу думку), що різниця засобів становить принаймні 30%, якщо у нас є два неперекриваються 30% довірчих інтервалу однакового розміру?
Феліпе Алмейда

1
@Felipe, так, коментар справедливий для всіх значень, а неперекриваються 30% довірчі інтервали припускають впевненість, що різниця, що виключає 0, принаймні 30%. Це, однак, не означає, що існує 30% різниця в засобах. Справжні засоби можуть бути дуже схожими; ми просто намагаємося довести, що вони не зовсім однакові.
Bscan

8

ІМХО, наскільки це йде, посада йде в правильному напрямку. Однак:

  • Запропонований метод неявно робить два припущення: базовий коефіцієнт конверсії та очікувана кількість змін. Розмір вибірки дуже залежить від того, наскільки добре ви виконуєте ці припущення. Я рекомендую обчислити необхідні розміри вибірки для кількох комбінацій p1 і p2, які ви вважаєте реалістичними. Це дасть вам уявлення про те, наскільки надійним є розрахунок розміру вибірки.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Отже, якщо фактичний коефіцієнт конверсії становить 9% замість 10%, вам потрібно ще 2000 випадків для кожного сценарію, щоб виявити 10% - більше, ніж базовий рівень конверсії нової форми.

Після завершення тестування ви можете обчислити довірчі інтервали для пропорцій на основі ваших фактичних спостережень.

  • н
    нsig.level

Привіт, велике спасибі, що знайшли час для критики цих методів. У розрахунку (1 - α) ² ≈ 10%, на що посилається "α"? Оскільки зйомка даних тестів займає багато часу, як ви пропонуєте побудувати цей експеримент, якщо потрібно перевірити три пропорції? Чи є безпечний спосіб зробити це, що не передбачає проведення декількох тестів? З трьома альтернативами три тести не дуже важкі, але з чотирма альтернативами кількість комбінацій складає до шести.
jkndrkn

1
@jkndrkn: α - ймовірність помилкового змінити вихідну форму, так само помилка α або помилка I типу. Дивіться оновлену відповідь.
cbeleites підтримує Моніку

1
@jkndrkn: Кілька тестів: я б ознайомився з Fleiss et.al.: Статистичні методи для ставок та пропорцій щодо процедур таких тестів. Однак головним моментом для таких численних тестів є завжди використання експертних знань, щоб максимально скоротити кількість альтернатив, перш ніж визначити тест, оскільки необхідні розміри вибірки вибухають із кількістю альтернатив (як ви вже зрозуміли).
cbeleites підтримує Моніку

-1

Замість обчислення інтервалів, що перекриваються, ви обчислюєте Z-бал. Це алгоритмічно простіше здійснити, і ви отримаєте статистичні бібліотеки для допомоги.

Погляньте: https://onlinecourses.science.psu.edu/stat200/node/53

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.