Перевірте веб-тести a / b, повторно провевши експеримент - чи це дійсно?


11

Днями на вебінарі, проведеному тестовою компанією з / б, його резидент "Data Scientist" пояснив, що слід підтвердити результати, повторивши експеримент. Якщо ви виберете 95% впевненість, існує 5% (1/20) шансів на помилковий позитив. Якщо ви повторно запустите експеримент з тими ж обмеженнями, тепер є 1/400 (я припускаю, що вони визначили це як 0,05 ^ 2 = 1/400)

Це дійсна заява? (тобто "запустити двічі; виграє дві статистичні значення = 1/400 ймовірність помилкового позитивного")? Чи було б кращим підходом підвищити рівень вашої значущості?

З точки зору бізнесу, я викликаю занепокоєння через повторний експеримент, ви піддаєте більше користувачів на неповноцінну сторінку (лікування) і, таким чином, втрачаєте потенційні продажі.


2
Привіт, Джон, ласкаво просимо до Stats.SE! Якщо ви задоволені будь-якою з відповідей, вам слід прийняти одну з них або надати більш уточнюючі запитання про те, що ви шукаєте.
Крістофер Аден

Джон, я підозрюю, що справжнє питання стосується контексту. Рідко люди присвячують ресурси навчанню лише одній справі за один раз: вони хочуть максимально використати свої дані з поважної причини. Це означає, що кожен набір даних буде використовуватися для декількох тестів. Більше того, іноді тести є post-hoc : їх надихали зразки, помічені в даних. У таких випадках тести насправді не мають бажаної впевненості на 95% (або будь-якої іншої), а реплікація є важливою. Отже: що саме ви маєте на увазі під «експериментом»? Відповідь залежить від цієї дрібниці!
whuber

Про повторення експерименту та значення значень ознайомтеся з цим коміксом XKCD: xkcd.com/882 Прочитавши це, перегляньте коментар, який можна сказати вище.
Лукас Ґалліндо

whuber: вибачте за нестачу деталей, я посилаюся на оптимізацію веб-сайтів, тому приклад експерименту може випробувати дві версії моєї домашньої сторінки з розділенням 50/50 користувачів на кожну.
Іван

Відповіді:


3

На даний момент ігноруючи ймовірність помилкового позитиву, я би на це дивився так:

  1. Якщо ви проводите експеримент двічі та отримуєте один і той же результат, ви поняття не маєте, чи було два справжні позитивні результати чи два хибнопозитивні результати поспіль.
  2. Якщо ви двічі проведете експеримент і отримаєте два різні результати, то ви не знаєте, який є справжній позитивний, а який був хибнопозитивний результат.

В будь-якому випадку вам слід провести третій експеримент, щоб бути певним. Це, можливо, добре для експериментів, які відносно недорогі, але там, де вартість потенційно висока (наприклад, втрата клієнтів), вам дійсно потрібно врахувати вигоду.

З огляду на ймовірності, коли ви вперше запускаєте експеримент, є 1/20 шансу на помилковий позитив. Вдруге, коли ви запускаєте експеримент, все ще є 1/20 шансу на помилковий позитив (подумайте про це як прокатку штампу, де кожен рулон має 1/6 шансу отримати певну кількість). Є лише 1/400 шанси мати два помилкових позитиву поспіль.

Справжньою проблемою є наявність чітко визначеної гіпотези із суворими процедурами, а також розмір вибірки, рівень помилки та інтервал довіри, з якими можна жити чи дозволити собі. Повторення експерименту слід залишити дослідженню

  1. клієнти з часом
  2. зміни, внесені організацією
  3. зміни, внесені конкуренцією

а не другий здогад. Хоча пояснити це менеджерам простіше, ніж зробити.


mjc, велике спасибі за коментар - це саме те, що я шукав.
Іван

2

Так, це твердження правильне, якщо припустити, що ваш експеримент ідеальний. Але отримати ідеальний експеримент - набагато складніше, ніж цей настрій надає довіри. Дані "реального світу" безладні, складні та важко інтерпретувати в першу чергу. Існує величезне місце для хибного аналізу, прихованих змінних (дуже рідко є "однакові обмеження") або неправильної комунікації між науковцем, який виконує свою роботу, і помітним виконавцем, який робить їх.

З точки зору бізнесу, забезпечуйте хорошу методологію та не переконання в результатах; складніший виклик, ніж ви могли подумати. Як тільки ви їх знизите, працюйте над цими 5%.


Дякую, що відповідає на перше запитання. Як щодо другого питання: "Чи було б краще підходити до підвищення рівня вашої значущості?" Просто роблячи швидке моделювання в R (зберігаючи однаковий розмір ефекту та потужність, змінюючи лише значення значущості), я міг зібрати на 4,8% менше даних, просто вибравши 97,5% значущості, а не запустивши 2X експерименти зі значенням 95%. Я повинен уточнити - коли я запитую "Чи було б краще .." Я маю на увазі, чи міг би я досягти такого ж кінцевого результату, зібравши менше даних.
Джон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.