Визначення розміру вибірки перед початком експерименту чи нескінченний запуск експерименту?


12

Я вивчав статистику років тому і все це забув, тому це може здатися загальним концептуальним питанням, ніж будь-що конкретне, але ось моє питання.

Я працюю на веб-сайті електронної комерції як дизайнер UX. У нас є система тестування A / B, яка була побудована років тому, і я починаю сумніватися в цьому.

Показник, на якому ми приймаємо всі наші рішення, відомий як конверсія, і він ґрунтується на відсотках користувачів, які відвідують сайт і в кінцевому рахунку купують щось.

Отже, ми хочемо перевірити, чи змінить колір кнопки "Купувати" із "Зеленого" на "Синій".

Контроль - це те, що ми вже маємо, Зелена кнопка, де ми знаємо, який наш середній коефіцієнт конверсії. Експеримент - це заміна зеленої кнопки на синю кнопку.

Ми погоджуємось, що 95% значимість - це рівень впевненості, яким ми задоволені, і ми включаємо експеримент і залишаємо його запущеним.

Коли користувачі відвідують сайт, за лаштунками існує 50/50 шансів, що вони будуть надіслані до контрольної версії (зелена кнопка) проти експериментальної версії (синя кнопка).

Переглянувши експеримент через 7 днів, я бачу 10,2% збільшення конверсії на користь експерименту з розміром вибірки 3000 (1500 йде на контроль, 1500 - для експерименту) та статистичною значимістю 99,2%. Відмінно, я думаю.

Експеримент продовжується, розмір вибірки зростає, і тоді я бачу + 9% збільшення конверсії зі значенням 98,1%. Гаразд, продовжуйте експеримент довше, і тепер експеримент показує лише 5-кратне підняття конверсії зі статистичною значимістю лише 92%, а рамки підказують мені, що мені потрібно ще 4600 проб, перш ніж я досягну 95% значущості?

У який момент тоді експеримент є переконливим?

Якщо я подумаю сказати, що це клінічний випробувальний процес, коли ви заздалегідь погоджуєтесь із розміром вибірки та після завершення експерименту ви бачите 10-відсоткове поліпшення будь-якої метрики до 99% значущості, тоді приймається рішення про те, що цей препарат потім виходить на ринок. Але тоді, якщо б вони провели експеримент на 4000 людей, і вони побачили на 5% поліпшення будь-якої метрики до лише 92% значущої, тоді цього препарату не було б випущено на ринок.

Чи варто заздалегідь домовитись про розмір вибірки та припинити, як тільки буде досягнутий розмір вибірки, і бути задоволеним результатами, якщо значення значення 99% у момент відключення експерименту було зупинено?


1
Ви можете розглянути можливість використання іншого підходу на основі ранжування та вибору .
pjs

Я натрапив на цей фільм ( youtube.com/watch?v=fl9V0U2SGeI ). Мені це звучить так, що відповідає саме на запитання.
Натан

Також варто відзначити, що основна річ дослідження - це дуже рефлексивна, швидко рухається і вимагає постійного повторного тестування. Макети, кольори, кнопки тощо рухаються швидко, коли з’являються нові сайти, стандарти та стилі. Також високий рівень комбінаторних питань (ця кнопка може повертати різні результати з невеликим перетворенням на колір тла тощо). Як результат, незалежно від рівня значущості, ви не можете мати дуже високий «справжній» рівень впевненості (і, звичайно, не на тривалий період) в результатах, навіть якщо вони виглядають дуже сильними.
Філіп

Відповіді:


11

Я думаю, що концепція, яку ви шукаєте, - це послідовний аналіз. На цьому сайті є ряд питань, позначених терміном, який може бути корисним, можливо, коригування p-значення для адаптивного послідовного аналізу (для квадратного тесту чи)? було б місцем для початку. Ви також можете ознайомитися зі статтею Вікіпедії тут . Іншим корисним пошуковим терміном є альфа-витрати, які випливають з того, що під час кожного повторного вигляду ви повинні вважати, що це використовує частину альфа (рівень значущості). Якщо ви постійно заглядаєте до своїх даних, не беручи до уваги численні порівняння, ви стикаєтеся з проблемою, яку ви окреслюєте у своєму запитанні.


Дякую, це кілька хороших рекомендацій щодо читання. Я б навіть не знав, що шукати інакше. Буде споживати це.
Технологія 75

5

У який момент тоді експеримент є переконливим?

Я думаю, саме тут помилка в мисленні. Немає сенсу, коли експеримент може бути "переконливим", якщо вважати, що це "дедуктивно доводить причину". Коли ви робите експеримент, що включає статистичний тест, вам потрібно взяти на себе зобов'язання щодо того, які докази ви вважаєте досить хорошими.

Статистично обгрунтовані експериментальні процедури дають результати з відомими показниками помилкових позитивних результатів та помилкових негативів. Якщо ви обрали процедуру, яка використовує 0,05 як поріг значущості, ви говорите, що ви готові прийняти, що в 5% випадків, коли насправді немає різниці, ваш тест скаже вам, що є різниця.

Якщо ви відхиляєтесь від процедури описаними способами (не вибираючи точки зупинки заздалегідь, просто запустіть тест, поки обчислене значення p не опуститься нижче 0,05, або запустити весь експеримент кілька разів, поки не отримаєте позитивний результат тощо), ви робите більш імовірним, що ваш тест скаже вам, що різниця існує, коли насправді різниці немає. Ви робите більше шансів на те, що вас змусять думати, що ваші зміни були ефективними. Не дозволяйте собі обдуритись.

Прочитайте цей документ: Хибнопозитивна психологія Нерозкрита гнучкість у збиранні та аналізі даних дозволяє представити щось як важливе

Він підкреслює декілька способів, за допомогою яких ви можете неправильно втручатися в процедуру тестування, що робить більш імовірним вас обдурити, включаючи точний сценарій, який ви описуєте (не знаючи, коли зупинити експеримент).

Інші відповіді дають вам декілька рішень для усунення цих проблем (послідовний аналіз, корекція Бонферроні для кількох порівнянь). Але ці рішення, в той час як в змозі контролювати хибнопозитивних, як правило , зменшити потужність експерименту, що робить його менш імовірно , щоб виявити відмінності , коли вони роблять існує.


Є ще одна помилка, яку ви робите. Ви говорите про "10% покращення будь-якої метрики до 99% значущості". Тести на предмет значущості можуть лише визначити, чи спостерігається різниця у вашій вибірці через реальну різницю чи просто випадковий шум; вони не дають вам довірчих інтервалів щодо того, яка справжня величина різниці.


3

Я думаю, ви тут задаєте неправильне запитання. Питання, яке ви ставите, стосується статистичних тестів; Я думаю, що правильне питання - "чому ефект змінюється з часом?"

Якщо ви вимірюєте змінну 0/1 для конвертації (чи купували вони взагалі?), Люди, які не купували на початковому сеансі, можуть повернутися і придбати пізніше. Це означає, що коефіцієнт конверсії з часом збільшуватиметься, і будь-який ефект від придбання клієнтом у перший візит на відміну від пізніших відвідувань буде втрачено.

Іншими словами, спочатку зрозумійте, що ви вимірюєте, а потім переживайте, як ви вимірюєте.


3

Саме тому до випробувань слід визначити чіткий критерій. Як зазначає @mdewey, існують встановлені методи періодичної оцінки випробування, але всі вони потребують чіткого зупинки криттерону, щоб запобігти будь-якому фальсифікацію рішення. Два критичних питання полягають у тому, що вам потрібно виправити декілька порівнянь і що кожен аналіз не є незалежним, але на його результат сильно впливають результати попередніх аналізів.

В якості альтернативи може бути найкращою практикою визначити встановлений розмір вибірки на основі комерційно релевантних аргументів.

По-перше, компанія повинна погодитись, що є комерційно важливою зміною коефіцієнта конверсії (тобто, який розмір різниці необхідний для того, щоб зробити комерційний випадок, щоб зміни були застосовані постійно). Без згоди з цим немає розумного орієнтиру.

Після того, як буде визначений мінімальний розмір комерційно відповідного ефекту (зауважте, це може змінюватися в кожному конкретному випадку залежно від того, наскільки важливим є тестування кроку), тоді ви погоджуєтесь з рівнем ризику, який компанія готова прийняти за відсутність справжнього ефекту ( бета) та для прийняття помилкового ефекту (альфа).

Коли ви отримаєте ці цифри, підключіть їх до калькулятора розміру вибірки та вуаля, ви отримаєте встановлений розмір вибірки для прийняття рішення.


EDIT

Використання невеликих розмірів вибірки та сподівання, що вони покажуть достатньо великий ефект, є помилковою економією (оскільки ваша мета - ефективні надійні результати, а не генерування суперечливої ​​гіпотези для академічного видання). Якщо припустити неупереджене відбір проб, при низьких розмірах вибірки ймовірність випадкового відбору зразків, які трапляються в сторону протилежних крайностей, вище, ніж у великих розмірах вибірки. Це призводить до більшої ймовірності відхилення нульової гіпотези, коли насправді різниці немає. Тож це означатиме просунення змін, які насправді не роблять реального впливу, а ще гірше, мають незначний вплив. Це інший спосіб пояснити, про що говорить @Science, коли вони заявляють

"ви робите більш імовірним, що ваш тест скаже вам, що різниця існує, коли насправді немає різниці"

Сенс попереднього уточнення вашого статистичного аналізу (будь то фіксований розмір вибірки, як я описую, або стратегія множинного оцінювання) полягає в тому, що ви належним чином врівноважуєте вимоги як помилок I, так і II типу. Здається, що ваша поточна стратегія зосереджена на помилках I типу і повністю ігнорує тип II.

Як зазначають численні інші відповіді, результати ніколи не є переконливими, але якщо ви розглянули як помилки І, так і ІІ типу та їх вплив на ваш бізнес, тоді ви будете мати найбільшу впевненість у тому, чи зможете впровадити зміни на основі результатів. Зрештою, прийняття рішення полягає у задоволенні свого рівня ризику і ніколи не трактуйте свої факти як непорушні.

Мене заінтригують інші аспекти дизайну вашого дослідження, які можуть впливати на результати, які ви бачите. Вони можуть виявити деякі тонкі чинники, які не є тим, що ви хочете.

Чи люди, відібрані для вибірки, всі нові відвідувачі, всі відвідувачі, що повертаються, чи це недиференційовано? У встановлених клієнтів може бути підвищена тенденція шукати щось нове (настільки упереджене до зміни не конкретного кольору), але для нових клієнтів все нове.

Чи реальні люди, що клацають, повторюються протягом строку дослідження?

Якщо люди відвідують декілька разів протягом часового періоду дослідження, чи отримують вони одну і ту ж версію або вона випадково виділяється на льоту?

Якщо відвідувача, що повторюється, включено до небезпеки виснаження від експозиції (воно більше не відволікає, оскільки воно більше не нове)


Дякую за це Ви добре заздалегідь погоджуєтесь з комерційно важливою зміною конверсії. Але оскільки, як і в галузі електронної комерції, невеликі зміни в конвертації можуть вплинути на продажі, це буде досить низьким значенням.
Технологія 75

Мінімальна різниця, необхідна для того, щоб бути невеликою - це не проблема, вона переконається в тому, що ви працюєте належним чином.
ReneBt

0

Звичайна практика зазвичай диктує, що ви вирішуєте спочатку розмір вибірки (щоб контролювати статистичну потужність свого тесту гіпотези), а потім виконати експеримент.

У відповідь на ваше поточне становище здається, що ви поєднали низку тестів гіпотез. Рекомендую переглянути метод Фішера. Крім того, ви, мабуть, захочете переглянути методи Брауна чи Коста для пристосування методу Фішера до залежної статистики тестів. Як зазначив інший респондент, конверсія клієнта (або неконверсія) вплине на те, чи буде він робити покупку (чи ні) під час наступного відвідування - незалежно від того, який колір кнопки.

Дослідження:

  1. Більше інформації та джерел про методи Фішера та їх розширення можна знайти у статті Вікіпедії про метод Фішера.
  2. Я вважаю, що важливо згадати, що експеримент ніколи насправді не є переконливим. Невелике p-значення не означає, що ваш результат є переконливим - лише те, що нульова гіпотеза навряд чи ґрунтується на отриманих вами даних.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.