Я вивчав статистику років тому і все це забув, тому це може здатися загальним концептуальним питанням, ніж будь-що конкретне, але ось моє питання.
Я працюю на веб-сайті електронної комерції як дизайнер UX. У нас є система тестування A / B, яка була побудована років тому, і я починаю сумніватися в цьому.
Показник, на якому ми приймаємо всі наші рішення, відомий як конверсія, і він ґрунтується на відсотках користувачів, які відвідують сайт і в кінцевому рахунку купують щось.
Отже, ми хочемо перевірити, чи змінить колір кнопки "Купувати" із "Зеленого" на "Синій".
Контроль - це те, що ми вже маємо, Зелена кнопка, де ми знаємо, який наш середній коефіцієнт конверсії. Експеримент - це заміна зеленої кнопки на синю кнопку.
Ми погоджуємось, що 95% значимість - це рівень впевненості, яким ми задоволені, і ми включаємо експеримент і залишаємо його запущеним.
Коли користувачі відвідують сайт, за лаштунками існує 50/50 шансів, що вони будуть надіслані до контрольної версії (зелена кнопка) проти експериментальної версії (синя кнопка).
Переглянувши експеримент через 7 днів, я бачу 10,2% збільшення конверсії на користь експерименту з розміром вибірки 3000 (1500 йде на контроль, 1500 - для експерименту) та статистичною значимістю 99,2%. Відмінно, я думаю.
Експеримент продовжується, розмір вибірки зростає, і тоді я бачу + 9% збільшення конверсії зі значенням 98,1%. Гаразд, продовжуйте експеримент довше, і тепер експеримент показує лише 5-кратне підняття конверсії зі статистичною значимістю лише 92%, а рамки підказують мені, що мені потрібно ще 4600 проб, перш ніж я досягну 95% значущості?
У який момент тоді експеримент є переконливим?
Якщо я подумаю сказати, що це клінічний випробувальний процес, коли ви заздалегідь погоджуєтесь із розміром вибірки та після завершення експерименту ви бачите 10-відсоткове поліпшення будь-якої метрики до 99% значущості, тоді приймається рішення про те, що цей препарат потім виходить на ринок. Але тоді, якщо б вони провели експеримент на 4000 людей, і вони побачили на 5% поліпшення будь-якої метрики до лише 92% значущої, тоді цього препарату не було б випущено на ринок.
Чи варто заздалегідь домовитись про розмір вибірки та припинити, як тільки буде досягнутий розмір вибірки, і бути задоволеним результатами, якщо значення значення 99% у момент відключення експерименту було зупинено?