Я намагаюся зрозуміти міркування, вибираючи конкретний тестовий підхід при роботі з простим тестом A / B - (тобто, два варіанти / групи з бінарним відповіддю (перетвореним чи ні). Як приклад я буду використовувати дані нижче
Version Visits Conversions
A 2069 188
B 1826 220
Верхня відповідь тут чудова і говорить про деякі основні припущення для тестів z, t і chi. Але що мене бентежить в тому, що різні інтернет-ресурси будуть цитувати різні підходи, і ви вважаєте, що припущення для базового тесту на а / б повинні бути приблизно однаковими?
- Наприклад, у цій статті використовується z-score :
- У цій статті використовується наступна формула (що я не впевнений, чи відрізняється вона від розрахунку zscore?):
- У цьому документі йдеться про тест t (p 152):
То які аргументи можна висловити на користь цих різних підходів? Чому б один мав перевагу?
Для залучення ще одного кандидата таблицю вище можна переписати як таблицю на випадок 2х2, де може бути використаний точний тест Фішера (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Але згідно з цим точним випробуванням рибалки слід використовувати лише менші розміри зразків (що таке обрізання?)
А потім є парні тести t і z, тест f (і логістична регресія, але я хочу покинути це поки що) .... Я відчуваю, що я тону в різних тестових підходах, і я просто хочу вміти зробити такий аргумент для різних методів у цьому простому тестовому випадку A / B.
Використовуючи дані прикладу, я отримую наступні p-значення
https://vwo.com/ab-split-test-significance-calculator/ дає p-значення 0,001 (z-оцінка)
http://www.evanmiller.org/ab-testing/chi-squared.html (використовуючи тест квадратних чі) дає p-значення 0,00259
А в R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
дає p-значення 0,002785305
Я думаю, всі вони дуже близькі ...
У будь-якому випадку - просто сподіватися на здорову дискусію щодо того, які підходи використовувати в онлайн-тестуванні, де розміри вибірки зазвичай складаються в тисячах, а коефіцієнт відповіді часто 10% або менше. Моя кишка говорить мені використовувати чі-квадрат, але я хочу, щоб я міг точно відповісти, чому я вибираю його за іншими способами зробити це.