A / B тести: z-test vs t-test vs chi square vs test точний тест

Я намагаюся зрозуміти міркування, вибираючи конкретний тестовий підхід при роботі з простим тестом A / B - (тобто, два варіанти / групи з бінарним відповіддю (перетвореним чи ні). Як приклад я буду використовувати дані нижче

Version  Visits  Conversions
A        2069     188
B        1826     220

Верхня відповідь тут чудова і говорить про деякі основні припущення для тестів z, t і chi. Але що мене бентежить в тому, що різні інтернет-ресурси будуть цитувати різні підходи, і ви вважаєте, що припущення для базового тесту на а / б повинні бути приблизно однаковими?

Наприклад, у цій статті використовується z-score :
У цій статті використовується наступна формула (що я не впевнений, чи відрізняється вона від розрахунку zscore?):

У цьому документі йдеться про тест t (p 152):

То які аргументи можна висловити на користь цих різних підходів? Чому б один мав перевагу?

Для залучення ще одного кандидата таблицю вище можна переписати як таблицю на випадок 2х2, де може бути використаний точний тест Фішера (p5)

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Але згідно з цим точним випробуванням рибалки слід використовувати лише менші розміри зразків (що таке обрізання?)

А потім є парні тести t і z, тест f (і логістична регресія, але я хочу покинути це поки що) .... Я відчуваю, що я тону в різних тестових підходах, і я просто хочу вміти зробити такий аргумент для різних методів у цьому простому тестовому випадку A / B.

Використовуючи дані прикладу, я отримую наступні p-значення

https://vwo.com/ab-split-test-significance-calculator/ дає p-значення 0,001 (z-оцінка)
http://www.evanmiller.org/ab-testing/chi-squared.html (використовуючи тест квадратних чі) дає p-значення 0,00259
А в R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valueдає p-значення 0,002785305

Я думаю, всі вони дуже близькі ...

У будь-якому випадку - просто сподіватися на здорову дискусію щодо того, які підходи використовувати в онлайн-тестуванні, де розміри вибірки зазвичай складаються в тисячах, а коефіцієнт відповіді часто 10% або менше. Моя кишка говорить мені використовувати чі-квадрат, але я хочу, щоб я міг точно відповісти, чому я вибираю його за іншими способами зробити це.

— L Xandor
джерело

Щодо

- і

-тестів, на ваше запитання вже відповіли тут: stats.stackexchange.com/questions/85804/…

z

$z$

t

$t$

— Tim

Я вважав цю демонстрацію досить корисною. З якого видно, що z тест на пропорції по суті еквівалентний тестуванню квадратних чи-гомогенності в таблиці 2-х випадкових ситуацій. rinterested.github.io/statistics/chi_square_same_as_z_test.html

— yueyanw

Відповіді:

Ми використовуємо ці тести з різних причин і за різних обставин.

-тест. -test передбачаєщо наші спостереження незалежно взяті з нормального розподілу з невідомим середнім івідомою дисперсією. -test використовуєтьсяосновномуколи ми маємо кількісні дані. (тобто ваги гризунів, вік особин, систолічний артеріальний тиск тощо). Однак -тести можуть також використовуватися, коли цікавляться пропорціями. (тобто частка людей, які отримують сон не менше восьми годин тощо) $z$ $z$ $z$ $z$
-тест. -test передбачаєщо наші спостереження незалежно взяті з нормального розподілу з невідомим середнім іневідомої дисперсією. Зауважте, що за допомогою -test ми не знаємо дисперсії сукупності. Це набагато частіше, ніж знати дисперсію популяції, тому -test, як правило, є більш підходящим, ніж -test, але різниця між двома, якщо розміри вибірки будуть великими, практично буде мало. $t$ $t$ $t$ $t$ $z$

$z$ $t$

$z$ $t$ $z$
$p$ $p$ $p$

Я постійно обговорюю розміри вибірки - різні посилання дають вам різні показники щодо того, коли ваші зразки досить великі. Я просто знайшов би надійне джерело, поглянув на їх правило і застосував би їхнє правило, щоб знайти потрібний тест. Я б не "ходив по магазинах", так би мовити, поки не знайдеш правило, яке тобі "подобається".

$z$ $t$

Це має сенс? Сподіваюся, це допомагає!

— Метт Бремс
джерело

Дякуємо за детальну відповідь! Я детально перегляну це - я впевнений, що у мене буде кілька питань!

— L Xandor

Чи можете ви далі пояснити, як точний тест у квадраті та Фішера не вказує напрямок ефекту? Якщо всі тести на інфекційну статистику забезпечують рівень довіри до того, чи будуть складені два набори зразків з різних популяцій чи однієї і тієї ж сукупності, то, що це стосується математичної теорії, яка не дозволить вам сказати, що має місце різниця в середніх значеннях (група B має вищий бал)?

— Кріс Ф

Для наочності тест хі-квадрата та точний тест Фішера роблять те саме, але значення р обчислюється дещо інакше. (Це наближення під чі-квадратом і точний розрахунок під точним Фішером.) Я звернусь до чі-квадрата, і він узагальнить до Фішера. Тут питання - це передумова. "Якщо всі тести на інфекційну статистику забезпечують рівень довіри щодо того, чи беруться два зразки з ..." - це не те, що робить тест на квадрат чі. Нульова гіпотеза для тесту чи-квадрата полягає в тому, що немає асоціації та альтернативної гіпотези ...

— Метт Бремс

... полягає в тому, що між двома категоричними змінними існує деяка асоціація. Ви просто тестуєте наявність асоціації і не зазначаєте певний напрямок. (Існують деякі менш відомі статистичні дані, які DO визначають певні відносини, тому це можливо; однак це не те, що призначений для тесту чи-квадрата.) Щоб зробити висновок про те, що існує певна спрямованість відносин, заснована на p-значення, яке було обчислено за різним набором гіпотез, розроблених для перевірки на наявність асоціації, було б помилкою.

— Метт Бремс

Як приклад, розгляньте гіпотези

проти

і скажіть, що ви виконуєте

H_{0} : μ = 0

$H_0: \mu = 0$

H_{A} : μ \neq 0

$H_A: \mu \neq 0$

t

$t$

p

$p$

μ

$\mu$

μ

$\mu$

H_{0} : μ \leq 0

$H_0: \mu \leq 0$

H_{A} : μ > 0

$H_A: \mu > 0$

p

$p$

α = 0.05

$\alpha=0.05$

μ

$\mu$

-3

Для тривимірного тестування ви зазвичай використовуєте ANOVA, а не 3 окремі тести. Будь ласка, перевірте корекцію Bonferroni перед багаторазовим тестуванням. Скористайтеся цим https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceIDFchrome

— Харіні
джерело