Перевірка гіпотези на рівність пропорцій з 3-ма зразками


9

У мене є набір даних даних про клієнтів мобільного телефону з двома стовпцями. Перший стовпець містить певну категорію, до якої потрапляє обліковий запис (або А, В, або С), а другий стовпець містить двійкове значення за тим, чи скасовано цей рахунок. напр

A | cancelled
C | active
B | active
A | cancelled

що я хочу зробити - це створити тест гіпотези, щоб перевірити, чи співвідношення рахунків типу A, B і C відрізняється між активними рахунками та скасованими рахунками - нульовою гіпотезою є те, що вони однакові. Тож це як тест гіпотези щодо пропорцій, за винятком того, що я не знаю, як це зробити для 3 значень


6
Ви можете використовувати χ2тест для перевірки рівності пропорцій трьох груп.

Я також думаю, що я міг би зробити три тести на гіпотезу: A проти B, B проти C та A проти C, щоб побачити, чи відрізняються вони
користувач1893354

5
Ви можете, але майте на увазі, що тоді вам доведеться виправляти проблеми із численними порівняннями.

Спасибі за вашу відповідь. Мені просто цікаво, що ви маєте на увазі під проблемами численних порівнянь? Або, точніше, чому метод тестування трьох гіпотез є невигідним. Дякую!
користувач1893354

3
У вас є дві проблеми з використанням трьох тестів на гіпотезу. По-перше, вони взаємозалежні, оскільки кожна пара повторно використовує деякі дані. По-друге, якби вони були насправді незалежними, то шанс, що принаймні один із них був би значущим навіть тоді, коли нуль справжній - тобто шанс помилкової позитивної помилки - був би майже втричі більшим, ніж бажаний хибний позитивна ставка. Друга проблема вказує на тест потрібно коригувати, але перша показує, що знайти відповідне коригування може бути проблематично. Theχ2підхід дозволяє уникнути цих проблем.
whuber

Відповіді:


13

Я взагалі буду базувати свою відповідь і вставляти коментарі щодо того, як ваша проблема вписується в рамки тестування. Загалом ми можемо перевірити рівність пропорцій, використовуючи aχ2 тест, де типова нульова гіпотеза, H0, є наступним:

H0:p1=p2=...=pk

тобто всі пропорції рівні одна одній. Тепер у вашому випадку нульовою гіпотезою є наступне:

H0:p1=p2=p3
і альтернативна гіпотеза є
HA: at leat one pi is different for i=1,2,3

Тепер для того, щоб виконати χ2 тесту нам потрібно обчислити таку статистику тесту: Значення тестової статистики є

χ2=i=1n(OiEi)2Ei

де

  • χ2 = Кумулятивна статистика Пірсона, яка асимптотично наближається до a χ2 розповсюдження
  • Oi = спостережувана частота
  • Ei = очікувана (теоретична) частота, що стверджується нульовою гіпотезою
  • n = кількість комірок у таблиці

У вашому випадку n=6 оскільки ми можемо вважати цю проблему такою таблицею: введіть тут опис зображення

Тепер, коли ми маємо статистику тесту, у нас є два варіанти, як продовжити тестування гіпотез.

Варіант 1) Ми можемо порівняти нашу тестову статикуχ2до відповідного критичного значення під нульовою гіпотезою. Тобто, якщоH0 правда, то а χ2 статистичні дані з таблиці непередбачених ситуацій з R рядки та C стовпці повинні мати χ2 розповсюдження с (R1)×(C1)ступенів свободи. Після розрахунку нашого критичного значенняχ якщо ми маємо це χ2>χтоді ми відкинемо нульову гіпотезу. Очевидно, що якщоχ2χ то ми не можемо відкинути нульову гіпотезу.

Графічно (всі числа складаються) це наступне: введіть тут опис зображення

З графіка, якщо наша тестова статистика χ2 відповідають синій статистиці тесту, тоді ми не зможемо відкинути нульову гіпотезу, оскільки ця тестова статистика не потрапляє у критичну область (тобто, χ2<χ). Крім того, статистика зеленого тесту потрапляє у критичну область, і тому ми би відкинули нульову гіпотезу, якби обчислили статистику зеленого тесту.

У вашому прикладі ваші ступені свободи рівні

df=(R1)×(C1)=(21)×(31)=1×2=2

Варіант 2) ми можемо обчислити значення р, пов'язане з тестовою статистикою під нульовою гіпотезою, і якщо це значення p менше, ніж деяке вказанеα-рівень, тоді ми можемо відкинути нульову гіпотезу. Якщо р-значення більше, ніжα-рівень, тоді ми не можемо відкинути нульову гіпотезу. Зауважте, що значення р - це ймовірність того, що aχ(R1)×(C1)2 розподіл більше, ніж тестова статистика.

Графічно ми це маємо введіть тут опис зображення

де р-значення обчислюється як площа, яка більша, ніж наша тестова статистика (синя затінена область у прикладі).

Отже, якщо α>p-value то не вдасться відкинути нульову гіпотезу H0, інше,

якщо αp-value відкинути нульову гіпотезу H0

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.