Тест на різницю між двома емпіричними дискретними розподілами


14

У мене є дані тесту, де у мене є кілька великих зразків з дискретних розподілів, які я використовую як емпіричні розподіли. Я хочу перевірити, чи є розподіли насправді різними, і чим різняться засоби у тих розподілах, які насправді різні.

Оскільки вони є дискретними розподілами, я розумію, що тест Колмогорова-Смірнова недійсний через основне припущення про безперервний розподіл. Чи був би тест Chi-Squared правильним тестом на те, чи розподіли насправді різні?

Який тест я використовував би для різниці в засобах? Чи кращим підходом може бути вибірка з розподілів та прийняття різниці, а потім проведення аналізу розподілу різниці?


χ2

Дякую за відгук. Чи є тест на те, для чого різниця в засобах, коли тест з квадратом підтверджує, що розподіли різні?
Wallhood

Чи кращим підходом буде вибірка з розподілів та взяття різниці, а потім проведення аналізу на різницю?
Wallhood

Відповіді:


13

1) Колмогоров-Смирнов все ще може бути використаний, але якщо використовувати табличні критичні значення, він буде консервативним (що є лише проблемою, оскільки воно штовхає вашу криву потужності). Краще отримати розподіл перестановки статистики, щоб рівень вашої значущості був таким, яким ви їх обираєте. Це матиме велике значення лише у тому випадку, якщо зв’язків буде багато. Цю зміну реально легко здійснити. (Але тест KS не є єдиним можливим таким порівнянням; якщо все-таки обчислюють перестановочні розподіли, існують інші можливості.)

2) корисність тестів на відповідність для дискретних даних ванільним чи квадратним рівнем, на мій погляд, є дуже поганою ідеєю. Якщо вищезгадана потенційна втрата потужності зупинила вас за допомогою тесту на KS, проблема з квадратом часто набагато гірша - він викидає найважливішу інформацію, яка є впорядкованістю серед категорій (значення спостереження), виснажуючи її потужність поширюючи його на альтернативи, які не враховують впорядкування, так що гірше виявляти плавні альтернативи - наприклад, зміщення місця розташування та масштабу, наприклад) Навіть при поганих наслідках важких зв'язків вище, тест KS у багатьох випадках все ж має кращу потужність (при цьому все ще знижує рівень помилок типу I).

Квадратура чі може також бути змінена, щоб врахувати впорядкованість (розділити чіскар на лінійні, квадратичні, кубічні тощо компоненти через ортогональні многочлени та використовувати лише декілька термінів низького порядку - 4 - 6 - це звичайний вибір). Документи Рейнера та Беста (та інших) обговорюють такий підхід, який виникає в результаті гладких тестів Неймана-Бартона. Це хороший підхід, але якщо у вас немає доступу до програмного забезпечення для нього, може знадобитися трохи налаштувати.

Будь-який модифікований підхід повинен бути добре, але якщо ви не збираєтесь змінювати будь-який підхід, це не обов'язково так, що квадратик буде кращим, ніж тест KS - в деяких ситуаціях це може бути краще ... або це може бути істотно гірше.

Якщо зв'язки не надто важкі (тобто дані мають багато різних значень), я б вважав KS таким, який є. Якщо вони помірні, я хотів би порахувати розподіл перестановки. Якщо вони дуже важкі (тобто дані приймають лише декілька різних значень), звичайний чі-квадрат може бути конкурентоспроможним.


Дякую за попередження Я
зважаю
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.