Оцінка значущості відмінностей у розподілах


22

У мене є дві групи даних. Кожна з різним розподілом декількох змінних. Я намагаюся визначити, чи відрізняються розподіли цих двох груп статистично значущим чином. У мене є дані як в необробленому вигляді, так і поширюються, щоб легше було поводитися з дискретними категоріями з підрахунком частоти в кожній.

Які тести / процедури / методи я повинен використовувати, щоб визначити, чи значно відрізняються ці дві групи і як це зробити в SAS або R (або Orange)?


2
Вас цікавить, чи розподіли мають різну форму (наприклад, нормальна, пуассонова тощо) чи чи різні параметри (наприклад, середнє значення або sd нормального розподілу) або обидва?
Джеромі Англім

Питання, пов’язані з цим: stats.stackexchange.com/questions/9311/…
GaBorgulya

Відповіді:


15

Я вважаю, що це вимагає проведення двох зразків тесту Колмогорова – Смірнова тощо. Двопробний тест Колмогорова - Смірнова заснований на порівнянні відмінностей в емпіричних функціях розподілу (ECDF) двох зразків, тобто він чутливий як до розташування, так і до форми двох зразків. Він також узагальнює багатовимірну форму.

Цей тест знайдеться в різних формах у різних пакетах на R, тому, якщо ви в основному досвідчені, все, що вам потрібно зробити, це встановити один з них (наприклад, fBasics ), і запустити його на своїх вибіркових даних.


5
Для R ks.test у пакеті "stats" за замовчуванням можна провести тест KS без встановлення додаткових пакетів.
russellpierce

В SAS тест на KS доступний в proc npar1way. В R, крім ks.test(), є nortestпакет, який містить кілька інших тестів на коригування.
chl

8

Я збираюся задати німецьке питання консультанта. Чому ви хочете знати, чи відрізняються ці розподіли статистично значущими?

Це те, що дані, які ви використовуєте, є репрезентативними вибірками з популяцій чи процесів, і ви хочете оцінити докази того, що ці групи чи процеси відрізняються? Якщо так, то статистичний тест підійде саме вам. Але це здається мені дивним питанням.

Або вас цікавить, чи дійсно потрібно поводитись так, ніби ці популяції чи процеси різні, незалежно від істини? Тоді вам буде краще визначити функцію втрат, в ідеалі - ту, яка повертає значущі для вас одиниці, і передбачити очікувані втрати, коли ви (а) ставитеся до сукупності як до різних і (б) ставитесь до них як до однакових. Або ви можете вибрати якийсь квантил розподілу збитків, якщо хочете зайняти більш-менш консервативну позицію.


Твій тон трохи примхливий і поблажливий ... але ти маєш рацію, я думаю, що я насправді був після того, чи можу я розумно припустити, що два розподіли однакові.
Джей Стівенс

3
Вибачте, що вам не подобається мій тон. Якщо ви хочете знати, чи можете ви обгрунтовано припустити, що два розподіли однакові, то KS введе вас в оману, оскільки він перевіряє нульову гіпотезу, що два розподіли однакові.
Ендрю Робінсон

5

Можливо, вам буде цікаво застосувати відносні методи розподілу. Назвіть одну групу референтною групою, а іншу групу порівняння. Таким чином, як побудова діаграми ймовірності ймовірності, ви можете побудувати відносний CDF / PDF, що є співвідношенням щільності. Ця відносна щільність може використовуватися для висновку. Якщо розподіли однакові, ви очікуєте рівномірного відносного розподілу. Існують інструменти, графічні та статистичні, для вивчення та вивчення відхилень від одноманітності.

Хороший вихідний пункт, щоб отримати кращий сенс - Застосування методів відносної дистрибуції в R та пакет релідистів у Р. Для детальної інформації вам потрібно звернутися до книги « Методи відносного розподілу в соціальних науках » Handcock та Morris. Також є авторський документ , що висвітлює відповідні методи.


2

Однією мірою різниці між двома розподілами є критерії "максимальної середньої невідповідності", яка в основному вимірює різницю між емпіричними засобами зразків від двох розподілів у відтворювальному просторі ядра Гільберта (RKHS). Дивіться цю статтю "Метод ядра для двох зразкових задач" .


Цей метод є найбільш надійним, на мою думку, але недостатньо відомим, оскільки він працює однаково добре, якщо у вас є обмежений зразок для вашої дистрибуції (і, отже, ваші вибіркові розподіли не є цілком безперервними). Він також працює з мультиноміальними розподілами, які, наскільки мені відомо, для тесту на KS досі є активним дослідженням
www3

-1

Я не знаю, як використовувати SAS / R / Orange, але це здається, що тест, який вам потрібен, - це тест-квадрат .


Я думав, що Chi-Sq в основному стосується категоричних даних (таблиць на випадок надзвичайних ситуацій) проти безперервних?
Джей Стівенс

1
Гммм, мені справді подобається відповідь тесту KS краще, ніж моя!
Суреш Венкатасубраманян

1
Ні, це не правильно.
SmallChess
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.