Хі-квадратний тест на рівність розподілів: скільки нулів він переносить?


10

Я порівнюю дві групи мутантів, кожна з яких може мати лише один з 21 різних фенотипів. Я хотів би побачити, чи розподіл цих результатів подібний між двома групами. Я знайшов онлайн-тест, який розраховує "тест-квадрат на рівність розподілів" і дає мені певні результати. Однак у мене в цій таблиці досить багато нулів, тож чи можу я взагалі використовувати хі-квадрат у цьому випадку?

Ось таблиця з двома групами та підрахунками конкретних фенотипів:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

Таблиця вийшла неправильно. Кожне непарне число - це підрахунок від групи 1, а кожне парне число - відповідне число з групи 2
Мембран

Я переформатував ваше запитання. Чи тепер таблиця правильна?
csgillespie

Відповіді:


8

Цілком реально в ці дні зробити «точний» тест Фішера на такому столі. Щойно я отримав p = 0,087 за допомогою Stata ( tabi 2 1 \ 2 3 \ .... , exact. Виконання займало 0,19 секунди).

EDIT після коментаря chl нижче (спробував додати як коментар, але не може форматувати):

Він працює в R 2.12.0 для мене, хоча мені довелося збільшити параметр 'робоча область' за його значення за замовчуванням 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Час виконання трохи швидше, ніж у Stata, але це сумнівна актуальність, враховуючи час, необхідний для опрацювання значення повідомлення про помилку, яке використовує «робочу область», щоб означати щось інше, ніж звичайне значення R, незважаючи на те, що fisher.test є частиною основного пакету "статистики" R.)


1
Цікаво, що тест Фішера розбився на R.
chl

Не можу подати більше, вибачте. Здається, я не збільшив wksp достатньо :)
chl

Чи не те, що "точний" тест Фішера насправді стосується дещо іншого питання: "... він використовується для вивчення значущості асоціації (непередбачуваності) між двома видами класифікації" (wiki-сторінка). У своєму випадку я прагнув підтвердити (або спростувати) гіпотезу про те, що розподіли фенотипів між двома групами є однаковими (рівними). Коли я виявив тест в Інтернеті (див. Першу публікацію) під назвою "Тест-квадрат на тест на рівність розподілів", я подумав, що це саме для моєї проблеми ...
Мембран

Крім того, якщо ви вважаєте, що згадана версія тесту Фішера є чудовою для порівняння двох розподілів, чи може вона також використовуватися для перевірки рівномірності розподілу (тобто сказати, що фенотипи в межах однієї групи розподілялися нерівномірно між кінцевою кількістю можливих фенотипів) ? Це можна зробити навіть в Excel, використовуючи функцію CHITEST, але що робити, якщо у мене є розподіл, подібний до наведеного вище, з великою кількістю фенотипів, що спостерігаються менше ніж у 5 разів?
Мембран

@Membran №1: Це дещо інше питання, як точні умови тестування Фішера для обох наборів граничних підсумків. Мені це здається чимось академічною статистичною нікчемністю, і я статистик в наукових колах. (BTW ви могли б уточнити, на яку вікі ви посилаєтесь?) @Membran # 2: Я б не назвав умовно точний тест "точним тестом Фішера" у випадку односторонньої таблиці, але такий тест повинен бути можливим. І я Я б подумав простіше для односторонніх таблиць, але наразі я не можу знайти програмне забезпечення, яке допоможе, і я не встигаю виконувати обчислення без цього.
onestop

5

Звичайні рекомендації полягають у тому, що очікувана кількість повинна перевищувати 5, але це може бути дещо полегшеним, як обговорюється в наступній статті:

Тести Кемпбелла, I, Chi-квадрата та Фішера-Ірвіна з двох-двох таблиць із невеликими рекомендаціями щодо вибірки , Статистика в медицині (2007) 26 (19): 3661–3675.

Дивіться також домашню сторінку Яна Кемпбелла .

pchisq.test(..., sim=TRUE)

У вашому випадку виявляється, що приблизно 80% очікуваних підрахунків нижче 5, а 40% нижче 1. Чи було б сенсом узагальнити деякі спостережувані фенотипи?


Дякую за пропозиції Логічно об'єднати фенотипи не представляється можливим, оскільки кожен з них є унікальною комбінацією трьох записаних параметрів. Оскільки кожен із цих параметрів може переходити "вгору", "вниз" або залишатися "незмінним" в результаті мутації, то може бути 3 ^ 3 = 27 різних фенотипів. У наведеному вище прикладі я видалив ті фенотипи, за які обидві групи набрали "0", тому їх було лише 21. Я бачу поширеність певних фенотипів, але я хотів би мати деякі статистичні докази того, що розподіл таких фенотипів у різних групах мутантів подібний (чи ні). Дякую!
Мембран

1
@Membran Агрегація не повинна бути значимою: ви можете комбінувати контейнери будь-яким способом. Тонка проблема, однак, полягає в тому, що агрегація пост-факто ставить під сумнів р-значення; агрегація повинна бути незалежною від даних.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.