Статистичний тест для таблиць на випадок надзвичайних ситуацій nxm


12

У мене є набір даних, що складається з елементів із трьох груп, назвемо їх G1, G2 та G3. Я проаналізував певні характеристики цих елементів і розділив їх на 3 типи "поведінки" T1, T2 і T3 (для цього я використовував кластерний аналіз).

Отже, зараз у мене є така таблиця на випадок 3 х 3 на кшталт цієї кількості з кількістю елементів у трьох групах, поділених за типом:

      |    T1   |    T2   |    T3   |
------+---------+---------+---------+---
  G1  |   18    |   15    |   65    | 
------+---------+---------+---------+---
  G2  |   20    |   10    |   70    |
------+---------+---------+---------+---
  G3  |   15    |   55    |   30    |

Тепер я можу запустити тест Фішера на цих даних в R

data <- matrix(c(18, 20, 15, 15, 10, 55, 65, 70, 30), nrow=3)
fisher.test(data)

і я отримую

   Fisher's Exact Test for Count Data

data:  data 
p-value = 9.028e-13
alternative hypothesis: two.sided     

Отже, мої запитання:

  • чи правильно використовувати тест Фішера таким чином?

  • як я можу знати, хто відрізняється від кого? Чи можу я скористатись спеціальним тестом? Дивлячись на даних , я б сказав , що 3 - ї група має різну поведінку від перших двох, як я показую , що статистично?

  • хтось вказував мені, щоб розглянути моделі: чи є вони життєздатним варіантом для такого типу аналізу?

  • будь-який інший варіант аналізу цього типу даних?

Дуже дякую

ніко

Відповіді:


13

Спочатку я думаю, що тест Фішера використовується правильно.

Дані підрахунку краще обробляти за допомогою лінійних лінійних моделей (не logit, щоб переконатися, що встановлені значення обмежуються нижче). У R ви можете вказати family=poisson(що встановлює помилки = Пуассон і посилання = журнал). Посилання журналу гарантує, що всі встановлені значення є позитивними, тоді як помилки Пуассона враховують той факт, що дані є цілими і мають відхилення, рівні їх значенню. наприклад, glm(y~x,poisson)і модель оснащена посиланням на журнал та помилками Пуассона (для врахування ненормативності).

У випадках, коли є наддисперсія (залишкове відхилення має дорівнювати залишковим ступеням свободи, якщо припущення про помилки Пуассона є доцільним), замість того, щоб використовувати quasipoissonяк сімейство помилок, ви могли помістити негативну біноміальну модель. (Це включає функцію glm.nbз пакета MASS)

У вашому випадку ви можете помістити та порівняти моделі, використовуючи такі команди:

observed <- as.vector(data)
Ts<-factor(rep(c("T1","T2","T3"),each=3))
Gs<-factor(rep(c("G1","G2","G3"),3))

model1<-glm(observed~Ts*Gs,poisson)

#or and a model without the interaction terms
model2<-glm(observed~Ts+Gs,poisson)


#you can compare the two models using anova with a chi-squared test
anova(model1,model2,test="Chi")
summary(model1)

Завжди переконайтеся, що ваша мінімальна модель містить усі змінні неприємності.

Щодо того, як ми знаємо, хто відрізняється від кого, є деякі сюжети, які можуть вам допомогти. Функція R assocplotстворює графік асоціації, що вказує на відхилення від незалежності рядків і стовпців у двовимірній таблиці непередбачених ситуацій.

Ось такі самі дані, як і мозаїчний сюжет

mosaicplot(data, shade = TRUE)

Дякую, саме це мені було потрібно. Я не зовсім впевнений у тому, що ви маєте на увазі, коли ви говорите про наддисперсію (вибачте, я не статистик, можливо, це щось дуже базове) ... Ви говорите, що залишкове відхилення має бути рівним залишковим ступеням свободи ... як би я це перевірив?
nico

Якщо ви дасте, summary(model1)ви побачите щось на кшталтResidual deviance: -2.7768e-28 on 0 degrees of freedom
Джордж Донтас

4

Ви можете використовувати мультином з пакету nnet для мультиноміальної регресії. Після спеціальних тестів ви можете використовувати лінійну гіпотезу з автомобільного пакета. Ви можете провести тест незалежності з допомогою linearHypothesis (тест Wald) або ANOVA (тест LR).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.