Як здійснити декілька пост-хо-хі-квадратних тестів на таблиці 2 X 3?


9

Мій набір даних складається із загальної смертності чи виживання організму на трьох типах ділянок, прибережних, середніх каналів та офшорних. Цифри в таблиці нижче представляють кількість сайтів.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Мені хотілося б дізнатися, чи кількість сайтів, де 100% смертність сталася, є значною, залежно від типу сайту. Якщо я проведу чи-квадрат 2 х 3, я отримую вагомий результат. Чи є післячасне попарне порівняння, яке я можу запустити, або я повинен фактично використовувати логістичну ANOVA або регресію з біноміальним розподілом? Дякую!

Відповіді:


7

Таблиця надзвичайних ситуацій повинна містити всі взаємовиключні категорії на обох осях. Прибережні / Midchannel / Offshore виглядають чудово, однак, якщо "менше 100% смертності" означає "100% виживання" в цій біологічній обстановці, вам може знадобитися побудувати таблиці, які враховують усі випадки, що спостерігаються, або пояснюють, чому ви обмежуєте свій аналіз вкрай кінці зразка.

Оскільки 100% виживання означає 0% смертності, ви можете мати таблицю зі стовпцями 100% = смертність / 100%> смертність> 0% / смертність = 0%. У цьому випадку ви більше не будете порівнювати відсотки, а порівнювати порядкові заходи смертності для трьох категорій типів сайтів. (А як щодо використання вихідних значень відсотків замість категорій?) Тут може бути доречна версія тесту Крускала-Уолліса, яка належним чином враховує зв'язки (можливо тест на перестановку).

Існують встановлені пост-спеціальні тести для тесту Крускала-Уолліса: 1 , 2, 3 . (Підхід щодо перекомпонування може допомогти вирішити зв'язки.)

Логістична регресія та біноміальна регресія можуть бути ще кращими, оскільки вони дають не лише значення p, але й корисні оцінки та довірчі інтервали розмірів ефектів. Однак для створення цих моделей знадобиться більше деталей щодо 100%> смертності> 0% сайтів.


4

Я припускаю, що "100% виживання" означає, що на ваших сайтах містився лише один організм. тому 30 означає 30 організмів загинули, а 31 означає 31 організм не зробили. Виходячи з цього, квадратик повинен бути нормальним, але він лише скаже, які гіпотези не підтримуються даними - він не скаже вам, чи є дві розумні гіпотези кращими чи ні. Я представляю аналіз ймовірності, який витягує цю інформацію - він узгоджується з тестом чи-квадрата, але він дає вам більше інформації, ніж тест-чи-квадрат, і кращий спосіб представити результати.

Модель - модель Бернулі для показника "смерті", ( позначає комірку таблиці , а позначає окрему одиницю в межах клітина).YijБiн(1,θij)i2×3j

На основі тесту чі-квадрата лежать два глобальні припущення:

  1. всередині даної комірки таблиці всі рівні, тобтоθijθij=θiк=θi
  2. статистично незалежні, враховуючи . Це означає, що параметри ймовірності говорять вам про - вся інша інформація не має значення, якщо ви знаєтеYijθiYijθi

Позначимо як суму (так ) і нехай буде розміром групи (так ). Тепер у нас є гіпотеза для перевірки:ХiYijХ1=30,Х2=10,Х3=1NiN1=61,N2=30,N3=11

НА:θ1=θ2,θ1=θ3,θ2=θ3

Але які альтернативи? Я б сказав, що інші можливі комбінації рівні або не рівні.

НБ1:θ1θ2,θ1θ3,θ2=θ3
НБ2:θ1θ2,θ1=θ3,θ2θ3
НБ3:θ1=θ2,θ1θ3,θ2θ3
НС:θ1θ2,θ1θ3,θ2θ3

Одна з цих гіпотез має бути істинною, враховуючи вищезазначені "глобальні" припущення. Але зауважте, що жодне з них не визначає конкретних значень для ставок - тому їх необхідно інтегрувати. Тепер, враховуючи, що відповідає дійсності, у нас є лише один параметр (тому що всі рівні), і рівномірний пріоритет є консервативним вибором, позначимо це та глобальні припущення . тому у нас є:НАЯ0

П(Х1,Х2,Х3|N1,N2,N3,НА,Я0)=01П(Х1,Х2,Х3,θ|N1,N2,N3,НА,Я0)гθ
=(N1Х1)(N2Х2)(N3Х3)01θХ1+Х2+Х3(1-θ)N1+N2+N3-Х1-Х2-Х3гθ
=(N1Х1)(N2Х2)(N3Х3)(N1+N2+N3+1)(N1+N2+N3Х1+Х2+Х3)

Який являє собою гіпергеометричний розподіл, поділений на постійну. Аналогічно для нас буде: НБ1

П(Х1,Х2,Х3|N1,N2,N3,НБ1,Я0)=01П(Х1,Х2,Х3,θ1θ2|N1,N2,N3,НБ1,Я0)гθ1гθ2
=(N2Х2)(N3Х3)(N1+1)(N2+N3+1)(N2+N3Х2+Х3)

Ви можете побачити схему для інших. Ми можемо обчислити шанси сказати , просто поділивши вказані вище вирази. Відповідь приблизно , що означає підтримку даних над приблизно в рази - досить слабкі докази на користь рівних показників. Інші ймовірності наведені нижче.НАvсНБ14НАНБ14

Нуpотгодесiсprобабiлiту(НА|D)0,018982265(НБ1|D)0,004790669(НБ2|D)0,051620022(НБ3|D)0,484155874(НС|D)0.440451171

Це демонструє вагомі докази проти рівних показників, але не є вагомими доказами на користь певної альтернативи. Схоже, є вагомі докази того, що ставка "офшорних" відрізняється від двох інших ставок, але непереконливі докази того, чи відрізняються "прибережні" та "середні канали". Це те, що тест чи-квадрата вам не скаже - він лише говорить вам, що гіпотеза - це "лайно", але не те, яку альтернативу можна поставити на її місцеА


1

Ось код для тестування квадратних чи, а також для створення різноманітної тестової статистики. Однак статистичні тести на об'єднання меж таблиці тут марні; відповідь очевидна. Ніхто не робить статистичний тест, щоб побачити, чи літо спекотніше, ніж зима.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

3
Читачеві (і ОП) було б цікаво, якби ви могли надати детальну інформацію про різні синтаксиси R (та основні тести), які ви дали, і особливо, як тест Крускала-Уолліса порівняно з лінійною лінійною моделлю.
chl

Це можна побачити, скопіювавши і вставивши код у консоль R.
Патрік Макканн

1
Звичайно. Відповіді надходять самі по собі, запускаючи код, звичайно.
chl

0

Я вважаю, що ви можете використовувати "одночасні довірчі інтервали" для проведення кількох порівнянь. Посиланням є Agresti et al. 2008 Одночасні довірчі інтервали для порівняння біноміальних параметрів. Біометрія 64 1270-1275.

Ви можете знайти відповідний код R на веб-сайті http://www.stat.ufl.edu/~aa/cda/software.html

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.