Чи можна використовувати квадрат чи для порівняння пропорцій?


13

Я читав, що тест квадратних чі корисний, щоб дізнатись, чи суттєво відрізняється зразок від набору очікуваних значень.

Наприклад, ось таблиця результатів опитування улюблених кольорів людей (n = 15 + 13 + 10 + 17 = 55 загалом респондентів):

red,blue,green,yellow

15,13,10,17

Тест на квадрат чі може мені сказати, чи цей зразок суттєво відрізняється від нульової гіпотези про рівну ймовірність сподобання людям кожного кольору.

Питання: Чи можна проводити тест на пропорції загальної кількості респондентів, яким подобається певний колір? Як і нижче:

red,blue,green,yellow

0.273,0.236,0.182,0.309

Де, звичайно, 0,273 + 0,236 + 0,182 + 0,309 = 1.

Якщо в цьому випадку тест на квадрат чі не підходить, який би тест був? Спасибі!

Редагувати: Я спробував @Roman Luštrik відповідь нижче, і отримав наступний висновок, чому я не отримую значення p і чому R каже: "Наближення Chi-квадрата може бути невірним"?

> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))

    Chi-squared test for given probabilities

data:  c(0, 0, 0, 8, 6, 2, 0, 0) 
X-squared = NaN, df = 7, p-value = NA

Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395,  :
  Chi-squared approximation may be incorrect

1
У другому випадку ви припускаєте, що ви знаєте загальний розмір вибірки? Чи ні?
кардинал

@cardinal: так, я знаю загальний розмір вибірки.
hpy

3
потім просто помножте пропорції на загальний розмір вибірки, щоб перетворитись на таблицю підрахунків, і застосуйте chi-sq. метод, відповідний вашому першому прикладу.
Аарон

Я підозрюю, що ви запитуєте про тест "добро на придатність" (використовуючи квадрат ква). Використання яких було пояснено нижче. Ура, Тал
Тал Галілі

Відповіді:


7

Виправте мене, якщо я помиляюся, але я думаю, що це можна зробити в R за допомогою цієї команди

> chisq.test(c(15,13,10,17))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 1.9455, df = 3, p-value = 0.5838

Це передбачає пропорції 1/4 кожного. Ви можете змінювати очікувані значення за допомогою аргументу p. Наприклад, ви думаєте, що люди можуть віддавати перевагу (з будь-якої причини) одному кольорові іншому.

> chisq.test(c(15,13,10,17), p = c(0.5, 0.3, 0.1, 0.1))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 34.1515, df = 3, p-value = 1.841e-07

2
Я підозрюю, що ви бачите це через деякий низький вміст клітин (деякі книги, які я прочитав, пропонують мінімум 5 на клітинку). Може, хтось більш обізнаний з цього питання може заграти?
Роман Луштрик

1
Також зауважте, що ви можете отримати значення ap, якщо ви зробите останній з вашої ймовірності більше нуля (але попередження все ще залишається).
Роман Луштрик

1
На сторінці 504 Ott & Longnecker (вступ до статистичних методів та аналізу даних, 5-е видання) констатують, що для кожної комірки має бути не менше п'яти, щоб зручно використовувати наближення.
Роман Луштрик

1
@penyuan: Ви мусили згадати, що у вас є чимало нульових підрахунків. Роман має рацію, використання квадрата Chi в даному випадку просто не працює з причин, про які він згадував.
Joris Meys

1
@penyuan: я додав відповідь, даючи вам кілька варіантів.
Joris Meys

6

Використовуючи додаткову інформацію, яку ви надали (маючи на увазі, що деякі значення мають значення 0), цілком очевидно, чому ваше рішення нічого не повертає. Для одного ви маєте ймовірність 0, тож:

  • в розчині Генрі дорівнює 0 принаймні одному iei
  • у розв'язку ймовірностілогічного значення 0 принаймні для одного inpi

p=0

Подано:

X <- c(0,0,0,8,6,2,0,0)
p <- c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)

Ви можете зробити:

> p2 <- p + 1e-6
> chisq.test(X,p2)

        Pearson's Chi-squared test

data:  X and p2 
X-squared = 24, df = 21, p-value = 0.2931

Але це не правильний результат. У будь-якому випадку слід уникати використання тестування квадратних чі в цих прикордонних випадках. Кращим підходом є використання підходу до завантаження, обчислення адаптованої статистики тесту та порівняння типового зразка з розподілом, отриманим завантажувальним рядком.

У R-коді це може бути (крок за кроком):

# The function to calculate the adapted statistic.
# We add 0.5 to the expected value to avoid dividing by 0
Statistic <- function(o,e){
    e <- e+0.5
    sum(((o-e)^2)/e)
}

# Set up the bootstraps, based on the multinomial distribution
n <- 10000
bootstraps <- rmultinom(n,size=sum(X),p=p)

# calculate the expected values
expected <- p*sum(X)

# calculate the statistic for the sample and the bootstrap
ChisqSamp <- Statistic(X,expected)
ChisqDist <- apply(bootstraps,2,Statistic,expected)

# calculate the p-value
p.value <- sum(ChisqSamp < sort(ChisqDist))/n
p.value

Це дає p-значення 0, що набагато більше відповідає різниці між спостережуваним та очікуваним. Зауважте, цей метод передбачає, що ваші дані черпають з багаточленного розподілу. Якщо це припущення не відповідає, значення p також не містить.


1
pi=0iipi=0pi=1/6i61,,10

@cardinal: Я щойно описав дані, де очікуване значення дорівнює 0, але спостережуване не повинно бути. Це нам дала ОП (хоча, по-друге, це дійсно звучить досить нереально). Отже, додавання трохи до значення p, щоб зробити його малоймовірним замість неможливого, допоможе, але навіть тоді чи-квадрат у цьому випадку є недійсним через велику кількість комірок таблиці з числом менше 5 (як показано код). Я додав розгляд у своїй відповіді, thx для вказівника.
Joris Meys

pi=0

4

1E(xi)

ψ=ixilog(xinpi)

xiii{red, blue, green, yellow}n55pipi=pj

χ2=i(xinpi)2npi2ψ

fi=xin

ψ=nifilog(fipi)
χ2=ni(fipi)2pi

ψψpi1piψ

H1H2piψ1ψ2exp(ψ1ψ2)H2H1exp(12χ1212χ22)

H2ψ2=χ22=0

χ22npi<10ψ


1
Я впевнений, що очікувана частота не може перевищувати 10. :)
кардинал

@cardinal - радий, що це було вашим запереченням - бо це означає, що решта моєї відповіді повинна була бути хорошою :).
ймовірністьлогічний

Нічого собі, я сподіваюся, що я не отримую репутації за те, що я такий прискіпливий / бурхливий.
кардинал

1
ψ2ψχ2χ22ψ0χ22ψχ2
кардинал

χ22ψ

3

Так, ви можете перевірити нульову гіпотезу: "H0: опора (червона) = опора (синя) = опора (зелена) = опора (жовта) = 1/4", використовуючи квадратний тест чі, який порівнює пропорції опитування (0,273 , ...) до очікуваних пропорцій (1/4, 1/4, 1/4, 1/4)


Тільки для підтвердження, це також буде працювати з очікуваними пропорціями, які нерівні один одному?
hpy

4
тест не матиме сенсу, якщо ви не знаєте повний розмір вибірки. Пропорції 1,0 / 0,0 / 0,0 / 0,0 означають дуже різні речі, якщо вони є зразком розміром 1 на відміну від зразка розміром 100.
Аарон

Так, я знаю загальний розмір вибірки.
hpy

2

Статистика тесту для тесту чи-квадрата Пірсона є

i=1n(OiEi)2Ei

oi=Oinei=Einn=i=1nOii=1nei=1

ni=1n(oiei)2ei

тому тест значущості спостережуваних пропорцій залежить від розміру вибірки, наскільки можна було б очікувати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.