Як перевірити ефект взаємодії за допомогою непараметричного тесту (наприклад, тесту на перестановку)?


10

У мене є дві категоріальні / номінальні змінні. Кожен з них може приймати лише два різних значення (так, у мене всього 4 комбінації).

Кожна комбінація значень поставляється з набором числових значень. Отже, у мене є 4 набори цифр. Щоб зробити це більш конкретним, скажімо, що я маю male / femaleі young / oldяк номінальні змінні, і я маю weightяк залежний числовий "вихід".

Я знаю, що перехід від maleдо femaleзміни змінює середню вагу, і ці зміни є статистично значущими. Отже, я можу порахувати genderкоефіцієнт. Те саме стосується ageзмінної. Я знаю, що перехід від " youngдо old" змінює середню вагу, і я можу підрахувати відповідний ageкоефіцієнт.

Тепер, що я дійсно хочу побачити, якщо дані доводять, що перехід від молодих жінок до стареньких чоловіків - це більше, ніж поєднання гендерних та вікових факторів. Іншими словами, я хочу знати, чи дані доводять, що є "двовимірні ефекти", або, іншими словами, вікові та гендерні ефекти не є незалежними. Наприклад, може статися, що старість для чоловіків збільшує вагу в 1,3 раза, а для жінок відповідний коефіцієнт - 1,1.

Звичайно, я можу обчислити два згадані фактори (віковий коефіцієнт для чоловіків та віковий коефіцієнт для жінок), і вони різні. Але я хочу порахувати статистичну значимість цієї різниці. Наскільки реальна ця різниця.

Я хотів би зробити непараметричний тест, якщо це можливо. Чи можна робити те, що я хочу зробити, змішуючи чотири набори, перемішуючи їх, повторно розбиваючи і обчислюючи щось.


2
Одна з труднощів поводження з взаємодією непараметрично полягає в тому, що монотонна трансформація відповіді може видалити взаємодію, яка була присутня, індукувати взаємодію там, де вона відсутня, або перевернути напрямок взаємодії. Це говорить про те, що, наприклад, підходи на основі рангів можуть не робити того, чого ви від них очікували.
Glen_b -Встановіть Моніку

З тестами перестановки на оригінальних змінних у вас немає такої проблеми, але виявляється, що немає точних тестів для взаємодії. Ви можете отримати кілька приблизних тестів.
Glen_b -Встановіть Моніку

Відповіді:


5

Існують непараметричні тести на взаємодію. Грубо кажучи, ви замінюєте спостережувані ваги за їхніми рядами і трактуєте отриманий набір даних як гетерокедастичний ANOVA. Погляньте, наприклад, на "Непараметричні методи у факторних конструкціях" Бруннера та Пурі (2001).

Однак вид непараметричної взаємодії, який вас цікавить, не може бути показаний у цій загальності. Ти сказав:

Іншими словами, я хочу знати, чи дані доводять, що є "двовимірні ефекти", або, іншими словами, вікові та гендерні ефекти не є незалежними. Наприклад, може статися, що старість для чоловіків збільшує вагу в 1,3 раза, а для жінок відповідний коефіцієнт - 1,1.

Останнє неможливо. Непараметричне взаємодія повинно спричинити зміну ознак, тобто дорослішання збільшує вагу самців, але зменшує вагу жінки. Така зміна знаку залишається, навіть якщо ви монотонно перетворюєте ваги. Але ви можете вибрати монотонне перетворення на даних, які відображають збільшення ваги на коефіцієнт 1.1 наближеним до 1,3. Звичайно, ви ніколи не покажете різницю як істотну, якщо вона може бути настільки близькою, як ви хочете.

Якщо ви дійсно зацікавлені в взаємодії без зміни знаків, вам слід дотримуватися звичайного параметричного аналізу. Там одноманітні перетворення, які "ковтають різницю", не допускаються. Звичайно, це знову-таки слід пам’ятати, моделюючи та інтерпретуючи свою статистику.


1

Якщо ви вважаєте, що наслідки віку та статі є більш ніж індивідуальними ефектами, ви можете розглянути модельКоефіцієнт фіксує розмір ефекту "2D" за віком та статтю. Ви можете перевірити t-статистику щоб отримати приблизне уявлення про те, чи яку ви спостерігаєте у вашій моделі, значно відрізняється від .weighti=αagei+βgenderi+γ(genderiagei).γγγγ=0

Ось дуже приблизний графічний приклад, який показує, що робить цей додатковий мультиплікативний термін .genderiagei

У модельній , ми по суті намагаємось прилаштувати прості гіперплани до данихresponse=x1+x2

введіть тут опис зображення

Ця модель лінійна в коваріатах, отже, лінійна форма, яку ви бачите на сюжеті вище.

З іншого боку, відповідь моделі є нелінійною у та а отже, передбачає деякий рівень кривизниresponse=x1+x2+x1x2x1x2

введіть тут опис зображення

Якщо не відхилити гіпотезу про те, що це як невдача відкинути, що в моделі є деяка кривизна цієї форми.γ=0

Що стосується непараметричного тесту, ви можете зробити щось відповідно до запропонованих нами методів, отримавши стандартні помилки завантаження для . Це означає, що ви кілька разів: 1) вибираєте свої дані із заміною, 2) перераховуєте лінійний режим, 3) отримуєте оцінкуγγ^γ^50±p%2p%γ


Як це може бути нелінійним, якщо x1 і x2 можуть приймати лише значення 0 або 1? Як гамма у вашому прикладі пояснить будь-яку форму кривизни?
5ayat

αR2:x1+x2+x1x2=i=12αixi

Додам, однак, що коли домен є двійковим (це як вершини 2D-куба), ви можете ставитися до цієї функції лінійно. Але функціональна форма суворо нелінійна.
Мустафа S Еїза

@MustafaMEisa, я ніколи не бачив терміна взаємодії в лінійній моделі, поясненої термінами "вершини 2D куба". Було б інформативно, якби ви могли детальніше розробитись.
5ayat

@ HorstGrünbusch, мені також цікаво прокоментувати цю відповідь, оскільки ви вже дали корисний коментар до моєї відповіді.
5ayat

1

wt=α+b1age+b2gender+b3agegender+ϵ

wtgender=b2+b3age

gender=0age=0gender=1age=1gender=0age=1gender=1age=0

wt=α+b1young.male+b2old.male+b3young.female+ϵ

old.femaleb1old.femaleyoung.maleαwtold.female

Наведені вище приклади є надто складним способом дійти до цього висновку (що ми насправді просто порівнюємо чотири групові засоби), але для того, щоб дізнатися про те, як працюють взаємодії, я вважаю, що це корисна вправа. У CV є інші дуже хороші повідомлення про взаємодію безперервної змінної з номінальною змінною або взаємодію двох безперервних змінних. Навіть незважаючи на те, що ваше питання було відредаговано для визначення непараметричних тестів, я думаю, що корисно продумати свою проблему з більш звичайного (тобто параметричного) підходу, оскільки більшість непараметричних підходів до тестування гіпотез мають ту ж логіку, але, як правило, з менше припущень щодо конкретних розподілів.

wt

old.menyoung.women

Відмовитися від "значущих" взаємодій

x1x2x1x2Але ще раз, якщо у нас є лише два коваріати, які можуть приймати лише значення 0 або 1, це означає, що ми, по суті, дивимось на чотири групові засоби.

Приклад роботи

Порівняємо результати моделі взаємодії з результатами тесту Данна. По-перше, давайте генеруємо деякі дані, де (а) чоловіки важать більше, ніж жінки; (б) молодші чоловіки мають меншу вагу, ніж старші чоловіки, і (в) немає різниці між молодшими та старшими жінками.

set.seed(405)
old.men<-rnorm(50,mean=80,sd=15)
young.men<-rnorm(50,mean=70,sd=15)
young.women<-rnorm(50,mean=60,sd=15)
old.women<-rnorm(50,mean=60,sd=15)
cat<-rep(1:4, c(50,50,50,50))
gender<-rep(1:2, c(100,100))
age<-c(rep(1,50),rep(2,100),rep(1,50))
wt<-c(old.men,young.men,young.women,old.women)
data<-data.frame(cbind(wt,cat,age,gender))
data$cat<-factor(data$cat,labels=c("old.men","young.men","young.women","old.women"))
data$age<-factor(data$age,labels=c("old","young"))
data$gender<-factor(data$gender,labels=c("male","female"))

wt

mod<-lm(wt~age*gender,data)
library(effects)
allEffects(mod)

 model: wt ~ age * gender

 age*gender effect
       gender
age         male   female
  old   80.61897 57.70635
  young 67.78351 56.01228

Потрібно обчислити стандартний інтервал помилок чи довіри для вашого граничного ефекту? Наведений вище пакет ефектів може зробити це для вас, але ще краще, Ейкен та Захід (1991) дають вам формули навіть для набагато складніших моделей взаємодії. Їх таблиці зручно друкувати тут , а також дуже хороший коментар Метта Голдера.

Тепер застосувати тест Данна.

#install.packages("dunn.test")
dunn.test(data$wt, data$cat, method="bh")

Kruskal-Wallis chi-squared = 65.9549, df = 3, p-value = 0


                           Comparison of x by group                            
                             (Benjamini-Hochberg)                              
Col Mean-|
Row Mean |    old.men   young.me   young.wo
---------+---------------------------------
young.me |   3.662802
         |    0.0002*
         |
young.wo |   7.185657   3.522855
         |    0.0000*    0.0003*
         |
old.wome |   6.705346   3.042544  -0.480310
         |    0.0000*    0.0014*     0.3155

Значення p за результатами тестування хі-квадрата Крускала-Уолліса говорить про те, що принаймні одна з наших груп "походить від іншої групи населення". Для групових порівнянь групою верхнє число є z-тестовою статистикою Данна, а нижнє число - р-значення, яке було скориговано для декількох порівнянь. Оскільки дані нашого прикладу були досить штучними, не дивно, що у нас так багато малих p-значень. Але зауважте порівняння внизу праворуч між молодшими та старшими жінками. Тест правильно підтримує нульову гіпотезу про відсутність різниці між цими двома групами.

ОНОВЛЕННЯ: З огляду на інші відповіді, ця відповідь була оновлена, щоб заперечити думку про те, що для цього потрібна будь-яка форма нелінійного моделювання, або що, з огляду на конкретний приклад ОП з двох бінарних коваріатів, тобто чотирьох груп, - що має бути зміна знаку оцінює це непараметрично. Якби вік був безперервним, наприклад, існували б інші способи наблизитись до цієї проблеми, але це був не той приклад, який дає ОП.


Ви не використовуєте структуру двох перекреслених факторів. Ви просто порівнюєте чотири групи. Тест Данна зовсім не про взаємодію.
Хорст Грюнбуш

Домовились, тест Данна не про взаємодію. Однак питання задає конкретно питання про взаємодію між двома бінарними змінними. Моя відповідь демонструє, наскільки це рівносильно порівнянню чотирьох груп. Якщо умови взаємодії є новими для ОП, сподіваємось, це корисна ілюстрація.
5ayat

1

Отже, у вас є ці випадкові змінні:

  • AN
  • S{male,female}
  • W]0,[

І у вас є ці функції ймовірності маси / щільності:

  • fWW
  • fW,AW,A
  • fW,SW,S
  • fW,A,SW,A,S

was

  • fW,A(w,a)fW(w)
  • fW,S(w,s)fW(w)

fW,A,S(w,a,s)fW,A(w,a)fW,S(w,s)

was

Однак ви не знаєте справжніх спільних PDF-файлів вище. Оскільки ви хочете обмежитися непараметричними методами, тепер ваше завдання - знайти ці непараметричні оцінки:

  • f^W,A(w,a)
  • f^W,S(w,s)
  • f^W,A,S(w,a,s)

А потім покажіть, що:

  • Ваші оцінки щільності досить точні.
  • f^W,A,S(w,a,s)f^W,A(w,a)f^W,S(w,s)
  • f^W,A,S(w,a,s)=f^W,A(w,a)=f^W,S(w,s)

0

Це буде перевірка на ефекти взаємодії . Лінійне моделювання могло б перевірити таке, але воно не є параметричним, тому, мабуть, слід використовувати інший інструмент.

Як ви перевіряєте свій ageта genderефект дотепер?

EDIT: Ця відповідь виглядає так, що допоможе вам

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.