Чи потрібні всі терміни взаємодії в індивідуальній регресійній моделі?


68

Я фактично переглядаю рукопис, де автори порівнюють 5-6 моделей регресії логіту з AIC. Однак деякі моделі мають умови взаємодії, не включаючи окремі коваріатні терміни. Чи має сенс це робити?

Наприклад (не характерно для моделей logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

У мене завжди було враження, що якщо у вас є термін взаємодії X1 * X2, вам також знадобиться X1 + X2. Отже, моделі 1 і 2 були б чудовими, але моделі 3-5 були б проблематичними (навіть якщо AIC нижче). Це правильно? Це правило чи більше керівництво? Хтось має хорошу довідку, яка пояснює мотиви цього? Я просто хочу переконатися, що я не оскаржую нічого важливого в огляді.

Дякую за будь-які думки, Ден


8
+1, я думаю, що це дійсно гарне питання. Ви також можете перевірити це раніше питання, яке охоплює більшу частину тієї самої території. Відповіді також справді відмінні.
gung

Уже багато хороших відповідей. Був документ Ріндскопфа про деякі випадки, коли вам не потрібні основні ефекти. (Також дивіться цю )
Пітер Флом

3
АФАІК: в R's lm () :- для взаємодій, як і в A: B. І *це стосується як основних ефектів, так і взаємодій, тому A * B = A + B + A: B. Тож якщо (!) Автори статті дотримуються цього позначення, я не думаю, що жодна з моделей не пропускає електронні ефекти?
Жубарб

Крім того, така ж логіка, що і в поточних відповідях, застосовується до взаємодій вищого порядку (наприклад, вам потрібні всі двосторонні взаємодії, якщо ви включаєте 3-х
напрямків

Відповіді:


38

Здебільшого це погана ідея - головна причина полягає в тому, що вона більше не робить модель інваріантною до зрушень місцеположення. Наприклад, припустимо, що у вас є один результат та два предиктори та та вкажіть модель:yixizi

yi=β0+β1xizi+ε

Якщо ви мали б центр їх передбачувачів, стаєxizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Отже, ви бачите, що основні ефекти були введені в модель.

Я наводив тут евристичний аргумент, але це є практичним питанням. Як зазначається у Faraway (2005) на стор. 114, додаткова зміна масштабу змінює висновок моделі, коли основні ефекти залишаються поза моделлю, тоді як цього не відбувається, якщо включені умови нижчого порядку. Зазвичай небажано, щоб довільні речі, такі як зміна місцеположення, спричинили кардинальну зміну статистичного висновку (і, отже, висновків вашого запиту), як це може статися, коли ви включаєте поліномічні терміни або взаємодії в модель без ефектів нижчого порядку.

Примітка: Там може бути особливими обставинами , при яких ви тільки хочете , щоб включити взаємодію, якщо має деяке конкретне предметне значення або якщо ви тільки спостерігати за продукт , а не окремі змінні . Але в цьому випадку можна також подумати про предиктор і продовжити модельxizixi,ziai=xizi

yi=α0+α1ai+εi

а не мислити як термін взаємодії.ai


additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelАдитивна зміна предикторів, як правило, змінює т їх основних наслідків (терміни нижчого порядку) навіть у повній моделі. Це загальне пристосування (R ^ 2), яке зберігається (але не зберігається при додатковій зміні моделі з відхиленими основними ефектами). Це те, що ти хотів сказати?
ttnphns

Так, це правильно @ttnphns - дякую, що вказав на це - я трохи змінив свою відповідь, щоб це відобразити.
Макрос

28

На сьогодні всі відповіді пропускають дуже базовий момент: обрана вами функціональна форма повинна бути досить гнучкою, щоб охопити науково важливі функції. Моделі 2-5 накладають нульові коефіцієнти на деяких умовах без наукового обґрунтування. І навіть якщо науково обґрунтовано, модель 1 залишається привабливою, оскільки ви можете також перевірити нульові коефіцієнти, а не нав’язувати їх.

Ключовим є розуміння того, що означають обмеження. Типове застереження уникати моделей 3-5 полягає в тому, що в більшості застосувань їхні припущення є науково неправдоподібними. Модель 3 передбачає, що X2 впливає лише на схил dY / dX1, але не на рівень. Модель 4 передбачає, що X1 впливає лише на схил dY / dX2, але не на рівень. І модель 5 передбачає, що ні рівень X1, ні X2 не впливають на рівень, а лише dY / dX1 або dY / dX2. У більшості застосувань ці припущення не здаються розумними. Модель 2 також накладає нульовий коефіцієнт, але все ж має певні достоїнства. Це дає найкраще лінійне наближення до даних, що у багатьох випадках задовольняє наукову мету.


5
(+1) Це все правда, але оригінальний плакат, схоже, описує ситуацію, коли автори намагалися зробити вибір моделі, а деякі з їхніх кандидатських моделей були такими, які не включали взаємодії - тому їх мотивацію керував AIC а не чимось суттєвим (що завжди небезпечно робити, але, мабуть, вони це зробили). Коли ви керуєтесь чимось суттєвим, то структура моделі повинна диктуватися цим. Але, коли ви керуєтесь статистичними критеріями, викидання основних наслідків може мати погані властивості, як я вказав у своїй відповіді.
Макрос

16

+1 до @Macro Дозвольте мені вияснити, що, на мою думку, є подібним моментом, який стосується, коли у вас є категоричні прогнози. Багато що може залежати від того, як вони кодуються . Наприклад, в кодуванні опорної комірки (він же "фіктивний") використовується 0 і 1, тоді як для кодування ефектів використовується -1, 0 і 1. Розглянемо простий випадок з двома факторами з двома рівнями кожен, а потімx1x2може бути [0, 0, 0, 1] або [1, -1, -1, 1], залежно від використовуваної схеми кодування. Я вважаю, що можлива ситуація, коли лише одна взаємодія є «істотною» з однією схемою кодування, але всі терміни є «значущими», використовуючи іншу схему. Це означає, що осмислені інтерпретаційні рішення приймаються на основі довільного кодування рішення, яке, власне, ваше програмне забезпечення, можливо, прийняло для вас без вашого відома. Я усвідомлюю, що це невеликий момент, але це лише ще одна причина, що, як правило, не годиться зберігати лише взаємодію (і, звичайно, також не вибирати підмножину предикторів на основі p-значень, звичайно).


1
Перевірка значущості основних категорій не менш інваріантна. Група може суттєво відрізнятися від референтної групи під кодування лікування, але не від ефекту "великої середньої" при контрастному кодуванні.
ймовірність

10

Оглядаючи документ, ви можете запропонувати авторам обговорити питання ієрархії моделі та обґрунтувати їх відхід від неї.

Ось кілька посилань:

  1. Nelder JA. Вибір термінів у моделях поверхні відповіді - наскільки сильним є принцип слабкої спадковості? Американський статистик. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Доступно 10 червня 2010 року.

  2. Пейксото Дж. Л. Вибір ієрархічної змінної в моделях регресії поліном. Американський статистик. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Доступно 10 червня 2010 року.

  3. Пейксото Дж. Л. Властивість добре сформульованих поліноміальних регресійних моделей. Американський статистик. 1990; 44: 26–30. http://www.jstor.org/pss/2684952 . Доступно 10 червня 2010 року.

Зазвичай я дотримуюся ієрархії, але відхиляюся від неї в деяких ситуаціях. Наприклад, якщо ви випробовуєте зношеність шини та пробіг з декількома різними швидкостями, ваша модель може виглядати так:

глибина протектора = перехоплення + пробіг + пробіг * швидкість

але не було б фізичного сенсу включати головний ефект швидкості, оскільки шина не знає, яка буде швидкість при нульових милях.

(З іншого боку, ви все ще можете перевірити ефект на швидкість, тому що це може означати, що ефекти "входу" відрізняються з різною швидкістю. З іншого боку, ще кращим способом поводження з входом було б отримати дані в нульовому і дуже низькому пробігу, а потім перевірити на нелінійність. Зверніть увагу, що видалення терміна перехоплення може розглядатися як особливий випадок порушення ієрархії.)

Я також ще раз зазначу те, що хтось сказав вище, тому що це дуже важливо: Автори повинні переконатися, що вони знають, чи їхнє програмне забезпечення центрирує дані. Вищевказана модель шини стає фізично безглуздою, якщо програмне забезпечення замінює пробіг (пробіг - середній пробіг).

Такі ж речі є актуальними у дослідженнях фармацевтичної стабільності (згадуються дотично у "Моделях стабільності для послідовного зберігання", Еміль М. Фрідман та Сем К. Шум, AAPS PharmSciTech, т. 12, № 1, березень 2011 р., DOI: 10.1208 / s12249-010-9558-x).


1
дякую, це чудова відповідь і допоможе мені пояснити це людям, які не мають статистичної кмітливості.
djhocking

1
+1 Я хотів би, щоб можна було об'єднати відповіді на SO. Це з прийнятою вище відповіддю формує ідеальну відповідь.
Жубарб

9

У мене був справжній випадок, який це ілюструє. У даних одна із змінних представлена group0-контролем та 1-обробкою. Інший предиктор представлений time periodз 0 до лікування та 1 після лікування. Взаємодія була основним параметром, що цікавить вимірювання ефекту від лікування, різниця після лікування в групі лікування вище будь-якого ефекту часу, виміряного в контрольній групі. Основний ефект відgroupВиміряли різницю у 2 групах перед будь-яким лікуванням, так що це може бути легко 0 (у рандомізованому експерименті воно повинно бути 0, цього не було). Другий головний ефект вимірює різницю між періодами до та після того, як у контрольній групі, де лікування не було, тому це також має сенс, що воно може бути 0, а термін взаємодії не дорівнює нулю. Звичайно, це залежить від того, як кодувались речі і чи інше кодування змінило б значення та чи має взаємодія сенс без основних наслідків. Тож має сенс підходити до взаємодії без основних наслідків у конкретних випадках.


Отже, ви маєте на увазі, що все залежить від цілей дослідження АБО виходячи з ваших параметрів?
Бен

1
@Ben, це може залежати як від того, як ви параметризуєте свої змінні (у моєму прикладі перемикання 0/1 на 1/0 для будь-якої змінної змінило б інтерпретацію), а також на які питання ви намагаєтесь відповісти та на які припущення ви готові зробити .
Грег Сног

Дякуємо за Ваш відповідь. Я взаємодію двома способами і хочу взаємодіяти це з фіктивним роком. Я хочу лише оцінити 2008 рік (рік регулювання) за двома способами взаємодії. так це нормально використовувати X & Z - суцільні змінні, Z - регламентація. 2008 рік набрав 1 та 0 для інших років. тож це як, якщо я беру лише спостереження 2008 року без взаємодії. Я читав про принцип слабкої та сильної спадковості, але не зрозумів чітко
Y=B0+B1X+B2Z+B3XZ2008+yeardummies
Бен,

1
@Ben, Безумовно, можна підходити до вищезгаданої моделі, яка в основному говорить про те, що ви думаєте, що існує (або може бути) взаємодія в 2008 році, але не в інший рік. Якщо у вас є виправдання для цього, то я думаю, що модель чудово. Але досить незвичне припущення, що вам, мабуть, доведеться виправдати це будь-якій аудиторії.
Грег Сніг

велике спасибі, що було корисно. Чи нормально порівнювати вихід взаємодії з хоча є за весь період, а взаємодія лише на 2008 рікB 1 X
B1X
B1X
Ben

7

Я згоден з Петром. Я думаю, що правило - фольклор. Чому ми могли б уявити ситуацію, коли дві змінні впливали б на модель лише через взаємодію. Аналогія хімії полягає в тому, що дві хімічні речовини є абсолютно інертними самі по собі, але при змішуванні їх разом викликають вибух. Математичні / статистичні тонкощі, такі як інваріантність, не мають нічого спільного з реальною проблемою з реальними даними. Я просто думаю, що, коли є багато змінних, які слід врахувати, існує дуже багато тестування, якщо ви збираєтеся переглянути всі основні ефекти, а більшість, якщо не всі взаємодії першого порядку. Ми також майже ніколи не дивимось на взаємодії другого порядку навіть у невеликих експериментах із лише кількома змінними. Мислення полягає в тому, що чим вище порядок взаємодії, тим менше ймовірність того, що існує реальний ефект. Так що не дивіться на взаємодії першого чи другого порядку, якщо основного ефекту немає. Можливо, добре правило, але дотримуватися його релігійно, означає нехтувати винятками, і ваша проблема може бути винятком.


8
Re: "Математичні / статистичні тонкощі, такі як інваріантність, не мають нічого спільного з реальною проблемою з реальними даними" - це має відношення до реальної проблеми з реальними даними, коли ваш , а отже, і ваш статистичний висновок (а отже, і ваш " реальне життя "рішення про важливість предиктора) може залежати від чогось такого ж довільного, як і рішення про центрацію ваших прогнозів. p
Макрос

1
Я, мабуть, помилково сказала, що інваріантність не має актуальності в реальному світі. Я задумав, що деякі математичні результати можуть не бути доречними в певній практичній проблемі. Як приклад оцінки найменших квадратів - це максимальна ймовірність при нормальних припущеннях про помилки, а за теоремою Гаусса Маркова мінімальна дисперсія є неупередженою при слабших умовах, але я б не використовував її, коли в даних є інші люди. Таким же чином, чи слід виключати таку властивість, як інваріантність, включаючи взаємодію, коли має сенс медично сказати, що вона відбуватиметься без основних наслідків?
Майкл Черник

6

[намагається відповісти на частину оригінального запитання, яке, як видається, залишається незакритим у більшості відповідей: "чи варто довіряти АПК, як критерію вибору моделі?"]

AIC слід використовувати більше як настанову, ніж правило, яке слід сприймати як євангеліє.

Ефективність AIC (або BIC або будь-якого подібного «простого» критерію вибору моделі) сильно залежить від алгоритму навчання та проблеми.

Подумайте про це так: мета терміну складності (кількості факторів) у формулі AIC проста: уникнути вибору моделей, які надмірно відповідають. Але простота AIC дуже часто не вдається зафіксувати реальну складність самої проблеми. Ось чому існують інші практичні прийоми, що дозволяють уникнути перевиконання: наприклад, перехресне підтвердження або додавання терміна регуляризації.

Коли я використовую онлайн-SGD (стохастичний градієнтний спуск) для лінійної регресії на наборі даних з дуже великою кількістю входів, я вважаю, що AIC є жахливим прогнозувачем якості моделі, оскільки це надмірно штрафує складні моделі з великою кількістю термінів. Існує багато ситуацій з реального життя, коли кожен термін має крихітний ефект, але разом велика їх кількість дає вагомі статистичні дані про результат. Критерії вибору моделей AIC та BIC відхиляли б ці моделі та віддавали перевагу більш простим, хоча більш складні вони є вищими.

Зрештою, враховується помилка узагальнення (приблизно: поза характеристикою вибірки). AIC може дати вам натяк на якість моделі в деяких відносно простих ситуаціях. Просто будьте обережні і пам’ятайте, що реальне життя найчастіше складніше, ніж проста формула.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.