Включаючи взаємодію, але не основні ефекти в моделі


85

Чи колись дійсно включати в модель двосторонню взаємодію без включення основних ефектів? Що робити, якщо ваша гіпотеза стосується лише взаємодії, чи все-таки потрібно включати основні ефекти?


3
Моя філософія - це керування багатьма моделями, перевірка їх прогнозів, порівняння, пояснення, запуск більшої кількості моделей.
Михайло Єпископ

11
Якщо взаємодія є важливою лише тоді, коли основні ефекти є в моделі, можливо, основні ефекти суттєві, а взаємодії - ні. Розглянемо один надзвичайно суттєвий головний ефект з відхиленням на порядок 100 та інший незначний головний ефект, для якого всі значення приблизно однакові з дуже низькою дисперсією. Їх взаємодія не є суттєвою, але ефект взаємодії виявиться значним, якщо основні ефекти будуть зняті з моделі.
Томас Левін

4
@Thomas повинен у вашому першому рядку читати "якщо взаємодія значущі лише тоді, коли основні ефекти НЕ в моделі, ..."?
Глен

2
О так, так!
Томас Левін

Відповіді:


55

На мій досвід, не тільки необхідно мати всі ефекти нижчого порядку в моделі, коли вони підключені до ефектів вищого порядку, але також важливо правильно моделювати (наприклад, дозволяючи бути нелінійними) основні ефекти, які, здавалося б, не пов'язані з фактори взаємодії, що цікавлять. Це тому, що взаємодія між та може бути стійкою для основних ефектів та . Взаємодії іноді здаються необхідними, оскільки вони є колінеарними з опущеними змінними або опущеними нелінійними (наприклад, сплайном) термінами.x 2 x 3 x 4x1x2x3x4


1
Це означає, що нам слід почати видаляти умови з y ~ x1 * x2 * x3 * x4, починаючи видалення термінів найвищого порядку, тобто звичайний метод видалення, правда?
Цікаво

9
Видалення термінів не рекомендується, якщо ви не можете протестувати цілі класи термінів як "шматок". Наприклад, може бути доцільним зберегти або видалити всі умови взаємодії, або зберегти або видалити всі взаємодії, що належать 3-му чи четвертому порядку.
Френк Харрелл

Що не в тому, щоб видалити лише деякі взаємодії під певний порядок?
користувач1205901

3
Якщо у вас є повністю заздалегідь заданий порядок, який не визначався при перегляді даних, можливо, вам це буде в порядку. Загалом у вас виникнуть проблеми з лінійністю та кратністю при прийнятті декількох рішень з використанням декількох P-значень.
Френк Харрелл

2
Я вважаю, що ця відповідь є незрозумілою, і лише частково відповідає на питання. Дійсно, у цій відповіді зазначено, що потрібно моделювати головний ефект, але не відповідає, чи справедливо регресувати його, щоб зосередитись лише на взаємодії, якою вона є і використовується в деяких моделях, таких як gPPI (див. Мою відповідь нижче).
Габоровий

37

Ви запитуєте, чи дійсно це колись. Дозвольте навести загальний приклад, роз'яснення якого може запропонувати вам додаткові аналітичні підходи.

Найпростішим прикладом взаємодії є модель з однією залежною змінною та двома незалежними змінними , у виглядіX YZXY

Z=α+βX+γY+δXY+ε,

з випадкова змінна величина, що має нульове очікування, і використовує параметри і . Часто варто перевірити, чи наближає , оскільки алгебраїчно еквівалентний вираз тієї ж моделі єα , β , γ , δ δ β γ εα,β,γ,δδβγ

Z=α(1+βX+γY+δXY)+ε

=α(1+βX)(1+γY)+α(δβγ)XY+ε

(де тощо).β=αβ

Отже, якщо є причина припустити, що , ми можемо поглинути це в терміні помилки . Це не тільки дає "чисту взаємодію", але й без постійного терміну. Це, в свою чергу, настійно пропонує приймати логарифми. Деяка гетероседастичність у залишках - тобто тенденція до того, що залишки, пов'язані з більшими значеннями будуть більшими за абсолютне значення, ніж середні, - також вказували б у цьому напрямку. Тоді ми б хотіли вивчити альтернативну рецептуруε Z(δβγ)0εZ

log(Z)=log(α)+log(1+βX)+log(1+γY)+τ

з iid випадковою помилкою . Крім того, якщо ми очікуємо, що та будуть великими порівняно з , ми б просто запропонували модельβ X γ Y 1τβXγY1

log(Z)=(log(α)+log(β)+log(γ))+log(X)+log(Y)+τ

=η+log(X)+log(Y)+τ.

Ця нова модель має лише один параметр замість чотирьох параметрів ( , і т. Д.), За умови квадратичного відношення ( ), що значно спроститься.α β δ = β γ ηαβδ=βγ

Я не кажу, що це необхідний або навіть єдиний крок, який потрібно зробити, але я припускаю, що подібне алгебраїчне перестановку моделі, як правило, варто враховувати, коли взаємодія сама по собі виявляється істотною.

Деякі чудові способи дослідження моделей взаємодії, особливо лише з двома та трьома незалежними змінними, містяться у розділах 10–13 ЕДА Тукі .


Чи можете ви навести приклад того, коли ви зможете припустити, що наблизиться до нуля? Мені важко думати про ці терміни стосовно початкових термінів і що вони означатимуть. δβγ
djhocking

@djhocking Будь-яка ситуація, в якій альтернативна рецептура є хорошою моделлю, обов'язково передбачає у першій моделі. Особливим випадком є ​​кінцева модель, яка являє собою просту лінійну залежність між та журналами і , що дорівнює мультиплікативному відношенню у вихідній шкалі. Такі відносини рясніють в природі - це просто говорить безпосередньо і окремо пропорційна як і . log ( Z ) X Y Z X Y Z X Yα(δβγ)0log(Z)XYZXYZXY
whuber

30

Хоча в підручниках часто зазначається, що ніколи не слід включати взаємодію в модель без відповідних основних ефектів, але, безумовно, є приклади, коли це мало б ідеальний сенс. Наведу найпростіший приклад, який я можу собі уявити.

Припустимо, що суб'єкти, випадково віднесені до двох груп, вимірюються двічі, один раз на початковій лінії (тобто відразу після рандомізації) та один раз після того, як група Т отримала певну терапію, тоді як група C не проводила цього. Тоді модель повторних заходів для цих даних буде включати основний ефект для випадку вимірювання (фіктивна змінна, яка дорівнює 0 для базової лінії та 1 для подальшого спостереження) та термін взаємодії між манекеном групи (0 для C, 1 для T ) і манекен часу.

Потім модель перехоплення оцінює середній бал випробуваних за базовою лінією (незалежно від групи, в якій вони перебувають). Коефіцієнт для фіктивного періоду вимірювання вказує на зміну контрольної групи між базовою лінією та подальшою діяльністю. А коефіцієнт терміну взаємодії вказує, наскільки більша / менша зміна була в групі лікування порівняно з контрольною групою.

Тут не потрібно включати основний ефект для групи, оскільки на початковому рівні групи є еквівалентними за визначенням через рандомізацію.

Можна, звичайно, стверджувати, що основний ефект для групи все ж повинен бути включений, так що, у разі випадкової рандомізації, це виявиться за допомогою аналізу. Однак це еквівалентно тестуванню засобів базової лінії двох груп один проти одного. І є багато людей, які нахмурилися, перевіряючи на базові відмінності у рандомізованих дослідженнях (звичайно, також є багато тих, хто вважає це корисним, але це інше питання).


4
Проблеми виникають, коли вимірювання часу нульового (базового рівня) використовується в якості першої змінної відповіді. Базова лінія часто використовується як вхідний критерій для дослідження. Наприклад, дослідження може зарахувати пацієнтів із систолічним артеріальним тиском (bp)> 140, а потім рандомізувати до 2 bp лікування та слідувати BPS. Спочатку bp має усічений розподіл і пізніші вимірювання будуть більш симетричними. Безладним є моделювання 2 розподільних фігур в одній моделі. Є ще багато причин трактувати базову лінію як базову лінію коваріату.
Френк Харрелл

3
Це хороший момент, але останні дослідження показують, що це не проблема. Насправді, здається, що використання базових показників як коваріату є більше недоліків. Див .: Лю, GF та ін. (2009). Чи повинен базовий рівень бути коваріатною або залежною змінною в аналізах зміни від базової лінії в клінічних дослідженнях? Статистика в медицині, 28, 2509-2530.
Вольфганг

3
Я прочитав цей папір. Це не переконливо, і Лю не вивчав різних видів клінічних випробувальних ситуацій, які я описав. Більше аргументів наведено на сайті biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdf у розділі про аналіз послідовних (поздовжніх) даних.
Френк Харрелл

1
Дякуємо за посилання Я припускаю, що ви маєте на увазі обговорення під 8.2.3. Це цікаві моменти, але я не думаю, що це дає однозначну відповідь. Я впевнений, що стаття Liu et al. також не є остаточною відповіддю, але це, наприклад, дозволяє припустити, що ненормальність базових значень не є вирішальним питанням. Можливо, це щось для окремого дискусійного питання, оскільки це безпосередньо не стосується питання ОП.
Вольфганг

2
Так, це залежить від кількості ненормативності. Чому залежать від удачі при формулюванні моделі? Існує також чимало суто філософських причин трактувати вимірювання нуля часу як вимірювання базового рівня (див. Цитати Сенна та Рошона в моїх записках).
Френк Харрелл

19

Причиною збереження основних ефектів у моделі є ідентифікація. Отже, якщо метою є статистичний висновок про кожен із ефектів, вам слід зберегти основні ефекти в моделі. Однак якщо ваша мета моделювання полягає лише в тому, щоб передбачити нові значення, то цілком законно включати лише взаємодію, якщо це покращує точність прогнозування.


5
Чи можете ви, будь ласка, бути більш чіткими щодо проблеми ідентифікації?
окрам

6
Я не вірю, що модель, що опускає основні ефекти, обов'язково не визначена. Можливо, ви маєте на увазі "інтерпретабельність", а не "ідентифікованість" (це технічний термін із точним визначенням)
JMS

6
@JMS: Так, це вбиває інтерпретаційність. Однак термін "ідентифікація" вживається статистиками та соціологами по-різному. Я мав на увазі останнє, де (слабко кажучи) ви хочете ототожнити кожен статистичний параметр з певною конструкцією. Відкинувши основний ефект, ви більше не можете зіставити конструкцію з параметром.
Галіт Шмуелі

13

це чітко підкреслено у багатьох відповідях, які дали інші, але простий момент полягає в тому, що моделі з терміном продукту, але без ж / б без модератора та прогноктора - це просто різні моделі. З’ясуйте, що означає кожен з даних процесу, який ви моделюєте, і чи є модель без модератора та прогнозованого сенсу більше, якщо врахувати вашу теорію чи гіпотезу. Спостереження про те, що термін продукту є значущим, але лише тоді, коли модератор та передбачувач не включені, нічого не говорить вам (крім, можливо, що ви ловите рибу для "значущості") без пояснення, чому є сенс залишати їх поза .


Я прийшов сюди, щоб дослідити тлумачення основних ефектів за наявності значущого терміна взаємодії, і ця відповідь справді дуже допомогла. Дякую!
Патрік Вільямс

9

Можливо, це залежить від того, для чого ви використовуєте свою модель. Але я ніколи не бачив причин не запускати та описувати моделі з основними ефектами, навіть у випадках, коли гіпотеза стосується лише взаємодії.


Що робити, якщо взаємодія є суттєвою лише тоді, коли основні ефекти відсутні в моделі?
Глен

3
@Glen - Є багато про що можна подумати, крім статистичної значущості. Дивіться це . Краще вивчити загальну придатність моделі (побудувати свої залишки відповідно до ваших прогнозів для кожної підходящої вам моделі), вашу теорію та мотивацію моделювання.
Михайло Єпископ

7

Я запозичу абзац із книги «Вступ до аналізу виживання за допомогою« Stata » М.Клевеса, Р.Гутьєрреза, У.Гульда, Ю.Марченка під редакцією Stata press, щоб відповісти на ваше запитання.

Зазвичай читається, що ефекти взаємодії повинні бути включені в модель лише тоді, коли відповідні основні ефекти також включені, але немає нічого поганого в тому, що включати ефекти взаємодії самі по собі. [...] Метою дослідника є параметризація того, що може бути правдивим для даних, що розглядають проблему, а не лише за рецептом.


3
Абсолютно страшна порада.
Френк Харрелл

3
@Frank, ви не хочете розширити свій коментар? Зважаючи на це, "параметризувати те, що може бути правдивим для даних" має багато сенсу.
whuber

6
Див stats.stackexchange.com/questions/11009 / ... . Дані не в змозі сказати вам, що є правдою, і такий підхід сильно залежить від походження вимірювання для множуваних змінних. Оцінка ізольованих ефектів взаємодії температури за Фаренгейтом дасть іншу картину, ніж якщо використовувати Цельсій.
Френк Харрелл

@Frank: Спасибі, я знайшов :-). Зараз це частина цієї нитки.
whuber

7

І x, і y будуть співвідносні з xy (якщо ви не вжили конкретних заходів для запобігання цього за допомогою центрування). Таким чином, якщо ви отримаєте істотний ефект взаємодії зі своїм підходом, це, ймовірно, буде одним або декількома основними ефектами, що маскується як взаємодія. Це не дасть чітких, інтерпретованих результатів. Замість цього бажано побачити, наскільки взаємодія може пояснити вище та вище, що роблять основні ефекти, включаючи x , y та (бажано на наступному кроці) xy .

Щодо термінології: так, β 0 називається "постійною". З іншого боку, "часткове" має конкретні значення в регресії, тому я б не використовував цей термін для опису вашої стратегії тут.

Кілька цікавих прикладів, які виникнуть одного разу на блакитному місяці, описані на цій темі .


7

Я б припустив, що це просто окремий випадок невизначеності моделі. З байєсівської точки зору, ви просто ставитесь до цього точно так само, як ви ставитесь до будь-якого іншого виду невизначеності, будь-яким:

  1. Обчислення його ймовірності, якщо вона є об'єктом, що цікавить
  2. Інтегрування або усереднення його, якщо це не цікавить, але все ж може вплинути на ваші висновки

Це саме те, що люди роблять при тестуванні на «значні ефекти», використовуючи t-квантоли замість нормальних квантових. Оскільки у вас є невизначеність щодо "справжнього рівня шуму", ви враховуєте це, використовуючи більш розповсюджений розподіл у тестуванні. Отже, з вашого погляду, «головний ефект» насправді є «параметром неприємності» стосовно питання, яке ви задаєте. Таким чином, ви просто середньо оцінюєте два випадки (або, загалом, для моделей, які ви розглядаєте). Тому я мав би (невиразну) гіпотезу:

Hint:The interaction between A and B is significant
Я б сказав, що хоча це не точно визначено, це питання, на яке ви хочете відповісти тут. І зауважте, що не ті словесні висловлювання, як вище, визначають гіпотезу, а математичні рівняння. У нас є деякі дані та попередня інформація , то ми просто обчислюємо: (невелика примітка: незалежно від того, скільки разів я виписую це рівняння, воно завжди допомагає мені краще зрозуміти проблему. Дивно). Основна кількість для обчислення - це ймовірність , це не посилається на модель, тому модель повинна бути видалена з використанням закону повної ймовірності: DI
P(Hint|DI)=P(Hint|I)P(D|HintI)P(D|I)
P(D|HintI)
P(D|HintI)=m=1NMP(DMm|HintI)=m=1NMP(Mm|HintI)P(D|MmHintI)
Де індексує m-ю модель, а - кількість моделей, що розглядаються. Перший термін - це "вага моделі", який говорить про те, наскільки дані та попередня інформація підтримують mth модель. Другий член вказує, наскільки mth модель підтримує гіпотезу. Підключення цього рівняння до початкової теореми Байєса дає: MmNM
P(Hint|DI)=P(Hint|I)P(D|I)m=1NMP(Mm|HintI)P(D|MmHintI)
=1P(D|I)m=1NMP(DMm|I)P(MmHintD|I)P(DMm|I)=m=1NMP(Mm|DI)P(Hint|DMmI)

І з цього видно, що є "умовним висновком" гіпотези під mth моделлю (зазвичай це все, що вважається, для обраної "найкращої" моделі) ). Зауважте, що цей стандартний аналіз виправданий, коли - "очевидно найкраща" модель - або коли - всі моделі дають однакові / подібні висновки. Однак якщо жодне з них не дотримано, то теорема Байєса говорить, що найкраща процедура - це середня оцінка результатів, розміщення більшої ваги на моделях, які найбільше підтримуються даними та попередньою інформацією.P ( M m | D I ) 1 P ( H i n t | D M j I ) P ( H i n t | D M k I )P(Hint|DMmI)P(Mm|DI)1P(Hint|DMjI)P(Hint|DMkI)


5

Дуже рідко є доброю ідеєю включати термін взаємодії без основних наслідків, що в ньому беруть участь. Девід Ріндскопф із CCNY написав деякі документи про ті рідкісні випадки.


5

У природі існують різні процеси, які передбачають лише вплив взаємодії та закони, що їх декретують. Наприклад, закон Ома. У психології у вас є, наприклад, модель продуктивності Vroom (1964): Продуктивність = Здатність x Мотивація. Тепер ви можете очікувати значного ефекту взаємодії, коли цей закон справдиться. На жаль, це не так. Ви можете легко виявити два основні ефекти та незначний ефект взаємодії (для демонстрації та подальшого пояснення див. Landsheer, van den Wittenboer and Maassen (2006), Social Science Research 35, 274-294). Лінійна модель не дуже підходить для виявлення ефектів взаємодії; Ом, можливо, ніколи не знайшов би свого закону, коли використовував лінійні моделі.

В результаті інтерпретувати ефекти взаємодії в лінійних моделях важко. Якщо у вас є теорія, яка передбачає ефект взаємодії, ви повинні включати її навіть у незначних випадках. Можливо, ви захочете ігнорувати основні ефекти, якщо ваша теорія виключає ці, але вам це буде важко, оскільки значні основні ефекти часто виявляються у випадку справжнього механізму генерування даних, який має лише мультиплікативний ефект.

Моя відповідь: Так, можна включити в модель двосторонню взаємодію без включення основних ефектів. Лінійні моделі є чудовим інструментом для наближення результатів великої різноманітності механізмів генерування даних, проте їх формули не можуть бути легко інтерпретовані як коректний опис механізму генерації даних.


4

Цей складний і трапився зі мною в останньому проекті. Я б пояснив це так: скажімо, у вас були змінні A і B, які вийшли значущими незалежно, і з ділового сенсу ви вважали, що взаємодія A і B здається гарною. Ви включили взаємодію, яка виявилася важливою, але B втратила своє значення. Ви б пояснили свою модель спочатку, показавши два результати. Результати показали б, що B спочатку був значущим, але, побачивши його у світлі A, він втратив блиск. Тож B - хороша змінна, але лише тоді, коли її бачать у світлі різних рівнів A (якщо A - категоріальна змінна). Начебто Обама є хорошим лідером, коли його бачать у світлі своєї армії SEAL. Отже печатка Обами * буде суттєвою змінною. Але Обама, коли її бачать один, може бути не так важливим. (Без образи Обамі, лише приклад.)


1
Тут все навпаки. Взаємодія (що представляє інтерес) є важливою лише тоді, коли основні ефекти відсутні в моделі.
Глен

3

F = m * a, сила дорівнює масі в рази прискорення.

Він не представлений як F = m + a + ma, або якась інша лінійна комбінація цих параметрів. Дійсно, лише взаємодія між масою та прискоренням мало б сенс фізично.


2
Те, що стосується непереборного фізичного рівняння, яке не має місця для варіабельності, не обов'язково застосовується або не обов'язково є правдивим або точним або продуктивним при моделюванні даних, що характеризуються мінливістю.
rolando2

2

Взаємодія з Основним ефектом і без нього.  Синій - одна умова.  Червоний інший.  Їх відповідні ефекти перевіряються протягом трьох послідовних вимірювань.

Чи вірно включати двосторонню взаємодію без головного ефекту?

Так, це може бути дійсним і навіть необхідним. Якщо, наприклад, у 2. Ви б включили коефіцієнт основного ефекту (середня різниця стану синього проти червоного), це погіршило б модель.

Що робити, якщо ваша гіпотеза стосується лише взаємодії, чи все-таки потрібно включати основні ефекти?

Ваша гіпотеза може бути правдивою незалежно від того, чи є головний ефект. Але модель може знадобитися для найкращого опису основного процесу. Так що так, слід спробувати і без, і без.

Примітка: Вам потрібно відцентрувати код на "безперервну" незалежну змінну (вимірювання у прикладі). Інакше коефіцієнти взаємодії в моделі не будуть симетрично розподілені (в прикладі немає коефіцієнта для першого вимірювання).


1

Якщо змінні, про які йдеться, категоричні, то включення взаємодій без основних ефектів - це лише перематеризація моделі, а вибір параметризації залежить від того, що ви намагаєтеся виконати зі своєю моделлю. Взаємодія безперервних змінних з іншими безперервними змінними або з категоричними змінними - це зовсім інша історія. Дивіться: дивіться цю інформацію від Інституту цифрових досліджень та освіти UCLA


1

Так, це може бути дійсним, хоча це рідко. Але в цьому випадку вам все-таки потрібно моделювати основні ефекти, які згодом ви регресуєте.

Дійсно, в деяких моделях цікава лише взаємодія, наприклад, тестування на наркотики / клінічні моделі. Це, наприклад, основа моделі узагальнених психофізіологічних взаємодій (gPPI): y = ax + bxh + chде x/yзнаходяться вокселі / області, що цікавлять, і hблок / події дизайну.

У цій моделі обидва aі cбудуть регресувати, bзберігатимуться лише для висновку (бета-коефіцієнти). Дійсно, обидва aі cпредставляють помилкову діяльність у нашому випадку, і лише bпредставляє те, що не можна пояснити помилковою діяльністю, взаємодією із завданням.


1

Коротка відповідь: Якщо ви включите взаємодію до фіксованих ефектів, то основні ефекти автоматично включаються, незалежно від того, включите ви їх у свій код чи ні . Єдина відмінність - це ваша параметризація, тобто те, що означають параметри у вашій моделі (наприклад, вони означають групування чи вони відрізняються від еталонних рівнів).

Припущення: я припускаю, що ми працюємо в загальній лінійній моделі і запитуємо, коли ми можемо використовувати специфікацію фіксованих ефектів замість , де і є (категоричними) факторами.ABA+B+ABAB

Математичне уточнення: припускаємо, що вектор відповіді . Якщо , і є матрицями проектування трьох факторів, то модель з "основними ефектами та взаємодією" відповідає обмеженню прольоті . Модель з "лише взаємодією" відповідає обмеженню span . Однак проліт span . Отже, це дві різні параметризації однієї і тієї ж моделіX A X B X A B ξ { X A , X B , X A B } ξ { X A B } { X A B } = { X A , X B , X A B }YN(ξ,σ2In)XAXBXABξ{XA,XB,XAB}ξ{XAB}{XAB}={XA,XB,XAB} (або те саме сімейство розповсюджень, якщо вам зручніше з цією термінологією).

Я щойно бачив, що Девід Бід дав дуже подібну відповідь (вибачення), але подумав, що залишу це тим, хто добре реагує на лінійну перспективу алгебри.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.