як інтерпретувати термін взаємодії у формулі lm в R?

У R, якщо я називаю lm()функцію таким чином:

lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)

Це дає мені лінійну модель змінної відгуку з var1, var2і взаємодія між ними. Однак як саме ми чисельно інтерпретуємо термін взаємодії?

У документації сказано , що це «хрест» між var1і var2, але це не дає пояснення того , що саме «хрест» є.

Було б корисно мені знати, які точні числа R обчислює, щоб включити взаємодію між двома змінними.

r regression

— Енцо
джерело

Чи хотіли б ви конкретно знати, як R створює матрицю проектування за цією формулою, або вас більше цікавить, як інтерпретувати такий мультиплікативний термін ("взаємодія") з точки зору пристосованої моделі?

— Момо

Мене більше цікавить, як інтерпретувати цей мультиплікативний термін. Наприклад, якщо я хочу виписати лінійну формулу (математичну, а не R ...), що мені слід ввести для мультиплікативного терміна?

— Енцо

Щоб пояснити, що означає хрест, погляньте на розрахунок var3 <- var 1 * var2будівліlm.2 <- lm(response ~ var1 + var2 + var3)

— Джеймс Стенлі

значить, це просто множинне множення?

— Енцо

@Enzo, так, хрест буквально два доданків множаться - інтерпретація в значній мірі буде залежати від того , var1і var2обидва безперервно (досить важко інтерпретувати, на мій погляд) , або один з них є , наприклад , двійкова категоричний (. Простіше розглядати) Дивіться цю відповідь для деяких прикладів інтерпретації Пітера Флома

— Джеймс Стенлі

Відповіді:

Стандартний спосіб написати рівняння прогнозування для вашої моделі:

$\hat y = b_0 + b_1*x_1 + b_2*x_2 + b_{12} * x_1 *x_2$

Але зрозуміти взаємодію трохи легше, якщо ми по-різному оцінимо:

$\hat y = (b_0 + b_2*x_2) + (b_1 + b_{12}*x_2) * x_1$

За допомогою цього факторингу ми можемо бачити, що для заданого значення y-перехоплення для дорівнює а нахил на - . Отже, зв’язок між та залежить від . $x_2$ $x_1$ $b_0 + b_2*x_2$ $x_1$ $(b_1 + b_{12}*x_2)$ $y$ $x_1$ $x_2$

Ще один спосіб зрозуміти це, побудувавши графіки передбачуваних ліній між і для різних значень (або навпаки). Функції та пакети TeachingDemos для R були розроблені, щоб допомогти з такими типами графіків. $y$ $x_1$ $x_2$ Predict.PlotTkPredict

— Грег Сніг
джерело

Припустимо, ви отримаєте бальні оцінки 4 для $x_1$ , 2 для $x_2$ і 1,5 для взаємодії. Тоді рівняння говорить, що lmпридатність є

$y = 4x_1 + 2x_2 + 1.5x_1x_2$

Це те, чого ти хотів?

— Пітер Флом
джерело

Про взаємодію найпростіше думати з точки зору дискретних змінних. Можливо, ви могли вивчити двосторонні ANOVA, де у нас є дві змінні групи (наприклад, стать і вікова категорія, з трьома рівнями для віку) і дивитесь, як вони відносяться до певної безперервної міри (наша залежна змінна, наприклад, IQ).

Термін x1 * x2, якщо він значущий, можна зрозуміти (у цьому тривіальному, складеному прикладі) як IQ, що поводиться по-різному на рівні віку для різних статей. Наприклад, можливо, IQ є стабільним для чоловіків у трьох вікових групах, але молоді жінки починають нижче молодих чоловіків і мають висхідну траєкторію (при цьому старша вікова група має більш високе середнє значення, ніж стара вікова група для чоловіків). У графіку засобів це означатиме горизонтальну лінію для чоловіків у середині графіка, а можливо, 45-градусну лінію для жінок, яка починається нижче чоловіків, але закінчується вище чоловіків.

Суть полягає в тому, що, коли ви рухаєтеся по рівнях однієї змінної (або "утримуючи константу X1"), те, що відбувається в іншій змінній, змінюється. Ця інтерпретація також працює з безперервними змінними прогнозувальника, але не так просто конкретно проілюструвати. У цьому випадку ви можете взяти конкретні значення X1 і X2 і подивитися, що відбувається з Y.

— Twitch_City
джерело