Як я повинен моделювати взаємодії між пояснювальними змінними, коли одна з них може мати квадратичний та кубічний доданки?


10

Я щиро сподіваюся, що я сформулював це питання таким чином, що на нього можна остаточно відповісти - якщо ні, будь ласка, дайте мені знати, і я спробую ще раз! Я також мушу зазначити, що я буду використовувати R для цих аналізів.

У мене є кілька заходів , plant performance (Ys)які я підозрюю , що під впливом чотири лікування я imposed-- flower thinning (X1), fertilization (X2), leaf clipping (X3), і biased flower thinning (X4). Для всіх можливих Y, N становить щонайменше 242, тому розміри моїх зразків були великими. Всі ділянки або піддавали проріджуванню, або ні, але кожен сюжет також піддавався одному (і лише одному) з трьох інших обробок (чи ні - також були контрольні ділянки). Ідея цієї конструкції полягала в тому, щоб перевірити, чи інші три способи лікування здатні або "маскувати", або "посилювати" наслідки стоншення. Таким чином, за задумом, три останні способи лікування (X2-X4) не могли взаємодіяти один з одним, оскільки їх не схрещували, але кожен може взаємодіяти з проріджуванням квітки - і вони, ймовірно, так роблять.

Мої явні гіпотези полягають у тому, що 1) квітуча квітка буде істотною і 2) терміни взаємодії X1*X2, X1*X3, and X1*X4,між проріджуванням квітки та іншими трьома методами лікування також будуть значущими. Тобто стоншення квітки повинно мати значення, але способи, що мають значення, повинні суттєво змінити те, що зробили інші три обробки.

Я хочу включити всю цю інформацію у змішану модель:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

Але є одна зависання: у мене є вагомі підстави вважати, що вплив стоншення на Y нелінійний. Вони, ймовірно, квадратичні, але, можливо, навіть кубічні в деяких випадках. Це тому, що наслідки проріджування на продуктивність, швидше за все, збільшуються при більш високих рівнях стоншування. Якщо я спробую моделювати цю нелінійну залежність за допомогою рівняння, наведеного вище, додаючи квадратичні та кубічні терміни для X1, то я не знаю, як моделювати умови взаємодії - чи повинен я включати всі можливі поєднання X1, (X1) ^ 2, і (X1) ^ 3 * X2, X3 і X4? Тому що це здається безліччю параметрів, які потрібно спробувати оцінити, навіть з урахуванням кількості точок даних, і я не знаю, як інтерпретувати отримані результати. При цьому я не маю жодних біологічних причин вважати, що це буде недоцільним способом моделювання ситуації.

Отже, у мене є три думки щодо вирішення цього питання:

  1. Спочатку підходимо до меншої моделі, наприклад Y ~ X1 + X1^2 + X^3 + Random effects, з єдиною метою з'ясувати, чи є відношення між проріджуванням та Y лінійним, квадратичним чи кубічним, а потім перетворити проріджування через квадратний або кубиковий корінь, щоб відповідним чином лінеаризувати відносини. Звідси умови взаємодії можна моделювати, як вище, з перетвореною змінною.
  2. Припустимо, що значні взаємодії, якщо вони відбуваються, впливають лише на один із X1 термінів (тобто лише лінійний, квадратичний або кубічний термін), і моделюйте взаємодії відповідно. Я навіть не впевнений, чи має такий підхід сенс.
  3. Просто підходимо до "повної моделі" з усіма можливими термінами взаємодії між термінами витончення та іншими методами лікування, як обговорювалося вище. Потім обріжте незначні терміни взаємодії та використовуйте графіки та інші прийоми для інтерпретації результатів.

Який із цих підходів, якщо такий є, має найбільш сенс і чому, враховуючи, що мене цікавить тестування гіпотез, а не вибір моделі? Зокрема, якщо №1 вище не має сенсу робити, чому це так? Я прочитав цю статтю та цю статтю і спробував засвоїти, що вони можуть означати для мене, але будь-які джерела для подальшого читання також були б вдячні!

Відповіді:


7

Жоден із цих підходів не працює належним чином. Підхід 3. підійшов близько, але тоді ви сказали, що будете обрізати незначні умови. Це проблематично, оскільки колілінійності унеможливлюють пошук термінів, які потрібно видалити, і тому, що це дасть вам неправильні ступені свободи в тестах гіпотез, якщо ви хочете зберегти помилку типу I.

Залежно від ефективного розміру вибірки та співвідношення сигнал / шум у вашій проблемі, я б запропонував встановити модель з усіма умовами продукту та основних ефектів та інтерпретувати модель за допомогою сюжетів та "тестів фрагментів" (кілька тестів df, пов'язаних з ними, тобто, тест на загальну взаємодію, тест на нелінійну взаємодію, тест на загальний ефект, включаючи основний ефект + взаємодія тощо). Пакет R rmsполегшує це для стандартних одновимірних моделей і для поздовжніх моделей, коли є багатоваріантною нормою. Приклад:Y

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

Коли ви бачите anovaтаблицю, ви побачите рядки з міткою, All Interactionsякі для всієї моделі тестують комбінований вплив усіх термінів взаємодії. Для окремого предиктора це корисно лише тоді, коли предиктор взаємодіє з більш ніж однією змінною. Існує опція в printметоді anova.rmsпоказувати кожному рядку в таблиці, які саме параметри тестуються проти нуля. Все це працює із сумішами категоричних та безперервних предикторів.

Якщо ви хочете використовувати звичайні многочлени, використовуйте polзамість rcs.

На жаль, я не реалізував моделі змішаного ефекту.


1
Дякую за цю відповідь. Я ніколи раніше не використовував сплайни, але, думаю, я розумію ваш приклад. У мене є кілька наступних питань, якщо це нормально? 1. Якщо ви дивитесь на результати anova від ols, як у вашому прикладі, що означає "Усі взаємодії" під фактором? Тобто всі взаємодії з чим? 2. Чи допустимий подібний підхід у змішаному моделюванні? Я думаю, що я застряг у необхідності випадкових факторів. Чи сумісний ваш приклад із, наприклад, lme4? 3. Чи вдасться це зробити, якщо деякі взаємодіючі методи лікування будуть категоричними? Наприклад, що робити, якщо X2 був коефіцієнтом 2 рівня?
Bajcz

2

Я прихильник використання непараметричних згладжувальних регресій для оцінки функціональних форм взаємозв'язків між залежними змінними та предикторами, навіть коли згодом я буду оцінювати параметричні моделі регресії. Хоча я дуже часто знаходив нелінійні зв’язки, я ніколи не знаходив термін взаємодії нелінійної взаємодії, навіть коли основні ефекти сильно нелінійні. Я візьму додому: ефекти взаємодії не повинні складатися з тих же функціональних форм, що й предиктори, з яких вони складаються.


Отже, для уточнення, ваш прийом додому полягає в тому, що якщо я виберу варіант №2, я можу сміливо просто включати умови взаємодії з лінійним терміном X1 і не турбуватися про "умови взаємодії вищого порядку", наприклад, X1 ^ 2 * X3 тощо?
Bajcz

1
@ Baajcz Ну ... я думаю, я говорю дві речі: (1) Мені вдалося обійтись у наборах даних, з якими я стикався з лінійними взаємодіями, але також (2) Мені подобається шукати (використовуючи непараметричні регресії) і нехай дані підкажуть мені, чи варто розглянути нелінійні альтернативи. [Прийняття модельного підходу або підходу до тестування гіпотез до нелінійних термінів - ІМО - неправильний шлях для цього, оскільки це тягне, наприклад, висновок, заснований, наприклад, на довільному наборі поліноміальних термінів, а не на самих даних.]
Олексій

3
Немає великих причин вважати, що взаємодія швидше буде лінійною. Я натрапив на чудові приклади нелінійних взаємодій. Ідея "дивитись" та "дозволяти даним розповідати вам дані" пов'язана з проблемами висновку, включаючи проблеми поганого покриття інтервалу довіри.
Френк Харрелл

1
@FrankHarrell Дякую! Ваше перше речення - це саме те, що я намагався зіткнутися у своєму (2) коментарі вище (мій минулий досвід може сильно відрізнятися в майбутньому). OTOH: не дозволяти даних говорити - це відмінна стратегія для введення висновків про артефакти припущень моделювання на умовиводи про фактичні дані.
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.