Які найкращі практики виявлення ефектів взаємодії?


35

Окрім буквального тестування кожної можливої ​​комбінації змінних (змінних) у моделі ( x1:x2або x1*x2 ... xn-1 * xn). Як визначити, чи існує взаємодія ДОЛЖНА чи ЗНАЧАЄМО між вашими незалежними (сподіваємось) змінними?

Які найкращі практики виявити взаємодію? Чи є графічна техніка, яку ви могли б або могли використати?


Ви могли б розповісти нам трохи про свої дані? розмір (див. мою відповідь) та характер (див. відповідь Гевіна)
Робін Жирард

@Robin: Дайте йому час встати з ліжка, Брендон знаходиться в Торонто ;-)
Відновіть Моніку - Г. Сімпсон

1
@Robin, я вважаю за краще, щоб це було більш загальним. Якщо у своїй відповіді ви надаєте метод, який вимагає припущення щодо розміру чи характеру даних, будь ласка, зазначте це. Проблема, з якою у мене є, розповсюджується на декілька різних завдань моделювання, всі з різними даними. Тож у цьому випадку я шукаю загальну рекомендацію щодо визначення ефектів взаємодії.
Брендон Бертелсен

Відповіді:


20

Кокс і Вермут (1996) або Кокс (1984) обговорили деякі методи виявлення взаємодій. Проблема зазвичай полягає в тому, наскільки загальними повинні бути умови взаємодії. В основному ми (a) підганяємо (і перевіряємо) всі умови взаємодії другого порядку, по одному, і (b) будуємо їх відповідні значення p (тобто, числові терміни як функція ). Тоді ідея полягає в тому, чи слід зберегти певну кількість термінів взаємодії: За припущенням, що всі умови взаємодії є недійсними, розподіл p-значень має бути рівномірним (або, що рівнозначно, точки на розсіювальній схемі повинні бути приблизно розподілені уздовж лінія, що проходить через початок).1-p

Тепер, як сказав @Gavin , встановлення багатьох (якщо не всіх) взаємодій може призвести до надмірного пристосування, але це також марно в певному сенсі (деякі умови взаємодії високого порядку часто взагалі не мають сенсу). Однак це має відношення до інтерпретації, а не виявлення взаємодій, і Кокс вже надав хороший огляд в інтерпретації взаємодії: огляд ( Аналі прикладної статистики 2007, 1 (2), 371–385) - це включає посилання, цитовані вище. Інші напрямки досліджень, на які варто звернути увагу, - це вивчення епістатичних ефектів у генетичних дослідженнях, зокрема методів, заснованих на графічних моделях (наприклад, Ефективний метод ідентифікації статистичних інтеракторів у мережах асоціації генів ).

Список літератури

  • Cox, DR та Wermuth, N (1996). Багатоваріантні залежності: моделі, аналіз та інтерпретація . Чапмана і Хол / CRC.
  • Cox, DR (1984). Взаємодія . Міжнародний статистичний огляд , 52, 1–31.

16

Моєю найкращою практикою було б подумати над проблемою, перш ніж підходити до моделі. Яка правдоподібна модель з огляду на явище, яке ви вивчаєте? Приміщення всіх можливих комбінацій змінних та взаємодій для мене звучить як драгування даних.


5
звучить як зауваження чи це відповідь «подумай»?
Робін Жирард

2
@Robin - останній. Мені здається, що статистичне моделювання є досить важким (я еколог з малою формальною статистичною підготовкою; більшість того, що я навчився, є самоучкою), але набагато простіше, якщо спочатку подумати над проблемою, визначити, що правдоподібно, побудуйте цю модель, зробіть мою модель діагностики, спробуйте взаємодії, де це має науковий сенс.
Відновіть Моніку - Г. Сімпсон

2
@Brandon: Якщо відсутня взаємодія, у залишках будуть закономірності, що залежать від значень коваріатів. Складання залишків проти коваріатів може допомогти визначити, де взаємодія може бути доречною.
Відновіть Моніку - Г. Сімпсон

2
@Brandon: Це стандартна модель діагностики та навички пошукового побудови графіків. Я б побудував залишки проти одного з коваріатів, які, на мою думку, можуть бути кандидатом на інтеракцію, обумовлену (в ggplot2 або решітковому значенні) на значеннях коваріату, на який я думаю, що бере участь у взаємодії. Прокладіть лосс плавніше через кожну панель, щоб побачити, чи є візерунки. Залежить від типу змінних ваших коваріатів.
Відновіть Моніку - Г. Сімпсон

2
Днопоглинання даних? Якщо ви мучите дані досить довго, то зізнаєтесь ...
Цікаво,

16

Встановлення моделі дерева (тобто використання R) допоможе вам виявити складні взаємодії між пояснювальними змінними. Прочитайте приклад на сторінці 30 тут .


Дуже просто і дуже корисно. Дякуємо за посилання на текст Кроулі!
Брендон Бертелсен

Будьте уважні - ви не можете легко вписати такі взаємодії в скажімо лінійну модель. Взаємодії відбуваються лише на одній гілці дерева (або в частині). Вам потрібно багато даних, щоб використовувати ці інструменти в реальних даних.
Відновіть Моніку - Г. Сімпсон

3
Як зазначив @Gavin, одна з можливих підводних каменів полягає в тому, що дерева рішень потребують великого розміру вибірки і є досить нестабільними (що є однією з причин забою та випадкових лісів, пропонованих як життєздатні альтернативи). Інша проблема полягає в тому, що не ясно, чи прагнемо ми до ефектів взаємодії другого чи вищого порядку. У першому випадку КАРТи не є рішенням. У будь-якому випадку я вважаю дуже сумнівною будь-яку інтерпретацію взаємодії між 6 змінними в будь-якому дослідженні (спостережному чи контрольованому).
chl

7

Я буду передмовою цієї відповіді, оскільки я цілком згоден з Гевіном, і якщо вам цікаво підходити до будь-якого типу моделі, вона повинна відображати досліджуване явище. Проблема полягає в логіці виявлення будь-яких ефектів (і на які звертається Гевін, коли він говорить про драгування даних) - це те, що ви можете встановити нескінченну кількість взаємодій, або квадратичні умови для змінних, або перетворення ваших даних, і ви неминуче знайде "значні" ефекти для певних варіацій ваших даних.

Як зазначає chl, ці ефекти взаємодії вищого порядку насправді не мають жодної інтерпретації, і часто навіть взаємодії нижчого порядку не мають жодного сенсу. Якщо ви зацікавлені в розробці причинно-наслідкової моделі, вам слід включити лише ті терміни, на які ви вважаєте, що вони можуть бути доречними для вашої залежної змінної Апріорі, щоб відповідати вашій моделі.

Якщо ви вважаєте, що вони можуть збільшити прогнозовану потужність вашої моделі, вам слід шукати ресурси щодо методів вибору моделі, щоб запобігти надмірному розміщенню вашої моделі.


7

н

н

Якщо ви хочете дізнатися, чи важлива ця частка дисперсії, вам доведеться робити моделювання (приблизно, вам потрібно знати кількість ступенів свободи вашої моделі, щоб порівняти її з дисперсією).

Ваші змінні дискретні чи безперервні? обмежений чи ні насправді (тобто ви не знаєте максимуму)?


дякую за напрям до індексів Соболя. Знову хочу зазначити, що я шукаю тут загальну, а не конкретну відповідь. Я не запитую про конкретний набір даних, а намагаюся пояснити проблему, з якою я стикався з низкою різних наборів.
Брендон Бертелсен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.