Лінійна залежність між пояснювальними змінними при множинній регресії


10

Я читав розділ " Аналіз даних та графіки" з кількома регресіями, використовуючи R: Приклад, заснований на прикладі, і трохи розгубився, дізнавшись, що він рекомендує перевірити наявність лінійних взаємозв'язків між пояснювальними змінними (використовуючи розсіювач) і, якщо таких немає " т будь-, перетворюючи їх таким чином , вони дійсно стають більш лінійно пов'язані. Ось кілька уривків із цього:

6.3 Стратегія встановлення множинних регресійних моделей

(...)

Вивчіть матрицю розсіювання за участю всіх пояснювальних змінних. (У тому числі залежна змінна на даний момент є необов'язковою. ) Спочатку шукайте докази нелінійності у графіках пояснювальних змінних один проти одного.

(...)

Цей момент визначає стратегію пошуку моделі - шукайте моделі, в яких регресійні зв’язки між пояснювальними змінними дотримуються "простої" лінійної форми . Таким чином, якщо деякі парні сюжети показують нелінійність, розгляньте можливість використання перетворень, щоб отримати більш майже лінійні співвідношення . Хоча, можливо, не обов'язково виявиться можливим, керуючись цією стратегією, адекватно моделювати регресійні відносини, але це є хорошою стратегією з причин, наведених нижче, що слід застосовувати при запуску пошуку.

(...)

Якщо зв'язки між пояснювальними змінними є приблизно лінійними, можливо, після перетворення, тоді можливо трактувати графіки змінних предиктора проти змінної відповіді.

(...)

Можливо, неможливо знайти перетворення однієї або декількох пояснювальних змінних, які забезпечують (попарно) співвідношення, показані на панелях, лінійними. Це може створити проблеми як для інтерпретації діагностичних графіків для будь-якого пристосованого рівняння регресії, так і для інтерпретації коефіцієнтів у пристосованому рівнянні. Дивіться Кука і Вайсберга (1999).

Чи не повинен я турбуватися про лінійні зв’язки між залежними змінними (через ризик мультиколінеарності), а не активно переслідувати їх? Які переваги мають приблизно лінійно пов'язані змінні?

Питання мультиколінеарності автори вирішують пізніше у розділі, але, здається, ці рекомендації не впадають у відповідь на те, щоб уникнути мультиколінеарності.

Відповіді:


8

Тут є два моменти:

  1. Уривок рекомендує перетворити IV на лінійність лише тоді, коли є докази нелінійності. Нелінійні зв’язки між IV можуть також викликати колінеарність і, що головне, можуть ускладнити інші відносини. Я не впевнений, що згоден з порадою в книзі, але це не дурно.

  2. Безумовно, дуже міцні лінійні зв’язки можуть бути причинами колінеарності, але висока кореляція не є ні необхідною, ні достатньою, щоб викликати проблемну колінеарність. Хорошим методом діагностики колінеарності є індекс стану.

EDIT у відповідь на коментар

Умови індекси коротко описані тут як «квадратний корінь з максимального власного значення , поділене на мінімальне власне». У CV є досить багато публікацій, які обговорюють їх та їх достоїнства. Навчальні тексти на них - це дві книги Девіда Белслі: « Діагностика кондиціонування та діагностика регресії» (яка також має нове видання, 2005 р.).


1
+1 - хороша відповідь, але чи можете ви розширити показник стану? Я ще не знайшов задовільного способу боротьби з колінеарністю в кандидатських пояснювальних змінних.
BGreene

Дякую за інформативну відповідь. Чи можете ви детальніше розглянути, які ще стосунки ускладнюються нелінійністю серед експертів. змінні? А ви зараз про що говорять автори, коли кажуть, що нелінійні зв’язки між досвідом. змінні можуть викликати проблеми з інтерпретацією коефіцієнтів та діагностичних графіків?
RicardoC

Я зараз не можу привести приклад, але бачив, як це відбувається. Може здатися, що між Y і X існують нелінійні зв’язки
Пітер Флом

3

Лінійні відносини між кожною пояснювальною змінною та залежною змінною забезпечать також лінійні відносини між пояснювальними змінними. Зворотний процес, звичайно, не відповідає дійсності.

Це правда, що трансформація (и), покликана надати приблизну лінійність, збільшить колінеарність. Однак у відсутності таких перетворень, колінеарність прихована. Наполягаючи на збереженні таким чином прихованості колінеарності, це може призвести до складного і непереборного рівняння регресії, де є проста форма рівняння.

Припустимо, yце близьке до лінійної функції log(x1), у випадку, коли xдіапазон значень, що різняться на коефіцієнт 10 або більше. Тоді, якщо xвикористовується як регресор, інші пояснювальні змінні, якщо взагалі можливо, будуть викликані для врахування нелінійності у взаємозв'язку з x1. Результатом може бути дуже складний регресійний взаємозв'язок, з непереборними коефіцієнтами, замість простої форми рівняння регресії, яка фіксує всю наявну пояснювальну силу.

Чудернацькі наслідки, які можуть бути наслідком невдалого пошуку та роботи з лінійно пов'язаними змінними, добре проілюстровані в недавній роботі, яка стверджувала, що ефект жіночого імені урагану в даних про загибелі від 94 атлантичних ураганів, які здійснили висадку на території США протягом 1950-2012 років. Див. Http://www.pnas.org/content/111/24/8782.abrief . Дані доступні як частина додаткової інформації. Зауважимо, що робота з log(deaths)лінійною моделлю теорії normaL (функція R lm()) приблизно еквівалентна використанню Юнг та ін. Негативної біноміальної регресійної моделі.

Якщо один регресує log(E[deaths])на log(NDAM), там нічого не залишилося для змінної мінімального тиску, в жіночності змінної і взаємодії, щоб пояснити. Змінна log(NDAM), не NDAM, відображається в матриці розсіювання як лінійно пов'язана зі змінною мінімального тиску. Її розподіл також набагато менш косий, набагато ближчий до симетричного.

Юнг і ін регрессировали log(E[deaths])на NDAM(нормована пошкодження), а також тих інших змінних і взаємодій. Потім утворилося рівняння було використано для розповіді історії, в якій жіночність імені має великий вплив.

Щоб побачити, наскільки химерним є використання NDAMяк пояснювальної змінної в регресії, де є змінною результату log(E[deaths]), графіком log(deaths+0.5)чи log(deaths+1)проти NDAM. Потім повторіть сюжет з log(NDAM)замість NDAM. Контраст є ще більш вражаючим, якщо Катріна та Одрі, яких Юнг та ін. Опустили як екслідери, включаються до сюжету. Наполягаючи на використанні NDAMв якості пояснювальної змінної, а не log(NDAM)Юнг та ін., Передали можливість знайти дуже просту форму регресійних відносин.

Зверніть увагу: E[deaths]це кількість смертей, передбачених моделлю.

У даних Jung et al. Необхідні перетворення можна визначити за допомогою матриці розсіювання всіх змінних. Спробуйте, можливо, функцію R spm()в останньому випуску автомобільного пакета для R, з transform=TRUEта (з deathsзмінною) family="yjPower". Або експериментуйте з перетвореннями, запропонованими початковою матрицею розсіювання. Загалом, кращою порадою може бути спочатку шукати пояснювальні змінні, які задовольняють вимогу лінійних прогнозів, а потім відвідувати змінну результатів, можливо, використовуючи функцію автомобіля invTranPlot().

Дивіться, окрім "Аналіз даних та графіки за допомогою R", на які посилався запитувач:

  • Вайсберг: Прикладна лінійна регресія. 4-е вип., Wiley 2014, pp.185-203.
  • Фокс і Вайсберг: супутник R прикладної регресії. 2-е вип., Sage, 2011, pp.127-148.

1

Я вважаю весь цей уривок доволі виразним, якщо не відвертим сумнівом. В ідеалі ви хочете, щоб ваші незалежні змінні були максимально некорельованими одна від одної, щоб забезпечити додаткову та додаткову інформацію для моделі при оцінці залежної змінної. Ви піднімаєте питання мультиколінеарності завдяки високій кореляції між незалежними змінними, і ви цілком вірно піднімаєте це питання за цієї обставини.

Важливішим є вивчення діаграми розсіювання та пов'язаної лінійної залежності між кожною з незалежних змінних та залежною змінною, але не між незалежними змінними. При перегляді таких графіків розсіювання (незалежних від осі X і залежних від осі Y) в такий час можуть виникнути можливості для перетворення незалежної змінної для спостереження за кращим пристосуванням, чи то через журнал, експонент чи поліноміальну форму.


1
Що стосується Вашого 2-го речення: Якби незалежні змінні були абсолютно некорельованими, велика частина обґрунтування регресії стала б суперечливою. Кожен двоваріантний зв'язок предиктора з Y виявився б таким же, як і відносини, коли всі інші предиктори контролювались. У такому випадку навіщо контролювати?
rolando2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.