У множинній лінійній регресії з сильно корельованими регресорами, яку найкращу стратегію використовувати? Чи правомірний підхід додати добуток усіх корельованих регресорів?
У множинній лінійній регресії з сильно корельованими регресорами, яку найкращу стратегію використовувати? Чи правомірний підхід додати добуток усіх корельованих регресорів?
Відповіді:
Основні компоненти мають багато сенсу ... математично. Однак я б насторожився просто використовувати якийсь математичний трюк у цьому випадку і сподіваюся, що мені не потрібно думати про свою проблему.
Я рекомендую подумати трохи про те, які у мене є предиктори, що є незалежною змінною, чому мої прогнози є корельованими, чи деякі мої передбачувачі насправді вимірюють ту саму базову реальність (якщо так, чи я можу просто працювати з один вимір і хто з моїх прогнозів був би найкращим для цього), для чого я роблю аналіз - якщо мене не цікавить висновок, а лише прогнозування, то я б фактично могла залишити речі такими, якими вони є, доки в майбутньому Значення предиктора аналогічні минулим.
Для вирішення цієї проблеми можна використовувати основні компоненти або регресію хребта. З іншого боку, якщо у вас є дві змінні, які є досить корельованими, щоб викликати проблеми з оцінкою параметрів, то ви майже напевно можете скинути будь-яку з двох, не втрачаючи багато з точки зору прогнозування - адже дві змінні несуть однакову інформацію . Звичайно, це працює лише тоді, коли проблема пов'язана з двома сильно корельованими незалежними. Коли проблема стосується більше двох змінних, які є майже колінеарними (будь-які дві з яких можуть мати лише помірні кореляції), можливо, вам знадобиться один із інших методів.
Ось ще одна думка, натхненна Стефаном відповідь :
Якщо деякі з ваших кореляційних регресорів значущо пов'язані (наприклад, це різні міри інтелекту, тобто словесні, математичні тощо), ви можете створити єдину змінну, яка вимірює ту саму змінну, використовуючи одну з наступних методик:
Підсумовуйте регресори (доцільно, якщо регресори є складовими цілого, наприклад, словесний IQ + математичний IQ = загальний IQ)
Середнє значення регресорів (доцільно, якщо регресори вимірюють однакову конструкцію, наприклад, розмір лівого взуття, розмір правого взуття для вимірювання довжини ніг)
Факторний аналіз (для обліку помилок вимірювань та вилучення прихованого коефіцієнта)
Потім ви можете скинути всі корельовані регресори та замінити їх на одну змінну, що випливає з вищевказаного аналізу.
Я збирався сказати майже те саме, що і Стефан Коласа вище (тому я підтримав його відповідь). Я лише додам, що іноді мультиколінеарність може бути зумовлена використанням обширних змінних, які все сильно корелюються з деяким показником розміру, і все можна покращити, використовуючи інтенсивні змінні, тобто розділяючи все на якусь міру розміру. Наприклад, якщо ваші одиниці є країнами, ви можете поділити їх за кількістю населення, площею або ВНП, залежно від контексту.
О, і щоб відповісти на другу частину оригінального запитання: я не можу придумати жодної ситуації, коли додавання продукту всіх корельованих регресорів було б гарною ідеєю. Як це допомогло б? Що це означало б?
Я не фахівець з цього питання, але моя перша думка полягала б у проведенні аналізу основних компонентів на змінних предиктора, а потім використовувати отримані головні компоненти для прогнозування залежної змінної.
Це не засіб захисту, але, безумовно, крок у правильному напрямку.