У статистичних методах наук про атмосферу Даніель Вілкс зазначає, що багаторазова лінійна регресія може призвести до проблем, якщо між предикторами є дуже сильні взаємозв'язки (3-е видання, стор. 559-560):
Патологія, яка може виникати при множинній лінійній регресії, полягає в тому, що набір змінних прогнозів, що мають сильні взаємні кореляції, може призвести до обчислення нестабільної регресійної залежності.
(...)
Потім він вводить регресію основних компонентів:
Підхід до вирішення цієї проблеми полягає в тому, щоб спочатку перетворити прогнози на їх основні компоненти, кореляції між якими дорівнюють нулю.
Все йде нормально. Але далі він робить деякі заяви, які він не пояснює (або, принаймні, недостатньо детально, щоб я зрозумів):
Якщо всі головні компоненти зберігаються в регресії головного компонента, то нічого не вийде за звичайні найменші квадрати, придатні до повного набору прогнозів.
(..) і:
Можна повторно виразити регресію основного компонента з точки зору вихідних предикторів, але результат, як правило, буде включати всі оригінальні змінні предиктора, навіть якщо були використані лише один або кілька основних предикторів компонентів. Ця відновлена регресія буде упередженою, хоча часто дисперсія набагато менша, що призводить до меншої загальної ЧДЧ.
Я не розумію цих двох моментів.
Звичайно, якщо всі основні компоненти зберігаються, ми використовуємо ту саму інформацію, що і коли ми використовували предиктори в їх первісному просторі. Однак проблема взаємних кореляцій усувається роботою в просторі компонентів. У нас все ще може бути надмірне оснащення, але це єдина проблема? Чому нічого не отримується?
По-друге, навіть якщо ми врізаємо основні компоненти (можливо, для зменшення шуму та / або для запобігання перенапруження), чому і як це призводить до упередженої відновленої регресії? Яким чином упереджений?
Джерело книги: Даніель С. Вілкс, Статистичні методи в атмосферних науках, Третє видання, 2011. Міжнародна серія геофізики Том 100, Academic Press.