Як використовувати аналіз основних компонентів для вибору змінних для регресії?


12

В даний час я використовую аналіз основних компонентів для вибору змінних, які використовуватимуться при моделюванні. На даний момент я роблю вимірювання A, B і C у своїх експериментах. Що я дійсно хочу знати: чи можу я зробити менше вимірювань і припинити запис C і або B, щоб заощадити час і сили?

Я вважаю, що всі 3 змінні сильно завантажуються на мій перший основний компонент, який становить 60% дисперсії моїх даних. Оцінки компонентів підказують мені, що якщо я додаю ці змінні разом у певному співвідношенні (aA + bB + cC). Я можу отримати оцінку на ПК1 для кожного випадку в моєму наборі даних і можу використовувати цю оцінку як змінну при моделюванні, але це не дозволяє мені припинити вимірювання B і C.

Якщо я квадратую навантаження A і B і C на PC1, я вважаю, що на змінну A припадає 65% дисперсії в PC1, а на змінну B припадає 50% дисперсії в PC1, а змінна C також на 50%, тобто деякі відхилення в PC1, що припадає на кожну змінну A, B і C, поділяється на іншу змінну, але A виходить на верхній облік трохи більше.

Неправильно думати, що я міг просто вибрати змінну A або, можливо, (AA + bB, якщо це необхідно) використовувати для моделювання, оскільки ця змінна описує велику частку дисперсії в PC1, а це, в свою чергу, описує велику частку дисперсії в дані?

Який підхід ви використовували в минулому?

  • Єдина змінна, яка завантажує найважче на ПК1, навіть якщо є інші важкі навантажувачі?
  • Оцінка компонентів на PC1 з використанням усіх змінних, навіть якщо вони всі важкі навантажувачі?

Відповіді:


14

Ви не вказали, на яке "моделювання" плануєте, але це здається, що ви запитуєте про те, як вибрати незалежні змінні серед , і з метою (скажімо) регресування четвертої залежної змінної від них.ABCW

Щоб побачити, що цей підхід може піти не так, розглянемо три незалежні нормально розподілені змінні , і з одиничною дисперсією. Для справжньої основної моделі виберіть невелику константу , дійсно крихітну константу , і нехай (залежна змінна) (плюс трохи помилок, незалежних від , , і ).XYZβ1ϵβW=ZXYZ

Припустимо , що незалежні змінні , які мають в , і . Тоді і сильно корельовані ( в залежності від дисперсії помилки), тому що кожен з них близька до кратної . Тим НЕ менше, некорреліровани з будь-яким з або . Оскільки невеликий, перший головний компонент для паралельний з власним значенням . і сильно навантажують цей компонент іA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCнавантаження зовсім не тому, що це незалежно від (і ). Тим не менш, якщо ви усунете з незалежних змінних, залишивши лише і , ви викинете всю інформацію про залежну змінну, тому що , і є незалежними!XYCABWAB

Цей приклад показує, що для регресії потрібно звернути увагу на те, як незалежні змінні співвідносяться із залежною; ви не можете піти, просто проаналізувавши відносини між незалежними змінними.


1
це повинен бути не ? Z + ϵ YA=X+ϵYZ+ϵY
shabbychef

@shabby Так, дякую. (Мені довелося змінити всі назви змінних у чернетках, щоб вони відповідали іменам ОП, і переплутали цю.)
whuber

4

Якщо у вас всього 3 IV, чому ви хочете їх зменшити?

Тобто, чи є ваш зразок дуже малим (так що 3 IV ризикують переоцінити)? У цьому випадку розглянемо часткові найменші квадрати

Або вимірювання дуже дорогі (тож у майбутньому ви хочете виміряти лише один IV)? У цьому випадку я б розглядав різні регресії з кожним IV окремо і разом.

Або хтось у вашому минулому надмірно підкреслював цінність парсингу? У цьому випадку чому б не включити всі 3 IV?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.