Чому Деніел Вілкс (2011) каже, що регресія основних компонентів "буде упередженою"?


13

У статистичних методах наук про атмосферу Даніель Вілкс зазначає, що багаторазова лінійна регресія може призвести до проблем, якщо між предикторами є дуже сильні взаємозв'язки (3-е видання, стор. 559-560):

Патологія, яка може виникати при множинній лінійній регресії, полягає в тому, що набір змінних прогнозів, що мають сильні взаємні кореляції, може призвести до обчислення нестабільної регресійної залежності.

(...)

Потім він вводить регресію основних компонентів:

Підхід до вирішення цієї проблеми полягає в тому, щоб спочатку перетворити прогнози на їх основні компоненти, кореляції між якими дорівнюють нулю.

Все йде нормально. Але далі він робить деякі заяви, які він не пояснює (або, принаймні, недостатньо детально, щоб я зрозумів):

Якщо всі головні компоненти зберігаються в регресії головного компонента, то нічого не вийде за звичайні найменші квадрати, придатні до повного набору прогнозів.

(..) і:

Можна повторно виразити регресію основного компонента з точки зору вихідних предикторів, але результат, як правило, буде включати всі оригінальні змінні предиктора, навіть якщо були використані лише один або кілька основних предикторів компонентів. Ця відновлена ​​регресія буде упередженою, хоча часто дисперсія набагато менша, що призводить до меншої загальної ЧДЧ.

Я не розумію цих двох моментів.

Звичайно, якщо всі основні компоненти зберігаються, ми використовуємо ту саму інформацію, що і коли ми використовували предиктори в їх первісному просторі. Однак проблема взаємних кореляцій усувається роботою в просторі компонентів. У нас все ще може бути надмірне оснащення, але це єдина проблема? Чому нічого не отримується?

По-друге, навіть якщо ми врізаємо основні компоненти (можливо, для зменшення шуму та / або для запобігання перенапруження), чому і як це призводить до упередженої відновленої регресії? Яким чином упереджений?


Джерело книги: Даніель С. Вілкс, Статистичні методи в атмосферних науках, Третє видання, 2011. Міжнародна серія геофізики Том 100, Academic Press.


4
(+1) У другій цитаті "буде упереджено" не випливає логічно: краще буде більш м'яким твердженням типу "ймовірно, буде упередженим". Я підозрюю, що міркування щодо цього можуть бути чимось за принципами "оскільки PCR накладає лінійні співвідношення між оцінками параметрів, ці оцінки, як правило, відрізняються від оцінок OLS; а оскільки оцінки OLS є неупередженими, це означає, що оцінки PCR будуть упередженими". Інтуїтивно це є хорошою евристикою, але це не зовсім коректно.
whuber

чи можна сказати, що "ПЛР буде упереджено", якщо (а) точки даних не займають лінійне нижнє або рівне розмірне багатовимірне значення, ніж обрана кількість ПК та (б) точки даних не є ідеально некорельованими? чи як?
Soren Havelund Welling

Відповіді:


15

Що відбувається, коли використовуються всі ПК?

Якщо використовуються всі ПК, то отримані коефіцієнти регресії будуть ідентичними тим, що отримані при регресії OLS, і тому цю процедуру краще не називати «регресією основних компонентів». Це стандартна регресія, яка виконується лише в обхідному напрямку.

Ви запитуєте, як можливо, що нічого не виходить, враховуючи, що після PCA прогнози стають ортогональними. Диявол ховається в зворотному перетворенні коефіцієнтів регресії з простору PCA в вихідний простір. Що вам потрібно знати, це те, що дисперсія розрахункових коефіцієнтів регресії обернено залежить від коваріаційної матриці предикторів. Трансформовані PCA предиктори, назвемо їх , мають діагональну коваріаційну матрицю (тому що вони некорельовані). Отже всі коефіцієнти регресії дляZ X X iZZтакож є некорельованими; ті, що відповідають ПК з високою дисперсією, мають низьку дисперсію (тобто надійно оцінюються), а ті, що відповідають ПК з низькою дисперсією, мають велику дисперсію (тобто оцінюються ненадійно). Коли ці коефіцієнти будуть перетворені на початкові предиктори , кожен з предикторів отримає деяку частину недостовірних оцінок, і тому всі коефіцієнти можуть стати ненадійними .XXi

Так нічого не отримується.

Що відбувається, коли використовується лише декілька ПК?

Якщо не всі ПК зберігаються в ПЛР, то отримане рішення , як правило, не дорівнюватиме стандартному звичайному мінімальним рішенням . Це стандартний результат, коли рішення OLS є неупередженим : див . Теорему Гаусса-Маркова . "Незаангажований" означає, що в середньому правильний , хоча це може бути дуже шумно. Оскільки рішення ПЛР відрізняється від нього, воно буде упередженим , тобто середнє значення буде неправильним. Однак часто трапляється, що він значно менш галасливий, що призводить до загальних точніших прогнозів. β OLS ββ^PCRβ^OLSβ^

Це приклад компромісії з ухилом відхилення . Див. Чому працює усадка? для подальшої загальної дискусії.

У коментарях @whuber зазначав, що рішення ПЛР не повинно відрізнятися від OLS і, отже, не повинно бути упередженим. Дійсно, якщо залежна змінна є некорельованою (у сукупності, а не у вибірці) з усіма ПК з низькою дисперсією, які не входять до моделі ПЛР, відмова від цих ПК не вплине на неупередженість. Це, однак, навряд чи має місце на практиці: PCA проводиться без урахування тому, очевидно, має тенденцію дещо співвідноситись з усіма ПК.y yyyy

Чому використання ПК з високою дисперсією взагалі хороша ідея?

Це не було частиною питання, але вас може зацікавити наступний потік для подальшого читання: Як верхні основні компоненти можуть зберігати прогнозовану потужність залежної змінної (або навіть призводити до кращих прогнозів)?


Зауваження у вашому останньому абзаці, схоже, змішують умовний розподіл (на регресорах) зі значеннями у наборі даних. YYY
whuber

@whuber, дійсно. Я переписав цей абзац, сподіваюся, він має тепер більше сенсу. Спасибі.
Амеба каже, що відбудеться Моніка

Хм, правильно. Змішані по суті означають, що деякі точки є більш рівними, ніж інші, і саме цього ми хочемо, якщо ми хочемо зменшити вплив шуму та перешкод (що я ще не впевнений, чи найкращий інструмент для PCA).
gerrit

@gerrit Ви пишете так, ніби упередженість рівнозначна вазі, але це окремі речі. Упередження в цьому контексті означає будь-яку різницю між очікуваними значеннями оцінок коефіцієнта та їх справжніми значеннями.
whuber

1
Модель припускає, що відповіді є випадковими змінними. Це робить розрахункові коефіцієнти - використовуючи будь-яку процедуру - і випадковими змінними. Їх очікувані значення визначаються як для будь-якої випадкової величини. За визначенням зміщення - це різниця між очікуваною величиною та справжньою величиною. Оцінки коефіцієнта OLS мають зміщення до нуля. Упередженість якоїсь іншої процедури все-таки може бути нульовою. Логіка цитати полягає в тому, що процедура, яка є лінійною, як OLS, але нав'язує співвідношення між коефіцієнтами, обов'язково буде упередженою. Цей висновок вірний у багатьох випадках, але не у всіх.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.