Як найважливіші основні компоненти можуть утримати силу прогнозування залежної змінної (або навіть призвести до кращих прогнозів)?


25

Припустимо , що я біжу регресію YX . Чому, вибираючи компоненти k принципу X , модель зберігає свою прогнозовану потужність на Y ?

Я розумію , що з розмірністю-відновлювальних / функція відбору точки зору, якщо v1,v2,...vk - власні вектори матриці коваріації з верхніми власними значеннями, тоді Xv_1, Xv_2 ... Xv_k - верхні k головні компоненти з максимальними відхиленнями. Таким чином, ми можемо зменшити кількість функцій до k і зберегти більшу частину прогнозованої сили, наскільки я це розумію.XkXv1,Xv2...Xvkkk

Але чому компоненти k зберігають прогностичну потужність на Y ?

Якщо говорити про загальні Олах , немає ніяких підстав вважати , що якщо функція має максимальну дисперсію, то має самий прогностичну силу на .YZZiZiY

Оновлення після перегляду коментарів: Я думаю, я бачив багато прикладів використання PCA для зменшення розмірності. Я припускаю, що означає, що розміри, які нам залишилися, мають найбільш передбачувальну силу. Інакше в чому сенс зменшення розмірності?


3
Ви правильно: немає ніякого математичного підстави вважати , що вершина ПК з X має будь-яку передбачувану силу - так само , як немає ніякої математичної причини взагалі припустити , що будь-який набір регресорів X має ніякого відношення взагалі до цього Y . Здається, ви, мабуть, посилаєтесь на якесь із ваших зіткнень: саме про що йдеться і хто це сказав? KXXY
whuber

@whuber Я думаю, що я маю багато прикладів використання PCA для зменшення розмірів. Я припускаю, що означає, що розміри, які нам залишилися, мають найбільш передбачувані сили. Інакше це сенс зменшення розмірів?
Вендетта

Відповіді:


43

Дійсно, немає гарантії, що основні компоненти (ПК) мають більшу прогнозовану потужність, ніж низькодисперсні.

Приклади реального світу можна знайти там, де це не так, і легко побудувати штучний приклад, коли, наприклад, лише найменший ПК взагалі має відношення до .y

Цю тему багато обговорювали на нашому форумі, і за (нещасної) відсутності однієї явно канонічної нитки я можу навести лише декілька посилань, які разом дають різні реальні життєві ситуації, а також штучні приклади:

І та сама тема, але в контексті класифікації:


Однак, на практиці, верхні ПК часто ви часто мають більш передбачувану силу , ніж з низьким рівнем дисперсії з них, і , крім того, з використанням тільки кращі ПК можуть дати більш передбачувану силу , ніж при використанні всіх комп'ютерів.

У ситуаціях, що мають велику кількість предикторів та відносно мало точок даних n (наприклад, коли p n або навіть p > n ), звичайна регресія буде надмірною і потребує регуляризації. Регресія головних компонентів (ПЛР) може розглядатися як один із способів регуляризації регресії і, як правило, дає найкращі результати. Більше того, вона тісно пов'язана з регресією хребта, що є стандартним способом регуляризації усадки. Якщо використання регресії хребта зазвичай є кращою ідеєю, ПЛР часто поводиться досить добре. Див. Чому працює усадка? для загальної дискусії про відхилення відхилень відхилення та про те, як усадка може бути корисною.pnpnp>n

Певним чином можна сказати, що і регресія хребта, і ПЛР припускають, що більшість інформації про міститься у великих ПК X , і це припущення часто є обґрунтованим.yX

Дивіться більш пізню відповідь @cbeleites (+1) для деякої дискусії про те, чому це припущення часто є обґрунтованим (а також ця нова тема: Чи зменшення розмірності майже завжди корисне для класифікації? Для додаткових коментарів).

Хасті та ін. в Елементах статистичного навчання (розділ 3.4.1) коментує це в контексті регресії хребта:

[T] він малих сингулярних значень [...] відповідає напрямкам у просторі стовпців мають невелику дисперсію, і регресія хребта зменшує ці напрямки найбільше. [...] Регресія хребта захищає від потенційно великої дисперсії градієнтів, оцінених у коротких напрямках. Неявне припущення полягає в тому, що відповідь буде, як правило, сильно відрізнятися в напрямках сильної дисперсії вхідних даних. Це часто є обґрунтованим припущенням, оскільки передбачувачі часто вибираються для дослідження, оскільки вони різняться залежно від змінної відповіді, але взагалі не потребують.X

Деталі див. У моїх відповідях у наступних темах:


Нижня лінія

Для проблем з великими розмірами попередня обробка за допомогою PCA (маючи на увазі зменшення розмірності та збереження лише верхніх ПК) може розглядатися як один із способів регуляризації та часто покращує результати будь-якого подальшого аналізу, будь то регресія чи метод класифікації. Але немає гарантії, що це спрацює, і часто є кращі підходи до регуляризації.


Дякуємо, що зібрали посилання у своїй відповіді. Ось ще один останній. Є відповідь з подальшими посиланнями.
ttnphns

Дякую, @ttnphns! Я не бачив цієї публікації, оскільки в ній не було тегу [pca] (я уважно стежу лише за декількома тегами). Насправді, я дуже незадоволений тим, що є вільна колекція з 5-10 тісно пов’язаних тем, без жодних питань і жодної відповіді. Я вважаю за краще мати одну канонічну нитку, яка могла б бути використана для подальших посилань ...
Амеба каже Відновити Моніку

Я додав тег до цього питання. "Ідеальна" енциклодедична відповідь на цю цікаву тему чекає на її автора. :-) Ви можете вирішити стати таким.
ttnphns

Також актуально: відповідь onestop
kjetil b halvorsen

11

Окрім відповідей, які вже зосереджені на математичних властивостях, я хотів би прокоментувати з експериментальної точки зору.

Короткий зміст: Процеси генерації даних часто оптимізуються таким чином, щоб зробити дані придатними для регресії основного компонента (ПЛР) або часткового найменшого квадрату (PLS).


Я хімік-аналітик. Коли я розробляю експеримент / метод для вимірювання (регресії чи класифікації) чогось, я використовую свої знання щодо застосування та доступних інструментів, щоб отримати дані, які мають хороше співвідношення сигнал / шум стосовно даного завдання. Це означає, що дані, які я генерую, покликані мати велику коваріацію зі властивістю, що цікавить.
Це призводить до дисперсійної структури, де цікава дисперсія велика, а більш пізні ПК будуть носити лише (малий) шум.

Я також віддаю перевагу методам, які дають зайву інформацію про завдання, щоб отримати більш надійні або точні результати. PCA концентрує надлишкові канали вимірювання в одному ПК, який потім несе велику дисперсію і тому є одним з перших ПК.

Якщо є відомі плутанини, які призведуть до великої дисперсії, яка не співвідноситься із властивістю, що цікавить, я зазвичай намагаюся виправити їх якомога більше під час попередньої обробки даних: у багатьох випадках ці конфузери відомі фізичної чи хімічної природи, і ці знання підказують відповідні способи виправлення для плутанини. Наприклад, я вимірюю спектри Рамана під мікроскопом. Їх інтенсивність залежить від інтенсивності лазерного світла, а також від того, наскільки добре я можу фокусувати мікроскоп. Обидва призводять до змін, які можна виправити, нормалізуючи, наприклад, сигнал, який, як відомо, є постійним.
Таким чином, великі учасники дисперсії, які не сприяють вирішенню, можуть бути усунені до введення даних у ПКС, залишаючи в основному значущі дисперсії на перших ПК.


І останнє, але не менш важливе, тут є трохи самореалізуючого пророцтва: Очевидно, що ПЛР робиться з даними, де припущення про величину дисперсії інформації має велике значення. Якщо, наприклад, я думаю, що можуть виникнути важливі плутанини, які я не знаю, як виправити, я б негайно пішов на PLS, що краще ігнорувати великі внески, які не допомагають із завданням прогнозування.


+1. Це відмінне доповнення, дякую за приєднання до дискусії.
Амеба каже: Відновити Моніку

@amoeba: дякую за добрі слова. Як завжди, і ваша відповідь дуже ґрунтовна. Я насправді покладаюся на вас, піклуючись про [pca]!
cbeleites підтримує Моніку

6

PCA іноді використовується для виправлення проблем, викликаних колінеарними змінними, так що більшість варіацій у просторі X охоплюється основними компонентами K.

Але ця математична проблема, звичайно, не те саме, що фіксувати більшість варіацій як у X, Y просторі таким чином, що незрозумілі зміни є якомога меншими.

Часткові найменші квадрати намагаються зробити це в останньому сенсі:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

Як вказували інші, між верхніми k власними векторами та силою прогнозування немає прямого зв’язку. Вибираючи верх і використовуючи їх за основу, ви зберігаєте деяку верхню енергію (або дисперсію вздовж цієї осі).

Можливо, осі, що пояснюють найбільшу дисперсію, насправді корисні для прогнозування, але загалом це не так.


Коли ви говорите "взагалі", ви маєте на увазі загалом на практиці чи взагалі теоретично?
Амеба каже, що повернеться до Моніки

@amoeba Загалом тому, що легко створити набір даних, коли проектування даних на верхню вісь максимальної дисперсії не є прогнозним / дискримінаційним.
Владислав Довгалець

-1

Дозвольте запропонувати одне просте пояснення.

PCA означає інтуїтивне видалення певних функцій. Це зменшує шанси на перевищення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.