PCA і пропорція дисперсії пояснюється


90

Загалом, що мається на увазі під тим, що частка дисперсії в аналізі на зразок PCA пояснюється першою основною складовою? Чи може хтось пояснити це інтуїтивно, але також дати точне математичне визначення того, що означає "роз’яснення дисперсії" з точки зору аналізу основних компонентів (PCA)?x

Для простої лінійної регресії r-квадрат найкращої підходящої лінії завжди описується як пропорція поясненої дисперсії, але я не впевнений, що з цього зробити. Чи пропорція відхилення тут є лише розширенням відхилення балів від найкращої лінії підгонки?


Відповіді:


103

У випадку PCA "дисперсія" означає сумарну дисперсію або багатоваріантну мінливість або загальну мінливість або загальну мінливість . Нижче наведена коваріаційна матриця деяких 3 змінних. Їх відхилення знаходяться по діагоналі, а сума 3 значень (3.448) - загальна мінливість.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Тепер PCA замінює оригінальні змінні новими змінними, які називаються основними компонентами, які є ортогональними (тобто вони мають нульові коваріації) і мають відхилення (звані власні значення) у порядку зменшення. Отже, матриця коваріації між основними компонентами, витягнутими з вищезазначених даних, така:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Зауважимо, що діагональна сума все ще становить 3,448, що говорить про те, що всі 3 компоненти припадають на всю багатовимірну мінливість. Перший головний компонент становить або "пояснює" 1,665 / 3,448 = 47,9% від загальної мінливості; другий пояснює 1,220 / 3,448 = 35,4%; 3-й пояснює .577 / 3.448 = 16.7%.

Отже, що вони означають, коли кажуть, що " PCA максимізує дисперсію " чи " PCA пояснює максимальну дисперсію "? Це, звичайно, не те, що він знаходить найбільшу дисперсію серед трьох значень 1.343730519 .619205620 1.485549631, ні. PCA знаходить у просторі даних розмірність (напрямок) з найбільшою дисперсією від загальної дисперсії 1.343730519+.619205620+1.485549631 = 3.448. Ця найбільша дисперсія була б 1.651354285. Потім він знаходить розмір другої за величиною дисперсії, ортогональної першої, із решти 3.448-1.651354285загальної дисперсії. Цей другий вимір буде 1.220288343дисперсією. І так далі. Останній розмір, що залишився - це .576843142дисперсія. Дивіться також "Pt3" тут і чудову відповідь тут пояснюючи, як це робилося більш детально.

Математично PCA виконується за допомогою лінійних функцій алгебри, званих власним розкладанням або svd-розкладанням. Ці функції одразу повернуть вам усі власні значення 1.651354285 1.220288343 .576843142(та відповідні власні вектори) ( див. , Див. ).


1
Що ви маєте на увазі під собою: "Зауважте, що діагональна сума все ще становить 3,448, що говорить про те, що всі 3 компоненти припадають на всю багатоваріантну мінливість", і яка різниця між вашим методом та PoV (Пропорція варіації)?
камачі

2
Я не пропоную жодного "методу". Я щойно пояснив, що всі ПК мають таку ж загальну кількість змінності, що і оригінальні змінні.
ttnphns

Ви можете перевірити моє запитання: stats.stackexchange.com/questions/44464/…
kamaci

Вибачте :-( Я зараз не можу. Занадто багато коментарів для налаштування.
ttnphns

1
якщо ви просто прочитали питання, цього достатньо. У коментарях нічого немає.
камачі

11

@ttnphns дав хорошу відповідь, можливо, я можу додати кілька пунктів. По-перше, я хочу зазначити, що у CV було відповідне запитання із дійсно сильною відповіддю - ви, безумовно, хочете це перевірити. У подальшому я торкнуся сюжетів, показаних у цій відповіді.

Усі три сюжети відображають однакові дані. Зауважте, що у даних є мінливість як по вертикалі, так і по горизонталі, але ми можемо вважати більшість змінних насправді діагональними . У третьому сюжеті ця довга чорна діагональна лінія є першим власним вектором (або першим основним компонентом), а довжина цього основного компонента (поширення даних по цій лінії - насправді не довжина самої лінії, яка просто намальовано на сюжеті) - це перше власне значення- це кількість дисперсії, що припадає на перший компонент принципу. Якби ви підсумували цю довжину з довжиною другого основного компонента (який є шириною поширення даних, ортогонально виходячи з цієї діагональної лінії), а потім розділили будь-яке з власних значень на цю загальну суму, ви отримаєте відсоток дисперсії, що враховується відповідною принциповою складовою.

З іншого боку, щоб зрозуміти відсоток дисперсії, що припадає на регресію, можна переглянути верхній сюжет. У цьому випадку червона лінія є регресійною лінією або набором прогнозованих значень з моделі. Пояснювану дисперсію можна розуміти як відношення вертикального поширення лінії регресії (тобто від найнижчої точки на лінії до найвищої точки на лінії) до вертикального поширення даних (тобто від найнижчої точки даних до найвищої точки даних). Звичайно, це лише вільна ідея, адже це буквально діапазони, а не відхилення, але це повинно допомогти вам зрозуміти.

Обов’язково прочитайте питання. І хоча я посилався на головну відповідь, кілька наведених відповідей є відмінними. Варто свого часу прочитати їх усі.


3

На оригінальне запитання є дуже проста, пряма і точна математична відповідь.

Перший ПК - це лінійна комбінація вихідних змінних , , , яка максимально збільшує загальну статистику при прогнозуванні вихідних змінних як функції регресії лінійної комбінації.Y1Y2YpRi2

Саме коефіцієнти , , , у першому ПК, , дають максимальне значення , де максимум береться за всі можливі лінійні комбінації.a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

У цьому сенсі ви можете інтерпретувати перший ПК як максимізатор "поясненої дисперсії", а точніше, максимізатора "пояснюється загальна дисперсія".

Це "максимальний", а не "максимальний", тому що будь-які пропорційні коефіцієнти , для дадуть однаковий максимум. Приємним побічним продуктом цього результату є те, що обмеження довжини одиниці є непотрібним, окрім як пристрій для створення "а" максимізатора.bi=c×aic0

Посилання на оригінальну літературу та розширення див

Westfall, PH, Arias, AL та Fulton, LV (2017). Навчання основних компонентів з використанням кореляцій, багатовимірне поведінкове дослідження, 52, 648-660.


0

Подумайте про , як випадкова величина бути пояснені два нових випадкових величин і . чому ми це робимо? Можливо, складний, але і менш складні. У всякому разі, частина дисперсії пояснюється тими з і . . Застосування цього до лінійної регресії просте. Подумайте, що є а - , тоді . Частка дисперсії уY=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY b 0 + b 1 XY=b0+b1X+eYпояснюється лінією регресії, .b0+b1X

Ми використовуємо «частку дисперсії» термін , тому що ми хочемо , щоб кількісно оцінити , наскільки лінія регресії корисна для прогнозування (або модель) .Y


Ви повинні перевірити свою формулу на відмінність Y: це неправильно. Що ще важливіше, спроба пояснення регресії не характеризує правильно PCA, ані способи, коли люди думають про це та використовують його.
whuber

1
Ty, виправлена ​​помилка у формулі. Моя відповідь стосується другої частини запитання щодо частки дисперсії, поясненої лінією регресії.
Молодий
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.