Розуміння цього сюжету PCA щодо продажу морозива проти температури


9

Я беру фіктивні дані про температуру проти продажів морозива і класифікую їх за допомогою K Means (n ​​кластерів = 2), щоб виділити 2 категорії (повністю манекени).

Зараз я роблю аналіз основних компонентів за цими даними, і моя мета - зрозуміти, що я бачу. Я знаю, що мета PCA - зменшити розмірність (очевидно, не в цьому випадку) і показати дисперсію елементів. Але як ви читаєте сюжет PCA нижче, тобто яка історія ви можете розповісти про температуру проти морозива в сюжеті PCA? Що означають ПК (X) та 2 (Y)?

введіть тут опис зображення


1
Це має бути коментар, але у мене недостатньо представників. Посилання нижче - чудовий підручник з PCA. Зокрема, Іграшковий приклад забезпечує хороший баланс між "досить простим, щоб зрозуміти одну картину", і "достатньо складною, щоб її можна було використати як аналогію в майбутніх проблемах". Я думаю, що читання може допомогти з’ясувати, що PCA може, а що не може зробити для вас. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

Відповіді:


18

Я знаю, що мета PCA - зменшити розмірність

Люди часто це припускають, але насправді PCA - це лише представлення ваших даних на ортогональній основі. Ця основа все ще має ту саму розмірність, що і ваші вихідні дані. Нічого не втрачено ... ще. Частина зменшення розмірності повністю залежить від вас. Те, що PCA забезпечує, - це те, що верхні розміри вашої нової проекції є найкращими розмірами, якими можуть бути представлені ваші дані. Що найкраще означає? Ось тут і пояснюється дисперсія.k k

очевидно, не в цьому випадку

Я б не був так впевнений у цьому! З вашого другого сюжету візуально виглядає так, що багато інформації з ваших даних можна спроектувати на горизонтальну лінію. Це 1 вимір, а не оригінальний сюжет, який був у двох вимірах! Очевидно, що ви втрачаєте деяку інформацію, оскільки ви видаляєте вісь Y, але чи прийнятна ця втрата інформації, це ваш дзвінок.

Є багато питань, що стосуються того, що PCA є на сайті, тому я рекомендую вам перевірити їх тут , тут , тут або тут . Якщо у вас є інші запитання після цього, будь ласка, опублікуйте їх, і я з радістю допоможу.

Як власне питання:

яку історію ви можете розповісти про температуру проти морозива в сюжеті PCA?

Оскільки нові координатні осі є лінійною комбінацією вихідних координат, то ... в основному нічого! PCA дасть вам відповідь на кшталт (складені числа):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

Це вам корисно? Можливо. Але я б не здогадався :)

Відредаговано

Я додам цей ресурс, який, на мою думку, є корисним, оскільки інтерактивні діаграми є класними.

Знову відредаговано

Щоб уточнити, що найкраще означаєk

PCA намагається знайти розміри, які дають найбільшу дисперсію, коли дані проектуються на них. Якщо припустити, що ваші дані мають розміри, перші ПК пояснюють більшу дисперсію ваших даних, ніж будь-які інші розміри. Ось що я маю на увазі під найкращим . Незалежно від того, чи це вам корисно, чи ні.n>kkk k


6
Також обов'язково масштабуйте змінні. Інакше продажі (набагато вищі цифри) пояснять більшість дисперсій. Можливо, чому одиниці у ваших ПК так різні.
Філіпе

Хороша відповідь, але ваше твердження "... найкращі розміри kk, які ваші дані могли бути представлені як ...", можливо, занадто узагальнене. Напрям максимальної дисперсії не обов'язково корисний для розділення двох класів. Так чи інакше, це добре працює, але не тому, що PCA робить все, щоб зробити найкращий вибір для певної мети.
Вейн

"насправді PCA - це лише представлення ваших даних на ортогональній основі." Мене постійно дивує той факт, що багато людей не розуміють цього моменту ...
3x89g2

5

До гарної відповіді людини Ілана я додам, що існує досить відверта інтерпретація ваших основних компонентів, хоча в цьому простому двовимірному випадку це не додає багато того, що ми могли б інтерпретувати, дивлячись на розсіювач.

Перший ПК - це зважена сума (тобто лінійна комбінація, де обидва коефіцієнти є позитивними) температури та споживання морозива. У правій частині у вас спекотні дні, де продається багато морозива, а в лівій - холодніші дні, де продається менше морозива. Цей ПК пояснює більшість вашої дисперсії та групи, які ви отримали, відповідають цим двом сторонам.

Другий ПК вимірює, як температура та споживання морозива відходить від тісного лінійного відношення, підкресленого першим ПК. У верхній частині графіка є дні, де продається більше морозива порівняно з іншими днями тієї ж температури, а в нижній - дні, де продається менше морозива, ніж очікувалося відповідно до температури. Цей ПК пояснює лише невелику частину дисперсії.

Тобто ми можемо розповісти історію з основних компонентів, хоча з двома змінними це та сама історія, яку ми могли б помітити і без PCA. З більшою кількістю змінних PCA стає кориснішою, оскільки розповідає історії, які важче було б помітити інакше.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.