Що розуміється під PCA збереженням лише великих парних відстаней?


10

Зараз я читаю техніку візуалізації t-SNE, і було зазначено, що одним із недоліків використання аналізу основних компонентів (PCA) для візуалізації високомірних даних є те, що він зберігає лише великі парні відстані між точками. Значущі точки, які знаходяться далеко в просторі великого розміру, також з'являтимуться далеко в низькомірному підпросторі, окрім того, що всі інші парні відстані будуть викручені.

Може хтось допоможе мені зрозуміти, чому це так і що це означає графічно?


PCA тісно пов'язаний з евклідовими та махаланобісськими відстанями, які короткозорі у великих розмірах, вони не бачать невеликих відстаней.
Аксакал

Зауважимо також, що PCA, розглядається як найпростіший метричний MDS, стосується реконструкції підсумованих евклідових відстаней у квадраті . Почуття, точність на невеликі відстані страждає.
ttnphns

Відповіді:


8

Розглянемо наступний набір даних:

Набір даних PCA

Вісь PC1 - це максимізація дисперсії проекції. Тож у цьому випадку він очевидно буде проходити по діагоналі від нижнього лівого до верхнього правого кута:

PCA, зберігаючи лише великі попарні відстані

Найбільше парне відстань у вихідному наборі даних знаходиться між цими двома вихідними точками; зауважте, що він майже точно зберігається в PC1. Менші, але все ж значні попарні відстані між кожною від зовнішньої точки та всіма іншими точками; вони також збереглися досить добре. Але якщо поглянути на ще менші парні відстані між точками в центральному кластері, то побачите, що деякі з них сильно спотворені.

Я думаю, що це дає правильну інтуїцію: PCA знаходить низькомірний підпростір з максимальною дисперсією. Максимальна дисперсія означає, що підпростір буде, як правило, вирівняний таким чином, щоб наближатися до точок, що лежать далеко від центру; тому найбільші парні відстані, як правило, добре зберігаються, а менші - менше.

1010×1010×10насправді найкраще зберігається саме PC1 (див. мою відповідь там для доказу). І можна стверджувати, що великі попарні відстані зазвичай означають і великі скалярні продукти; насправді, один із алгоритмів MDS (класичний / Torgerson MDS) готовий прямо зробити це припущення.

Отже, підсумовуючи:

  1. PCA має на меті збереження матриці парних скалярних продуктів, в тому сенсі, що сума квадратних різниць між оригінальними та реконструйованими скалярними продуктами повинна бути мінімальною.
  2. Це означає, що він скоріше збереже скалярні продукти з найбільшою абсолютною величиною і менше піклуватиметься про тих, хто має мале абсолютне значення, оскільки вони додають менше до суми помилок у квадраті.
  3. Отже, PCA зберігає великі скалярні продукти краще, ніж менші.
  4. Парні відстані будуть збережені лише стільки, скільки вони схожі на скалярні продукти, що часто, але не завжди буває так. Якщо це так, то великі попарні відстані також будуть збережені краще, ніж менші.

Я не думаю, що це вірна візуальність. Це не показує, як все погіршується зі збільшенням розмірності
Аксакал

2
Я не впевнений, що розумію вашу думку, @Aksakal. Розгляньте можливість опублікувати альтернативну відповідь зі своєї точки зору. Я думаю, що ефект кращого збереження більших, ніж менших парних відстаней є вже в 2D, і не потрібно думати про високу розмірність, щоб зрозуміти, що відбувається. Отже, я зосередився на простому двовимірному прикладі.
амеба

Те, що ви намалювали, було б застосовно до будь-якого методу. Я можу поставити пару пунктів дуже далеко і стверджувати, що вони переважують решту. Проблема відстаней Евкліда полягає в тому, що їх динамічний діапазон скорочується зі збільшенням розмірності
Аксакал

+1, але я зміщу акцент, дещо інакше, ніж ви (здебільшого пункт 4). Справа не в тому, що це відстані, а це скалярні продукти (матриця "подвійної центрації") - зрештою, за діагоналі вони зберігають однакову інформацію. Скоріше, проблема точно аналогічна шансам аналізу PCA vs Factor. PCoA Torgerson, як PCA, буде спрямований на максимальну реконструкцію sc. прод. матриця здебільшого через її діагональ, не контролюючи конкретно, як будуть встановлені позадіагональні записи.
ttnphns

(продовження.) Слідом згаданої діагоналі є загальна мінливість і безпосередньо пов'язана з сумою всіх парних відстаней у квадраті, залишаючи позаду окремі відстані. Це можна сформулювати також з точки зору теореми Еккарта-Янга, яка стверджує, що реконструйована PCA хмара даних найбільш близька за сумою квадратів до вихідної; тобто загальна відстань у квадраті між старими точками та їх проектованими PCA плямами мінімальна. Це не те саме, що старі попарні відстані - нові співвідношення відстаней на відстані pw.
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.