Як я можу сказати, що в результатах PCA немає візерунка?


9

У мене є більш ніж 1000 зразків набору даних із 19 змінних. Моя мета - передбачити бінарну змінну на основі інших 18 змінних (бінарних та безперервних). Я впевнений, що 6 змінних прогнозування пов'язані з двійковою відповіддю, однак я хотів би додатково проаналізувати набір даних та шукати інші асоціації чи структури, які мені можуть бути відсутні. Для цього я вирішив використовувати PCA та кластеризацію.

При запуску PCA за нормалізованими даними виявляється, що потрібно зберегти 11 компонентів, щоб зберегти 85% дисперсії. введіть тут опис зображення Створюючи парні пристрої, я отримую наступне: введіть тут опис зображення

Я не впевнений, що далі ... Я не бачу суттєвої картини в pca, і мені цікаво, що це означає, і якщо це могло бути викликано тим, що деякі змінні є двійковими. Запустивши алгоритм кластеризації з 6 кластерами, я отримую такий результат, який не є вдосконаленням, хоча деякі краплі, схоже, виділяються (жовті). введіть тут опис зображення

Як ви, напевно, можете сказати, я не фахівець з PCA, але побачив деякі підручники і як це може бути потужним для того, щоб отримати уявлення про структури у високомірному просторі. З відомим набором даних MNIST (або IRIS) він чудово працює. Моє запитання: що мені робити зараз, щоб мати більше сенсу від PCA? Кластеризація, схоже, не набирає нічого корисного, як я можу сказати, що в PCA немає шаблону чи що слід спробувати далі, щоб знайти шаблони в даних PCA?


Чому ви робите PCA для того, щоб знайти прогнозів? Чому б не застосувати якийсь інший метод? наприклад, ви можете включити їх усіх у логістичний рег, ви можете використовувати LASSO, ви можете побудувати модель дерева, там мішковину, підсилення тощо.
Пітер Флом

Що конкретно ви маєте на увазі під «шаблоном», який PCA добре розкрити?
ttnphns

@ttnphns те, що я намагаюся зробити, - це знайти підгрупу спостережень, які можуть мати щось спільне, щоб краще пояснити результат бінарної відповіді, яку я намагаюся передбачити (це частково надихнулося побутовими аналізами.ca/2014/ 06 /… ). Крім того, використовуючи pca та кластеризацію в наборі даних райдужної оболонки, корисно виділити види ( scikit-learn.org/stable/auto_examples/decomposition/… ), хоча це дуже просто, оскільки ми вже знаємо кількість кластерів.
mickkk

@PeterFlom Я вже керував логістичною регресією та випадковою лісовою моделлю, і вони працюють пристойно, проте я хотів би далі вивчити дані.
mickkk

Відповіді:


7

Ви пояснили сюжет варіації говорить мені, що PCA тут безглуздо. 11/18 - це 61%, тому для пояснення 85% дисперсії вам потрібно 61% змінних. На мою думку, це не стосується PCA. Я використовую PCA, коли 3-5 коефіцієнтів 18 пояснюють відхилення 95% або більше.

ОНОВЛЕННЯ: Подивіться на графік кумулятивного відсотка дисперсії, поясненої кількістю ПК. Це випливає з поля моделювання структури процентної ставки. Ви бачите, як 3 компоненти пояснюють понад 99% загальної дисперсії. Це може виглядати як складений приклад для реклами на ПКС :) Однак це справжня річ. Тенори відсоткової ставки настільки співвіднесені, тому PCA є дуже природним у цій програмі. Замість того, щоб мати справу з декількома десятками тенорів, ви маєте справу лише з 3 компонентами.

введіть тут опис зображення


Це я в першу чергу підозрював. Я не вказував на це безпосередньо, тому що не знаю стільки про PCA, щоб зробити таке сміливе твердження. Чи можна впевнено сказати, що коли потрібно більше x% компонентів, PCA не дуже допоможе? Я маю на увазі, що в прикладах застосування, які я бачив, зазвичай мало компонентів пояснює найбільшу дисперсію.
mickkk

@mickkk, немає твердого правила. Для мене вказівка ​​- це опуклість, пояснена дисперсією графіка. Якщо ви намалюєте це як сукупний відсоток від загальної дисперсії, поясненої кількістю ПК, то ви хочете побачити дуже увігнутий графік. Ви б були близькі до лінійних: схоже, що кожен компонент несе приблизно однакову інформацію про дані, у цьому випадку навіщо взагалі використовувати PCA замість вихідних даних?
Аксакал

Правка з новим прикладом була дуже корисною.
mickkk

5

Якщо у вас є N>1000 зразки і тільки p=19прогнози, було б цілком розумно просто використовувати всі предиктори в моделі. У цьому випадку крок PCA може виявитися непотрібним.

Якщо ви впевнені, що лише підмножина змінних дійсно пояснює, використовуючи розріджену регресійну модель, наприклад, Elastic Net, може допомогти вам встановити це.

Крім того, інтерпретація результатів PCA за допомогою входів змішаного типу (двійкові проти реальних, різних масштабів тощо, див. Тут питання CV ) не є настільки простим, і ви можете уникнути цього, якщо немає чіткої причини для цього.


4

Я буду тлумачити ваше запитання якомога коротше. Повідомте мене, якщо це змінює ваше значення.

Я впевнений, що 6 змінних прогнозування пов'язані з бінарною відповіддю [але] я не бачу значущої картини в pca

Я не бачу жодної "значущої структури", окрім консистенції у ваших парних блоках. Всі вони просто грубо круглі краплі. Мені цікаво, що ви очікували побачити. Чітко відокремте точкові кластери деяких парних блоків? Кілька сюжетів, дуже близьких до лінійних?

Ваші результати PCA - парні блокоподібні пристрої та лише 85% дисперсії, захоплені в головних 11 основних компонентах - не виключають того, що ваша думка про 6 змінних буде достатньою для прогнозування двійкового відповіді.

Уявіть собі такі ситуації:

  1. Скажімо, ваші результати PCA показують, що 99% дисперсії займає 6 основних компонентів.

    Це може здатися підтримкою вашого уявлення про 6 змінних предиктора - можливо, ви могли б визначити площину чи якусь іншу поверхню в тому 6-мірному просторі, який дуже добре класифікує точки, і ви могли б використовувати цю поверхню як бінарний предиктор. Що приводить мене до числа 2 ...

  2. Скажімо, у ваших головних 6 основних компонентів є парні пристрої, схожі на це

    "Візерунок" в парних блоках.

    Але давайте кольоровим кодом довільну двійкову відповідь

    «Візерунок» марний.

    Незважаючи на те, що вам вдалося зафіксувати майже всю (99%) дисперсії в 6 змінних, ви все одно не гарантуєте просторового поділу для прогнозування вашої бінарної реакції.

Насправді вам може знадобитися кілька числових порогових значень (які можуть бути зображені як поверхні в цьому 6-мірному просторі), і приналежність точки до вашої бінарної класифікації може залежати від складного умовного вираження, складеного залежністю цієї точки до кожного з цих порогів. Але це лише приклад того, як можна було передбачити бінарний клас. Існує маса структур даних та методів представлення, навчання та прогнозування. Це тизер. Цитувати,

Часто найважчою частиною вирішення проблеми машинного навчання може бути пошук правильного оцінювача для роботи.


1
Смайлик насправді добре, тому що це корельовані! Мені це сподобалося.
амеба

@amoeba, ти можеш мати посміхнене обличчя від некорельованих ПК?
Аксакал

@Aksakal, так, сюжет смайлів розсипається, як мені здається, нульовою кореляцією. Кдбанман, я ціную оновлення, +1.
амеба

@amoeba, добре, ви маєте на увазі лінійну кореляцію.
Аксакал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.