Вибір моделі PCA за допомогою AIC (або BIC)

12

Я хочу використати інформаційний критерій Akaike (AIC), щоб вибрати відповідну кількість факторів для вилучення в PCA. Єдине питання полягає в тому, що я не впевнений, як визначити кількість параметрів.

Розглянемо матрицю , де представляє кількість змінних, а кількість спостережень, таких що . Оскільки матриця коваріації симетрична, то при максимальній оцінці ймовірності можна встановити кількість параметрів у АПК рівним . $T\times N$ $X$ $N$ $T$ $X\sim \mathcal N\left(0,\Sigma\right)$ $\Sigma$ $\frac{N\left(N+1\right)}{2}$

Крім того, в PCA ви можете витягнути перші власних векторів та власних значень , назвати їх та а потім обчислити де - середня залишкова дисперсія. За моїм підрахунком, якщо у вас є факторів, ви б параметри в , параметри в , і параметр в . $f$ $\Sigma$ $\beta_{f}$ $\Lambda_{f}$

Σ = β_{f} Λ_{f} β_{f}^{'} + I σ_{r}^{2}

$\Sigma=\beta_{f}\Lambda_{f}\beta_{f}'+I\sigma_{r}^{2}$

σ_{r}^{2}

$\sigma_{r}^{2}$

f

$f$

f

$f$

Λ_{f}

$\Lambda_{f}$

N f

$Nf$

β_{f}

$\beta_{f}$

1

$1$

σ_{r}^{2}

$\sigma_{r}^{2}$

Чи правильний такий підхід? Схоже , що це призведе до більшого кількості параметрів , ніж максимальної правдоподібності підходу , оскільки число чинників зростає до . $N$

pca model-selection

— Джон
джерело

1

N f

$N f$ перевищує параметри: відбувається надмірність через те, що власні вектори взаємно ортогональні.

— whuber

10

Перший власний вектор має вільних параметрів. Умова ортогональності обмежує другий власний вектор до ортогонального гіперпростору першого, потребуючи лише параметрів . Кожному наступному власному вектору потрібен один менший параметр, ніж попередній. На межі власних векторів ви відкидаєте (тому що тепер це нуль), даючи = параметри в тото, відповідно до першого параметра рахувати.

N

$N$

N - 1

$N-1$

N

$N$

σ_{r}^{2}

$\sigma_r^2$

N + (N - 1) + \dots + 1

$N+(N-1)+\cdots+1$

N (N + 1) / 2

$N(N+1)/2$

— whuber

1

@ A.Donda Ситуація розпливчаста: припустимо, ви також вказали кратність кожного власного значення і ці підсумовуючи Дозволяючи, що PCA знаходить ортогональну трансформацію, ми мали б параметрів для його визначення. Але стабілізатори кожного власного простору є ортогональними групами розмірамиКожен таким чином виключає параметри , залишаючи параметри для обертання. В власні поставити інші параметри.

n_{1}, n_{2}, \dots, n_{s},

$n_1, n_2, \ldots, n_s,$

N .

$N.$

N (N - 1) / 2

$N(N-1)/2$

n_{i} .

$n_i.$

n_{i} (n_{i} - 1) / 2

$n_i(n_i-1)/2$

N (N - 1) / 2 - \sum_{i = 1}^{s} n_{i} (n_{i} - 1) / 2

$N(N-1)/2 - \sum_{i=1}^s n_i(n_i-1)/2$

s

$s$

— качан

1

(Додам, що застосування цього підрахунку до питання сумнівне: PCA використовує всі параметри , навіть якщо це може трапитися, щоб знайти деякі власні значення більшої кратності. І майже в будь-якому реальному наборі даних, вона все одно ніколи не отримає кратність, що перевищує )

N (N - 1) / 2

$N(N-1)/2$

1

$1$

— whuber

1

@whuber, дякую! Моє запитання мотивоване ситуацією, коли я оцінюю коваріаційну матрицю під обмеженням власних значень.

— А.Донда

5

Роботи Minka ( Автоматичний вибір розмірності для PCA , 2000) та Tipping & Bishop ( Імовірнісний аналіз головного компонента ) щодо імовірнісного виду PCA можуть забезпечити вам цікаву основу. Робота Minka забезпечує наближення рівня журналу- ймовірність де - прихована розмірність вашого набору даних за допомогою наближення Лапласа; як прямо сказано: " Спрощення методу Лапласа є наближенням BIC. " $\mathrm{log}\: p(D|k)$ $k$ $D$

Зрозуміло, що це сприймає байєсівську точку зору на вашу проблему, яка не ґрунтується на критеріях теорії інформації (KL-дивергенція), використовуваних AIC.

Щодо початкового питання "визначення числа параметрів" я також думаю, що коментар @ whuber несе правильну інтуїцію.

— usεr11852
джерело

Я грав із AIC проти AICc на випадкових матрицях різної величини. AICc, здавалося, працює краще. Ці посилання виглядають добре, але я ще не мав шансу переварити.

— Джон

6

Вибір "відповідної" кількості компонентів в PCA може бути виконаний елегантно за допомогою Паралельного аналізу (РА) Горна. Дослідження показують, що цей критерій послідовно перевершує такі великі правила, як критерій ліктя або правило Кайзера. Пакет R "paran" має реалізацію ПА, що вимагає лише декількох клацань миші.

Звичайно, скільки компонентів ви збережете, залежить від цілей скорочення даних. Якщо ви хочете лише зберегти дисперсію, яка є "значущою", ПА забезпечить оптимальне зменшення. Якщо ви хочете звести до мінімуму втрату інформації на вихідні дані, вам слід зберегти достатню кількість компонентів для покриття 95% поясненої дисперсії. Це, очевидно, збереже набагато більше компонентів, ніж ПА, хоча для високомірних наборів даних зменшення розмірності все ще буде значним.

Останнє зауваження про PCA як проблему "вибору моделі". Я не повністю згоден з відповіддю Петра. Існує ряд робіт, які переформулювали PCA як проблему типу регресії, такі як Sparse PCA, Sparse Probabilistic PCA або ScotLASS. У цих рішеннях PCA, заснованих на моделі, навантаження - це параметри, які можна встановити на 0 при відповідних термінах штрафу. Імовірно, в цьому контексті можна було б також розрахувати статистику типу AIC або BIC для розглянутої моделі.

Цей підхід теоретично міг би включати модель, де, наприклад, два ПК є необмеженими (усі завантаження не нульові), порівняно з моделлю, де PC1 необмежений і PC2 має всі завантаження, встановлені 0. Це було б еквівалентно висновку про те, чи є PC2 зайвим в цілому.

Список літератури :

Дінно, А. (2012). paran: Тест Горна на основні компоненти / фактори. Версія пакета R 1.5.1. http://CRAN.R-project.org/package=paran
Horn JL 1965 р. Обґрунтування та тест на кількість факторів факторного аналізу. Психометрія . 30: 179–185
Hubbard, R. & Allen SJ (1987). Емпіричне порівняння альтернативних методів вилучення основних компонентів. Журнал бізнес-досліджень, 15 , 173-190.
Zwick, WR & Velicer, WF 1986. Порівняння п’яти правил для визначення кількості компонентів, які потрібно зберегти. Психологічний вісник. 99 : 432–442

— Бен М.
джерело

Ласкаво просимо на сайт, @BenM. З вашої відповіді, я думаю, що буде непогано познайомитись із вами (хоча я не знаю достатньо про PCA за межами основ, щоб оцінити ваші претензії). Одне запитання, ви зазначаєте, що ці позиції були чітко встановлені, чи могли б ви перерахувати пару репрезентативних публікацій, де зацікавлений читач міг знайти більш детальну інформацію?

— gung - Відновіть Моніку

-1

AIC призначений для вибору моделі. Це насправді не проблема вибору моделі, і, можливо, вам буде краще використовувати інший підхід. Альтернативою може бути вказати певний загальний відсоток роз’ясненої дисперсії (наприклад, 75%) і зупинити, коли відсоток досягне 75%, якщо він коли-небудь буде.

— Майкл Р. Черник
джерело

1

Я вибираю між різними моделями на основі кількості факторів (модель з 1 коефіцієнтом проти моделі з 2 тощо). Проблема з відсотком дисперсії головним чином полягає в тому, що він ігнорує витрати на оцінку додаткових власних векторів, особливо коли кількість спостережень менша за кількість змінних. AIC добре поєднується з імовірнісним підходом PCA.

— Джон

3

Майкл, ти міг би пояснити, чому це не проблема вибору моделі? Схоже, Джон чітко сформулював це як єдине.

— whuber

@whuber Що таке статистична модель? Мені здається, що визначати кількість головного компонента, який використовується для представлення x% дисперсії у змінній Y, це не вибір моделі. Я не вважав би основні компоненти як параметри моделі.

— Майкл Р. Черник

2

Розглянемо 2D вектори проведені iid від . Ми можемо параметризувати через дві дисперсії та кореляцію . Вкладеною в цій моделі буде модель . Тепер ми можемо також параметризувати його за кутом першого головного компонента та власними значеннями цих компонентів. Вкладеною в межах цього буде модель . Обидві перспективи тестують на ідеальну кореляцію (колінеарність); вони просто використовують різні параметризації. Якщо ви дозволяєте перше як модель, ви повинні дозволити друге.

X_{i}

$X_i$

N (0, Σ)

$N(0,\Sigma)$

Σ

$\Sigma$

σ_{i}^{2}

$\sigma_i^2$

ρ

$\rho$

| ρ | = 1

$|\rho|=1$

θ

$\theta$

λ_{1} \geq λ_{2}

$\lambda_1\ge\lambda_2$

λ_{2} = 0

$\lambda_2=0$

— whuber

-3

АПК тут не підходить. Ви не вибираєте серед моделей з різною кількістю параметрів - головний компонент не є параметром.

Є цілий ряд методів прийняття рішення про кількість факторів або компонентів з факторного аналізу або основного компонент аналізу - тест осипи, власне значення> 1, і т.д. Але реальне випробування змістовна: Яка кількість чинників має сенс ? Подивіться на фактори, врахуйте ваги, з’ясуйте, який найкраще підходить для ваших даних.

Як і інші речі в статистиці, це не те, що можна легко автоматизувати.

— Пітер Флом - Відновити Моніку
джерело

4

Якщо "головний компонент не є параметром", то atiotio no коефіцієнт може бути також параметром (оскільки повністю визначається розкладанням основного компонента). Це дивовижне твердження.

Σ

$\Sigma$

Σ

$\Sigma$

— whuber

1

@whuber Параметр матриці коваріації, можливо, але не є параметром моделі. Я зі сторони Петра з цього приводу.

— Майкл Р. Черник

3

Петре, що саме ти відрізняєш "параметр моделі" від "параметра"? Я не знаю нічого подібного і тому вдячний би дізнатися про це. Якщо ваша мета полягає в тому, щоб знайти парсимонічний опис багатоваріантних коваріацій, чи не вони складають параметри "моделі"?

— whuber

3

Петре, багато роботи над цим було зроблено під назвою "моделей низького рангу". Програми включають спектральний аналіз часових рядів, їх просторові узагальнення та сплайни. Наприклад, у випадку часових рядів послідовність спостережень може бути узагальнена компонентами ряду Фур'є, використовуючи по суті ті ж механізми та поняття, що і PCA: один зберігає власні вектори (тобто синусоїди і косинусоїди), що відповідають найбільші власні значення (тобто амплітуди чи сили хвиль).

n

$n$

m ≪ n

$m\ll n$

— whuber

1

Дякую за інформацію. Часові ряди - це одна сфера статистики, про яку я мало знаю.

— Пітер Флом - Відновити Моніку