Вибір моделі PCA за допомогою AIC (або BIC)


12

Я хочу використати інформаційний критерій Akaike (AIC), щоб вибрати відповідну кількість факторів для вилучення в PCA. Єдине питання полягає в тому, що я не впевнений, як визначити кількість параметрів.

Розглянемо матрицю , де представляє кількість змінних, а кількість спостережень, таких що . Оскільки матриця коваріації симетрична, то при максимальній оцінці ймовірності можна встановити кількість параметрів у АПК рівним .X N T X N ( 0 , Σ ) Σ N ( N + 1 )T×NXNTXN(0,Σ)ΣN(N+1)2

Крім того, в PCA ви можете витягнути перші власних векторів та власних значень , назвати їх та а потім обчислити де - середня залишкова дисперсія. За моїм підрахунком, якщо у вас є факторів, ви б параметри в , параметри в , і параметр в .Σ β f Λ f Σ = β f Λ f β f + I σ 2 r σ 2 r f f Λ f N f β f 1 σ 2 rfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

Чи правильний такий підхід? Схоже , що це призведе до більшого кількості параметрів , ніж максимальної правдоподібності підходу , оскільки число чинників зростає до .N


1
Nf перевищує параметри: відбувається надмірність через те, що власні вектори взаємно ортогональні.
whuber

10
Перший власний вектор має вільних параметрів. Умова ортогональності обмежує другий власний вектор до ортогонального гіперпростору першого, потребуючи лише параметрів . Кожному наступному власному вектору потрібен один менший параметр, ніж попередній. На межі власних векторів ви відкидаєте (тому що тепер це нуль), даючи = параметри в тото, відповідно до першого параметра рахувати. NN1Nσr2N+(N1)++1N(N+1)/2
whuber

1
@ A.Donda Ситуація розпливчаста: припустимо, ви також вказали кратність кожного власного значення і ці підсумовуючи Дозволяючи, що PCA знаходить ортогональну трансформацію, ми мали б параметрів для його визначення. Але стабілізатори кожного власного простору є ортогональними групами розмірамиКожен таким чином виключає параметри , залишаючи параметри для обертання. В власні поставити інші параметри. n1,n2,,ns,N.N(N1)/2ni.ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
качан

1
(Додам, що застосування цього підрахунку до питання сумнівне: PCA використовує всі параметри , навіть якщо це може трапитися, щоб знайти деякі власні значення більшої кратності. І майже в будь-якому реальному наборі даних, вона все одно ніколи не отримає кратність, що перевищує )1N(N1)/21
whuber

1
@whuber, дякую! Моє запитання мотивоване ситуацією, коли я оцінюю коваріаційну матрицю під обмеженням власних значень.
А.Донда

Відповіді:


5

Роботи Minka ( Автоматичний вибір розмірності для PCA , 2000) та Tipping & Bishop ( Імовірнісний аналіз головного компонента ) щодо імовірнісного виду PCA можуть забезпечити вам цікаву основу. Робота Minka забезпечує наближення рівня журналу- ймовірність де - прихована розмірність вашого набору даних за допомогою наближення Лапласа; як прямо сказано: " Спрощення методу Лапласа є наближенням BIC. "k Dlogp(D|k)kD

Зрозуміло, що це сприймає байєсівську точку зору на вашу проблему, яка не ґрунтується на критеріях теорії інформації (KL-дивергенція), використовуваних AIC.

Щодо початкового питання "визначення числа параметрів" я також думаю, що коментар @ whuber несе правильну інтуїцію.


Я грав із AIC проти AICc на випадкових матрицях різної величини. AICc, здавалося, працює краще. Ці посилання виглядають добре, але я ще не мав шансу переварити.
Джон

6

Вибір "відповідної" кількості компонентів в PCA може бути виконаний елегантно за допомогою Паралельного аналізу (РА) Горна. Дослідження показують, що цей критерій послідовно перевершує такі великі правила, як критерій ліктя або правило Кайзера. Пакет R "paran" має реалізацію ПА, що вимагає лише декількох клацань миші.

Звичайно, скільки компонентів ви збережете, залежить від цілей скорочення даних. Якщо ви хочете лише зберегти дисперсію, яка є "значущою", ПА забезпечить оптимальне зменшення. Якщо ви хочете звести до мінімуму втрату інформації на вихідні дані, вам слід зберегти достатню кількість компонентів для покриття 95% поясненої дисперсії. Це, очевидно, збереже набагато більше компонентів, ніж ПА, хоча для високомірних наборів даних зменшення розмірності все ще буде значним.

Останнє зауваження про PCA як проблему "вибору моделі". Я не повністю згоден з відповіддю Петра. Існує ряд робіт, які переформулювали PCA як проблему типу регресії, такі як Sparse PCA, Sparse Probabilistic PCA або ScotLASS. У цих рішеннях PCA, заснованих на моделі, навантаження - це параметри, які можна встановити на 0 при відповідних термінах штрафу. Імовірно, в цьому контексті можна було б також розрахувати статистику типу AIC або BIC для розглянутої моделі.

Цей підхід теоретично міг би включати модель, де, наприклад, два ПК є необмеженими (усі завантаження не нульові), порівняно з моделлю, де PC1 необмежений і PC2 має всі завантаження, встановлені 0. Це було б еквівалентно висновку про те, чи є PC2 зайвим в цілому.

Список літератури :

  • Дінно, А. (2012). paran: Тест Горна на основні компоненти / фактори. Версія пакета R 1.5.1. http://CRAN.R-project.org/package=paran
  • Horn JL 1965 р. Обґрунтування та тест на кількість факторів факторного аналізу. Психометрія . 30: 179–185
  • Hubbard, R. & Allen SJ (1987). Емпіричне порівняння альтернативних методів вилучення основних компонентів. Журнал бізнес-досліджень, 15 , 173-190.
  • Zwick, WR & Velicer, WF 1986. Порівняння п’яти правил для визначення кількості компонентів, які потрібно зберегти. Психологічний вісник. 99 : 432–442

Ласкаво просимо на сайт, @BenM. З вашої відповіді, я думаю, що буде непогано познайомитись із вами (хоча я не знаю достатньо про PCA за межами основ, щоб оцінити ваші претензії). Одне запитання, ви зазначаєте, що ці позиції були чітко встановлені, чи могли б ви перерахувати пару репрезентативних публікацій, де зацікавлений читач міг знайти більш детальну інформацію?
gung - Відновіть Моніку

-1

AIC призначений для вибору моделі. Це насправді не проблема вибору моделі, і, можливо, вам буде краще використовувати інший підхід. Альтернативою може бути вказати певний загальний відсоток роз’ясненої дисперсії (наприклад, 75%) і зупинити, коли відсоток досягне 75%, якщо він коли-небудь буде.


1
Я вибираю між різними моделями на основі кількості факторів (модель з 1 коефіцієнтом проти моделі з 2 тощо). Проблема з відсотком дисперсії головним чином полягає в тому, що він ігнорує витрати на оцінку додаткових власних векторів, особливо коли кількість спостережень менша за кількість змінних. AIC добре поєднується з імовірнісним підходом PCA.
Джон

3
Майкл, ти міг би пояснити, чому це не проблема вибору моделі? Схоже, Джон чітко сформулював це як єдине.
whuber

@whuber Що таке статистична модель? Мені здається, що визначати кількість головного компонента, який використовується для представлення x% дисперсії у змінній Y, це не вибір моделі. Я не вважав би основні компоненти як параметри моделі.
Майкл Р. Черник

2
Розглянемо 2D вектори проведені iid від . Ми можемо параметризувати через дві дисперсії та кореляцію . Вкладеною в цій моделі буде модель . Тепер ми можемо також параметризувати його за кутом першого головного компонента та власними значеннями цих компонентів. Вкладеною в межах цього буде модель . Обидві перспективи тестують на ідеальну кореляцію (колінеарність); вони просто використовують різні параметризації. Якщо ви дозволяєте перше як модель, ви повинні дозволити друге. N ( 0 , Σ ) Σ σ 2 i ρ | ρ | = 1 θ λ 1λ 2 λ 2 = 0XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0
whuber

-3

АПК тут не підходить. Ви не вибираєте серед моделей з різною кількістю параметрів - головний компонент не є параметром.

Є цілий ряд методів прийняття рішення про кількість факторів або компонентів з факторного аналізу або основного компонент аналізу - тест осипи, власне значення> 1, і т.д. Але реальне випробування змістовна: Яка кількість чинників має сенс ? Подивіться на фактори, врахуйте ваги, з’ясуйте, який найкраще підходить для ваших даних.

Як і інші речі в статистиці, це не те, що можна легко автоматизувати.


4
Якщо "головний компонент не є параметром", то atiotio no коефіцієнт може бути також параметром (оскільки повністю визначається розкладанням основного компонента). Це дивовижне твердження. ΣΣΣ
whuber

1
@whuber Параметр матриці коваріації, можливо, але не є параметром моделі. Я зі сторони Петра з цього приводу.
Майкл Р. Черник

3
Петре, що саме ти відрізняєш "параметр моделі" від "параметра"? Я не знаю нічого подібного і тому вдячний би дізнатися про це. Якщо ваша мета полягає в тому, щоб знайти парсимонічний опис багатоваріантних коваріацій, чи не вони складають параметри "моделі"?
whuber

3
Петре, багато роботи над цим було зроблено під назвою "моделей низького рангу". Програми включають спектральний аналіз часових рядів, їх просторові узагальнення та сплайни. Наприклад, у випадку часових рядів послідовність спостережень може бути узагальнена компонентами ряду Фур'є, використовуючи по суті ті ж механізми та поняття, що і PCA: один зберігає власні вектори (тобто синусоїди і косинусоїди), що відповідають найбільші власні значення (тобто амплітуди чи сили хвиль). m nnmn
whuber

1
Дякую за інформацію. Часові ряди - це одна сфера статистики, про яку я мало знаю.
Пітер Флом - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.