Компоненти з низькою дисперсією в PCA, чи вони справді просто шум? Чи є спосіб перевірити це?


18

Я намагаюся вирішити, чи буде зберігатися компонент PCA, чи ні. Існує gazillion критеріїв, заснованих на величині власного значення, описаного та порівняного, наприклад, тут чи тут .

Однак у моїй заяві я знаю, що мале (est) власне значення буде малим порівняно з великим (st) власним значенням, і всі критерії, засновані на величині, відхиляли б мале (est). Це не те, що я хочу. Мене цікавить: чи відомий якийсь метод, який враховує фактично відповідний компонент малого власного значення в сенсі: чи це справді "просто" шум, як мається на увазі у всіх підручниках, чи є "щось" потенційного інтерес залишився? Якщо це дійсно шум, видаліть його, інакше зберігайте його, незалежно від величини власного значення.

Чи є якийсь встановлений тест на випадковість чи розповсюдження компонентів у PCA, який я не можу знайти? Або хтось знає причину, що це було б дурною ідеєю?

Оновлення

Гістограми (зелене) та нормальне наближення (синій) компонентів у двох випадках використання: один раз, мабуть, справді шум, один раз, мабуть, не «просто» шум (так, значення невеликі, але, ймовірно, не випадкові). Найбільше значення сингулярності в обох випадках становить ~ 160, найменше, тобто це особливе значення, становить 0,0xx - занадто мало для будь-якого з методів відсічення.

Що я шукаю, це спосіб формалізувати це ...

певно, справді "просто" шум ймовірно, не шум, але може містити цікаві біти


2
Багато тестів, на які ви посилаєтесь, мають саме властивість, яку ви вимагаєте: вони намагаються відрізнити "шум" від "сигнал".
whuber

2
Нещодавно мене цікавило подібне питання, але в конкретній ситуації, коли у вас є кілька вимірювань для кожної точки даних. Див. Розділ Вибір кількості компонентів PCA, коли доступно кілька зразків для кожної точки даних . Може, це стосується і вашої справи?
амеба каже: Відновити Моніку

Використання дистрибутивних тестів на ПК для визначення їх випадковості звучить як дуже цікава ідея (яку я ніколи не бачив застосованою); щось подібне робиться в ICA, що спеціально шукає максимально не гауссові компоненти. Виконання PCA, а потім викидання компонентів, "занадто гауссових", має аромат ICA і може насправді працювати!
Амеба каже, що повернеться Моніка

Відповіді:


20

Один із способів тестування випадковості невеликого основного компонента (ПК) - трактувати його як сигнал замість шуму: тобто спробуйте передбачити ще одну змінну, що цікавить його. Це по суті основні компоненти регресії (ПЛР) .

R2MSE

  • Модель хімічної інженерії, що використовує ПК 1, 3, 4, 6, 7 і 8 із 9 ( Smith & Campbell, 1980 )
  • Мусонна модель, що використовує ПК 8, 2 та 10 (за важливістю) з 10 ( Kung & Sharif, 1980 )
  • Економічна модель з використанням ПК 4 і 5 з 6 (Hill, Fomby, & Johnson, 1977)

ПК у перелічених вище прикладах нумерується відповідно до ранжированих їх власних значень. Jolliffe (1982) описує хмарну модель, в якій останній компонент робить найбільший внесок. Він робить висновок:

Наведені вище приклади показали, що не потрібно знаходити незрозумілих чи химерних даних для того, щоб останні кілька основних компонентів мали важливе значення в регресії основних компонентів. Швидше здається, що подібні приклади можуть бути досить поширеними на практиці. Hill та ін. (1977) дають ретельне та корисне обговорення стратегій вибору основних компонентів, які повинні були назавжди поховати ідею вибору, виходячи виключно з розміру дисперсії. На жаль, це, здається, не відбулося, і ідея, мабуть, більш поширена зараз, ніж 20 років тому.

SS

(p1)Y

X

Цю відповідь я завдячую @Scortchi, який виправив мої власні помилки щодо вибору ПК у PCR з дуже корисними коментарями, зокрема: " Jolliffe (2010) переглядає інші способи вибору ПК". Ця довідка може бути хорошим місцем для пошуку подальших ідей.

Список літератури

- Gunst, RF, & Mason, RL (1977). Об'єктивна оцінка в регресії: оцінка з використанням середньої помилки в квадраті. Журнал Американської статистичної асоціації, 72 (359), 616–628.
- Hadi, AS, & Ling, РФ (1998). Деякі застереження щодо використання регресії основних компонентів. Американський статистик, 52 (1), 15–19. Отримано з http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Хокінс, штат ДМ (1973). Про дослідження альтернативних регресій шляхом аналізу основних компонентів. Прикладна статистика, 22 (3), 275–286.
- Hill, RC, Fomby, TB, & Johnson, SR (1977). Норми вибору компонентів для регресії основних компонентів.Комунікації в статистиці - теорія та методи, 6 (4), 309–334.
- Hotelling, H. (1957). Взаємозв'язок нових багатоваріантних статистичних методів до факторного аналізу. Британський журнал статистичної психології, 10 (2), 69–79.
- Джексон, Е. (1991). Посібник користувача щодо основних компонентів . Нью-Йорк: Вілі.
- Jolliffe, IT (1982). Примітка щодо використання основних компонентів при регресії. Прикладна статистика, 31 (3), 300–303. Отримано з http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Аналіз основних компонентів (2-е видання). Спрингер.
- Kung, EC, & Sharif, TA (1980). Регресійне прогнозування настання індійського літнього мусону з попередніми умовами верхнього повітря. Журнал прикладної метеорології, 19 (4), 370–380. Отримано з http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). Оптимальний набір обмежень основних компонентів для регресії найменших квадратів. Комунікації в статистиці - теорія та методи, 2 (5), 449–464.
- Мейсон, RL, & Gunst, РФ (1985). Вибір основних регресійних компонентів. Статистика та ймовірнісні листи, 3 (6), 299–301.
- Massy, ​​WF (1965). Регресія основних компонентів у розвідувальних статистичних дослідженнях. Журнал Американської статистичної асоціації, 60 (309), 234–256. Отримано з http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Сміт, Г., Кемпбелл, Ф. (1980). Критика деяких методів регресії хребта. Журнал Американської статистичної асоціації, 75 (369), 74–81. Отримано з https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .


4
... і немає жодної гарантії того, що ефект, необхідний для вирішення вашої проблеми, більший, ніж інші ефекти, які є лише шумом. проблема під рукою. Я бачив дані, де 95% дисперсії було шумом через деякі фізичні ефекти ...
cbeleites підтримує Моніку

3
Дуже приємний огляд, але (вибачте, що знову посперечаюсь) темп Хаді та Лінг, вибір комп'ютерів для утримання в регресії, виходячи з їхнього сильного зв’язку з відповіддю, такий же небезпечний, як і вибір оригінальних прогнозів, виходячи з їхнього сильного відношення до відповіді. Перехресне підтвердження є важливим, а усадка бажана. Особисто я віддаю перевагу розумному використанню PCA разом із знаннями з предметів, щоб керувати скороченням даних про предиктори, сліпі за відповіддю, наприклад, використовуючи перший ПК із груп предикторів, що вимірюють те саме, або визначається змінною кластеризацією.
Scortchi

2
+1 (давно) на цю відповідь, але переглянувши цю тему зараз, я мушу сказати, що ця відповідь майже не відповідає на початкове запитання: ОП запитував про те, чи можна використовувати будь-які тести на розподіл компонентів, щоб судити про їх випадковість. Дивіться також мій останній коментар до ОП.
Амеба каже, що повернеться Моніка

2

Додаючи до відповіді @Nick Stauner, коли ви маєте справу з кластеризацією підпростори, PCA часто є поганим рішенням.

Під час використання PCA в основному турбуються власні вектори з найвищими власними значеннями, які представляють напрямки, до яких найбільше "розтягуються" дані. Якщо ваші дані складаються з невеликих підпросторів, PCA урочисто проігнорує їх, оскільки вони не сприяють загальній розбіжності даних.

Отже, малі власні вектори - це не завжди чистий шум.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.