У чому сенс розкладання сингулярного значення?


9

Я не розумію, чому важливим є зменшення розміру. Яка вигода від отримання деяких даних та зменшення їх виміру?


3
Тон питання не запрошує конструктивних відповідей. Будь ласка, подумайте про переформулювання свого питання.
Сашко

2
Суть може полягати в зменшенні обсягу даних, необхідних для зберігання певної інформації, як рахунок невеликої втрати точності (наприклад, стиснення зображення JPEG).
Сашко

2
Дякую за коментарі, @Sasha. Це розумне питання, тому я зробив незначну редакцію, щоб уникнути враження тупості (безумовно, ненавмисної), переданої оригінальною формулюванням.
whuber


Ви робите SVD для моделювання тем, які НЕ є імовірнісними. Для моделювання тем, які є ймовірнісним використання LDA. Якщо ви НЕ займаєтесь моделюванням теми, тоді використовуйте PCA.
Бред

Відповіді:


18

Сингулярне розкладання значення (SVD) не те саме, що зменшення розмірності даних. Це метод розкладання матриці на інші матриці, що має безліч чудових властивостей, про які я тут не буду вступати. Більше про SVD див. На сторінці Вікіпедії .

Зменшення розмірності ваших даних іноді дуже корисно. Можливо, у вас набагато більше змінних, ніж спостереження; це не рідкість у геномній роботі. Можливо, у нас є кілька змінних, які дуже сильно корелюються, наприклад, коли на них сильно впливає невелика кількість основних факторів, і ми хочемо відновити деяке наближення до основних факторів. Методи зменшення розмірності, такі як аналіз основних компонентів, багатовимірне масштабування та канонічний аналіз змінних даних, дають нам уявлення про взаємозв'язки між спостереженнями та / або змінними, які ми, можливо, не зможемо отримати іншим способом.

Конкретний приклад: кілька років тому я аналізував опитування задоволеності працівників, у якого було понад 100 питань. Що ж, жоден менеджер ніколи не зможе роздивитись на 100+ питань, варті відповідей, навіть узагальнених і зробити більше, ніж здогадуватися, що це все означає, бо хто може розповісти, як відповіді пов’язані між собою і що їх рухає? ? Я провів факторний аналіз даних, за якими я мав понад 10 000 спостережень, і придумав п’ять дуже чітких та легко інтерпретованих факторів, які можна було б використати для розробки балів, що стосуються конкретного менеджера (по одному для кожного фактору), який би узагальнив всю опитування 100+ питань. Набагато краще рішення, ніж дамп електронних таблиць Excel, який був попереднім методом звітування про результати!


Для зменшення розмірності використовується метод під назвою "тонкий SVD". Дивіться Вікіпедію на SVD.
кіборг

5

Що стосується Вашого питання про перевагу, переваги зменшення розмірності для набору даних можуть бути:

  • зменшити необхідний простір для зберігання
  • прискорити обчислення (наприклад, в алгоритмах машинного навчання), менші розміри означають менше обчислення, а також менші розміри можуть дозволити використання алгоритмів, непридатних для великої кількості вимірів
  • видалити зайві функції, наприклад, немає сенсу зберігати розміри місцевості як в квадратних метрах, так і в квадратних милях (можливо, збір даних був помилковим)
  • зменшення розмірності даних до 2D або 3D може дати нам змогу побудувати та візуалізувати, можливо, спостерігати за шаблонами, давати нам уявлення

Крім PCA, SVD має безліч застосувань для обробки сигналів, NLP та багатьох інших


2

Подивіться на цю мою відповідь. Розклад сингулярного значення є ключовим компонентом аналізу основних компонентів , що є дуже корисною та дуже потужною технікою аналізу даних.

Його часто використовують в алгоритмах розпізнавання обличчя, і я часто використовую його в своїй щоденній роботі як аналітик хедж-фондів.


1
Чи не SVD та PCA (при цьому пов'язані) різні процедури?
B_Miner

2
Ти правий. SVD - метод отримання рішення проблеми PCA.
bayerj

1
@B_Miner Так - саме тому я сказав, що svd є ключовим компонентом pca. Я зосередився на pca, оскільки питання стосується зменшення розмірів (для яких pca підходить, а svd - ні)
Кріс Тейлор

Можливо, вибір компонента був тим, що тимчасово відкинуло @B_Miner. :)
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.