Я не розумію, чому важливим є зменшення розміру. Яка вигода від отримання деяких даних та зменшення їх виміру?
Я не розумію, чому важливим є зменшення розміру. Яка вигода від отримання деяких даних та зменшення їх виміру?
Відповіді:
Сингулярне розкладання значення (SVD) не те саме, що зменшення розмірності даних. Це метод розкладання матриці на інші матриці, що має безліч чудових властивостей, про які я тут не буду вступати. Більше про SVD див. На сторінці Вікіпедії .
Зменшення розмірності ваших даних іноді дуже корисно. Можливо, у вас набагато більше змінних, ніж спостереження; це не рідкість у геномній роботі. Можливо, у нас є кілька змінних, які дуже сильно корелюються, наприклад, коли на них сильно впливає невелика кількість основних факторів, і ми хочемо відновити деяке наближення до основних факторів. Методи зменшення розмірності, такі як аналіз основних компонентів, багатовимірне масштабування та канонічний аналіз змінних даних, дають нам уявлення про взаємозв'язки між спостереженнями та / або змінними, які ми, можливо, не зможемо отримати іншим способом.
Конкретний приклад: кілька років тому я аналізував опитування задоволеності працівників, у якого було понад 100 питань. Що ж, жоден менеджер ніколи не зможе роздивитись на 100+ питань, варті відповідей, навіть узагальнених і зробити більше, ніж здогадуватися, що це все означає, бо хто може розповісти, як відповіді пов’язані між собою і що їх рухає? ? Я провів факторний аналіз даних, за якими я мав понад 10 000 спостережень, і придумав п’ять дуже чітких та легко інтерпретованих факторів, які можна було б використати для розробки балів, що стосуються конкретного менеджера (по одному для кожного фактору), який би узагальнив всю опитування 100+ питань. Набагато краще рішення, ніж дамп електронних таблиць Excel, який був попереднім методом звітування про результати!
Що стосується Вашого питання про перевагу, переваги зменшення розмірності для набору даних можуть бути:
Крім PCA, SVD має безліч застосувань для обробки сигналів, NLP та багатьох інших
Подивіться на цю мою відповідь. Розклад сингулярного значення є ключовим компонентом аналізу основних компонентів , що є дуже корисною та дуже потужною технікою аналізу даних.
Його часто використовують в алгоритмах розпізнавання обличчя, і я часто використовую його в своїй щоденній роботі як аналітик хедж-фондів.