А1. Що таке зменшення розмірності: Якщо ви думаєте про дані в матриці, де рядки є екземплярами, а стовпці - атрибутами (або ознаками), то зменшення розмірності - це відображення цієї матриці даних у нову матрицю з меншою кількістю стовпців. Для візуалізації, якщо ви вважаєте кожен матричний стовпець (атрибут) як вимір у просторі функцій, то зменшення розмірності - це проекція примірників з більш високого розмірного простору (більше стовпців) на нижній розмірний підпростір (менше стовпців).
Типовою метою цього перетворення є (1) збереження інформації в матриці даних, зменшуючи при цьому обчислювальну складність; (2) поліпшення відокремленості різних класів даних.
А2. Зменшення розмірності як вибір функції або вилучення можливостей: я буду використовувати всюдисущий набір даних Iris , який, мабуть, є "привіт світом" науки про дані. Коротко, набір даних Iris має 3 класи та 4 атрибути (стовпці). Я проілюструю вибір та вилучення функцій для завдання зменшити розмірність набору даних Iris з 4 до 2.
Я обчислюю парну кореляцію цього набору даних за допомогою бібліотеки в Python під назвою seaborn. Код: sns.pairplot (iris, hue = "види", маркери = ["o", "s", "D"]) Я отримав цифру, що
я можу вибрати пару атрибутів (2 виміри), які надають мені найбільше розмежування між 3 класами (видами) в наборі даних про Ірис. Це був би варіант вибору функцій.
Далі йде вилучення функції. У цьому документі я проектую 4-мірний простір функцій Iris у новий двовимірний підпростір, який не є осі, вирівняному з вихідним простором. Це нові атрибути. Вони, як правило, засновані на розподілі у вихідному просторовому просторі. Найпопулярніший метод - це аналіз основних компонентів, який обчислює власні вектори в оригінальному просторі.
Очевидно, що ми не обмежуємось лише використанням лінійної та глобальної проекції на підпростір на основі власних векторів. Ми також можемо використовувати нелінійні методи проекції. Ось приклад нелінійної PCA з використанням нейронних мереж
Атрибути (розміри) в останньому прикладі витягуютьсявід початкових 4 атрибутів за допомогою нейронних мереж. Ви можете експериментувати з різними смаками PCA для набору даних для райдужної оболонки, використовуючи цей код методу pca .
Короткий зміст: Хоча методи вилучення можливостей можуть бути кращими за своєю ефективністю щодо вибору функцій, вибір визначається програмою. Атрибути, отримані в результаті вилучення функцій, зазвичай втрачають фізичну інтерпретацію, що може бути проблемою, що базується на заданій задачі. Наприклад, якщо ви розробляєте дуже дороге завдання збору даних з дорогими датчиками і вам потрібно заощадити на атрибутах (кількість різних датчиків), вам слід зібрати невеликий дослідний зразок, використовуючи всі наявні датчики, а потім вибрати ті, які є найбільш інформативними для завдання збору великих даних.