Зменшення розмірності не завжди втрачає інформацію. У деяких випадках можливе повторне представлення даних у просторах з меншими розмірами, не відкидаючи жодної інформації.
Припустимо, у вас є деякі дані, де кожне вимірюване значення пов'язане з двома упорядкованими коваріатами. Наприклад, припустимо, що ви вимірювали якість сигналу (позначений кольором білий = хороший, чорний = поганий) на щільній сітці з позицій x і y відносно деякого випромінювача. У такому випадку ваші дані можуть виглядати приблизно як лівий графік [* 1]:Qху
Це, принаймні поверхово, двовимірний фрагмент даних: . Однак ми можемо знати апріорі (виходячи з основної фізики) або вважати, що це залежить лише від відстані від початку: r = √Q( х , у) . (Деякий дослідницький аналіз також може привести вас до цього висновку, якщо навіть основне явище недостатньо зрозуміло). Потім ми могли б переписати наші дані якQ(r)замістьQ(x,y), що ефективно зменшило б розмірність до одного виміру. Очевидно, це лише без втрат, якщо дані радіально симетричні, але це розумне припущення для багатьох фізичних явищ.х2+ у2------√Q ( r )Q ( х , у)
Це перетворення нелінійне (є квадратний корінь і два квадрати!), Тож воно дещо відрізняється від виду зменшення розмірності, виконаного PCA, але я думаю, що це приємний приклад про те, як іноді можна видалити параметр, не втрачаючи жодної інформації.Q ( х , у) → Q ( r )
Для іншого прикладу, припустімо, ви проводите розклад особливого значення за деякими даними (SVD - близький родич - і найчастіше аналіз основних кишок аналізу основних компонентів). SVD приймає матрицю даних і розподіляє її на три матриці, такі що . Стовпці U і V є ліві і праві сингулярні вектори, відповідно, які утворюють безліч ортогональних базисів . Діагональні елементи (тобто S i , i ) є сингулярними значеннями, які фактично важать на i- й основі множини, утвореної відповідними стовпцями U і V (решта SM = U S V T M SММ= USVТМSSi , i)iUVSнулі). Це само по собі не дає зменшити розмірність (насправді, тепер є 3 матриці замість однієї матриці N x N, з якої ви почали). Однак іноді деякі діагональні елементи S дорівнюють нулю. Це означає, що відповідні бази в U і V не потрібні для реконструкції M , і тому вони можуть бути скинуті. Наприклад, припустимо Q ( x , y )Nx NNx NSUVМQ ( х , у)матриця, що міститься вище, містить 10000 елементів (тобто 100x100). Коли ми виконуємо на ньому SVD, ми виявляємо, що лише одна пара сингулярних векторів має ненульове значення [* 2], тому ми можемо повторно представити початкову матрицю як добуток двох векторів 100 елементів (200 коефіцієнтів, але ви насправді можете зробити трохи краще [* 3]).
Для деяких застосувань ми знаємо (або принаймні припускаємо), що корисна інформація збирається основними компонентами з високими сингулярними значеннями (SVD) або завантаженнями (PCA). У цих випадках ми можемо відкинути окремі вектори / бази / основні компоненти з меншими навантаженнями, навіть якщо вони не нульові, за теорією, що вони містять дратівливий шум, а не корисний сигнал. Іноді я бачив, як люди відкидають конкретні компоненти залежно від їх форми (наприклад, це нагадує відоме джерело шуму присадки) незалежно від завантаження. Я не впевнений, вважаєте ви це втратою інформації чи ні.
Є кілька акуратних результатів щодо інформаційно-теоретичної оптимальності PCA. Якщо ваш сигнал гауссовий і пошкоджений аддитивним гауссовим шумом, то PCA може максимізувати взаємну інформацію між сигналом та його зменшеною версією (якщо припустити, що шум має структуру коваріації, схожу на ідентичність).
Виноски:
- Це сирна і зовсім нефізична модель. Вибачте!
- Через неточність з плаваючою комою деякі з цих значень замість цього будуть не зовсім нульовими.
- US