Якщо вектори є ортогональними, можна просто взяти дисперсію скалярної проекції даних на кожен вектор. Скажімо, у нас є матриця даних ( точок x розмірів) та набір ортонормальних векторів стовпців . Припустимо, дані отримані по центру. Варіантність даних по напрямку кожного вектора задається .Xnd{v1,...,vk}viVar(Xvi)
Якщо існує стільки ж векторів, скільки початкових розмірів ( ), сума дисперсій проекцій буде дорівнює сумі дисперсій вздовж вихідних розмірів. Але, якщо векторів менше, ніж вихідні розміри ( ), сума дисперсій, як правило, буде меншою, ніж для PCA. Один із способів думати про PCA полягає в тому, що він максимально збільшує цю величину (за умови обмеження, що вектори є ортогональними).k=dk<d
Ви також можете обчислити (пояснюється частка дисперсії), яка часто використовується для вимірювання того, наскільки добре задана кількість розмірів PCA представляє дані. Нехай представляє суму дисперсій вздовж кожного вихідного виміру даних. Тоді:R2S
R2=1S∑i=1kVar(Xvi)
Це лише співвідношення підсумованих дисперсій проекцій та підсумованих дисперсій по початкових розмірах.
Ще один спосіб думати про - це те, що він вимірює корисність, якщо ми намагаємося реконструювати дані з проекцій. Потім він приймає звичну форму, що використовується для інших моделей (наприклад, регресія). Скажімо, -та точка даних є векторним рядком . Зберігати кожен з базисних векторів уздовж стовпців матриці . Проекція й точки даних на всі вектори в задається . Коли менше векторів, ніж вихідні розміри (R2ix(i)ViVp(i)=x(i)Vk<d), ми можемо вважати це як лінійне відображення даних у простір зі зменшеною розмірністю. Ми можемо приблизно реконструювати точку даних з низькою мірні подання з допомогою відображення назад у вихідне простір даних: . Середня помилка відновлення у квадраті - це середня квадратна евклідова відстань між кожною вихідною точкою даних та її реконструкцією:x^(i)=p(i)VT
E=1n∥x(i)−x^(i)∥2
Корисність придатності визначається так само, як і для інших моделей (тобто як один мінус частка необясненої дисперсії). Враховуючи середню квадратичну помилку моделі ( ) та загальну дисперсію модельованої кількості ( ), . У контексті нашої реконструкції даних середня помилка у квадраті - (помилка відновлення). Загальна дисперсія дорівнює (сума дисперсій вздовж кожного виміру даних). Тому:R2MSEVartotalR2=1−MSE/VartotalES
R2=1−ES
S також дорівнює середньому квадрату відстані Евкліда від кожної точки даних до середнього значення всіх точок даних, тому ми можемо також вважати порівнянням помилки відновлення з помилкою «найгіршої моделі», яка завжди повертає означають як реконструкцію.R2
Два вирази для еквівалентні. Як і вище, якщо існує стільки векторів, скільки початкових розмірів ( ), тоді буде одним. Але, якщо , , як правило, буде менше, ніж для PCA. Ще один спосіб думати про PCA - це мінімізувати помилку відновлення у квадраті.R2k=dR2k<dR2