Як частина завдання університету, я повинен провести попередню обробку даних на досить величезному, багатоваріантному (> 10) необробленому наборі даних. Я не статистик у будь-якому сенсі цього слова, тому я трохи розгублений у тому, що відбувається. Заздалегідь вибачте за те, що, мабуть, смішно просте запитання - моя голова крутилася після перегляду різних відповідей і намагалася пройтись через статистику-розмову.
Я читав це:
- PCA дозволяє зменшити розмірність моїх даних
- Це відбувається шляхом об'єднання / видалення атрибутів / розмірів, які багато співвідносяться (і, таким чином, є трохи непотрібними)
- Це робиться, знаходячи власних векторів за коваріаційними даними (завдяки чудовому навчальному посібнику, який я дотримувався, щоб дізнатися це)
Що чудово.
Однак мені дуже важко бачити, як я можу це практично застосувати до своїх даних. Наприклад (це не набір даних, який я буду використовувати, але спроба гідного прикладу, з яким люди можуть працювати), якби я мав набір даних із чимось на зразок ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Я не зовсім впевнений, як би я інтерпретував будь-які результати.
Більшість навчальних посібників, які я бачив в Інтернеті, схоже, дають мені дуже математичний погляд на PCA. Я провів деякі дослідження щодо цього і пройшов за ними, - але я все ще не зовсім впевнений, що це означає для мене, хто просто намагається витягнути певну форму сенсу з цієї маси даних, що маю перед собою.
Просто виконання PCA на моїх даних (використовуючи пакет статистики) випиляє матрицю чисел NxN (де N - кількість вихідних розмірів), що для мене цілком грецьке.
Як я можу зробити PCA і взяти те, що я отримую таким чином, щоб потім вмістити його простою англійською мовою щодо оригінальних розмірів?