Основна ідея при використанні PCA як інструменту для вибору ознак полягає у виборі змінних відповідно до величини (від найбільшої до найменшої в абсолютних значеннях) їх коефіцієнтів ( навантажень ). Ви можете згадати, що PCA прагне замінити (більш-менш корельовані) змінні на k < p некорельовані лінійні комбінації (проекції) вихідних змінних. Нехтуємо, як вибрати оптимальний k для заданої проблеми. Ті K основні компоненти ранжуються за важливістю через їх пояснене дисперсії, і кожна змінна сприяє з різним ступенем до кожного компоненту. Використання найбільших критеріїв дисперсії було б подібним до вилучення ознакpk<pkk , де головний компонент використовується як нові функції замість оригінальних змінних. Однак ми можемо вирішити зберегти лише перший компонент і вибрати змінні, які мають найвищий абсолютний коефіцієнт; число j може базуватися на пропорції кількості змінних (наприклад, зберігати лише перші 10% p змінних) або фіксованого відсікання (наприклад, враховуючи поріг нормованих коефіцієнтів). Такий підхід має певну схожість з оператором Лассо за пенізованою регресією (або регресією PLS ). Ні значення j , ні кількість компонентів для збереження не є очевидним вибором.j<pjpj
Проблема використання PCA полягає в тому, що (1) вимірювання від усіх вихідних змінних використовуються в проекції на простір нижнього розміру, (2) розглядаються лише лінійні співвідношення і (3) методи на основі PCA або SVD. як одноманітні методи скринінгу (t-тест, кореляція тощо) не враховують потенційну багатоваріантність структури даних (наприклад, взаємодія вищих порядків між змінними).
Щодо пункту 1, були запропоновані деякі більш детальні методи скринінгу, наприклад, аналіз основних характеристик або поетапний метод, як той, який використовується для « генового гоління » в дослідженнях експресії генів. Крім того, розріджений PCA може бути використаний для зменшення розмірів і вибору змінних на основі отриманих змінних навантажень. Щодо пункту 2, можливо використовувати PCA ядра (використовуючи фокус ядра ), якщо потрібно вбудувати нелінійні зв’язки в простір нижнього розміру. Дерева рішень , а краще алгоритм випадкових лісів , ймовірно, краще вирішують пункт 3. Останнє дозволяє отримати міри, засновані на Гіні або перестановці, різного значення .
Останній пункт: Якщо ви плануєте здійснити вибір функції перед застосуванням класифікаційної або регресійної моделі, не забудьте перекреслити весь процес (див. § 7.10.2 Елементів статистичного навчання , або Ambroise and McLachlan, 2002 ).
Оскільки ви, здається, цікавитесь рішенням R, я рекомендую ознайомитись із пакетом caret, який включає в себе безліч зручних функцій для попередньої обробки даних та вибору змінних у контексті класифікації чи регресії.