У мене є великий набір даних, що складається із значень кількох сотень фінансових змінних, які можна було б використовувати в декількох регресіях для прогнозування поведінки індексного фонду в часі. Я хотів би зменшити кількість змінних до десяти або більше, зберігаючи якомога більше прогнозних можливостей. Додано: Скорочений набір змінних повинен бути підмножиною вихідного набору змінних, щоб зберегти економічний зміст вихідних змінних. Так, наприклад, я не повинен закінчувати лінійними комбінаціями або сукупностями вихідних змінних.
Деякі (напевно, наївні) думки про те, як це зробити:
- Виконайте просту лінійну регресію з кожною змінною та виберіть десять із найбільшими значеннями . Звичайно, немає гарантії, що десять найкращих індивідуальних змінних разом будуть найкращою групою з десяти.
- Проведіть аналіз основних компонентів і спробуйте знайти десять оригінальних змінних з найбільшими асоціаціями з першими кількома основними осями.
Я не думаю, що я можу виконати ієрархічну регресію, оскільки змінні насправді не вкладені. Спроба всіх можливих комбінацій з десяти змінних обчислювально нездійсненна, оскільки є занадто багато комбінацій.
Чи існує стандартний підхід для вирішення цієї проблеми зменшення кількості змінних у множинній регресії?
Здається, це була б досить поширеною проблемою, щоб існував стандартний підхід.
Дуже корисною була б відповідь, яка не тільки згадує стандартний метод, але й дає огляд того, як і чому він працює. Крім того, якщо не існує одного стандартного підходу, а досить декількох із різними сильними та слабкими сторонами, дуже корисною була б відповідь, яка обговорює їх плюси та мінуси.
коментар whuber нижче вказує на те, що запит в останньому абзаці занадто широкий. Натомість я б прийняв як хорошу відповідь перелік основних підходів, можливо, з дуже коротким описом кожного. Коли я отримаю умови, я можу викопати деталі на кожному.