Хтось має досвід підходів до вибору кількості розрізнених основних компонентів, які слід включити до регресійної моделі?
Хтось має досвід підходів до вибору кількості розрізнених основних компонентів, які слід включити до регресійної моделі?
Відповіді:
Хоча я не маю прямого розуміння вашого питання, я натрапив на кілька наукових робіт , які можуть вас зацікавити. Це, звичайно, якщо я правильно розумію, що ви говорите про рідкісний PCA , регресію основних компонентів та пов'язані з цим теми. У цьому випадку ось документи:
Результати перехресної перевірки також використовувались для визначення оптимальної кількості розмірів для простору LSI. Занадто мало вимірів не скористався прогнозованою силою даних; в той час як занадто багато розмірів призвели до надмірного розміщення. На рис. 4 показано розподіл середніх помилок для моделей з різною кількістю розмірів LSI. Моделі з чотирма розмірними просторами LSI створили як найменшу середню кількість помилок, так і найменшу середню кількість помилок, тому кінцева модель була побудована з використанням чотиривимірного простору LSI.
Я можу опублікувати копію, якщо ви не є членом IEEE.
Це з папери, яку я написав у нижній частині. У мене виникла проблема, коли мені потрібно було вирішити, скільки розмірів (Латентна семантична індексація схожа на PCA) використовувати для моєї логістичної регресійної моделі. Що я зробив, я вибрав метрику (тобто коефіцієнт помилок при використанні ймовірності позначення позначки .5) і переглянув розподіл цього показника помилок для різних моделей, що навчаються за різною кількістю вимірів. Потім я вибрав модель з найнижчою швидкістю помилок. Ви можете використовувати інші показники, як область під кривою ROC.
Ви також можете використати щось на зразок ступінчастої регресії, щоб вибрати кількість розмірів для себе. Який тип регресії ви спеціально формуєте?
Що ви маєте на увазі під розрідженим BTW?