Вибір кількості розріджених основних компонентів, які слід включити до регресії


9

Хтось має досвід підходів до вибору кількості розрізнених основних компонентів, які слід включити до регресійної моделі?


Я не маю досвіду з цим конкретно, але я б припустив, що перехресне підтвердження було б хорошим підходом (як завжди).
амеба

Відповіді:


4

Хоча я не маю прямого розуміння вашого питання, я натрапив на кілька наукових робіт , які можуть вас зацікавити. Це, звичайно, якщо я правильно розумію, що ви говорите про рідкісний PCA , регресію основних компонентів та пов'язані з цим теми. У цьому випадку ось документи:


1
Я не знав про всі ці посилання. Вони дуже гарні - дякую.
Френк Харрелл

@FrankHarrell: Вас дуже вітають! Радий, що можу допомогти.
Олександр Блех

1

Результати перехресної перевірки також використовувались для визначення оптимальної кількості розмірів для простору LSI. Занадто мало вимірів не скористався прогнозованою силою даних; в той час як занадто багато розмірів призвели до надмірного розміщення. На рис. 4 показано розподіл середніх помилок для моделей з різною кількістю розмірів LSI. Моделі з чотирма розмірними просторами LSI створили як найменшу середню кількість помилок, так і найменшу середню кількість помилок, тому кінцева модель була побудована з використанням чотиривимірного простору LSI.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Я можу опублікувати копію, якщо ви не є членом IEEE.

Це з папери, яку я написав у нижній частині. У мене виникла проблема, коли мені потрібно було вирішити, скільки розмірів (Латентна семантична індексація схожа на PCA) використовувати для моєї логістичної регресійної моделі. Що я зробив, я вибрав метрику (тобто коефіцієнт помилок при використанні ймовірності позначення позначки .5) і переглянув розподіл цього показника помилок для різних моделей, що навчаються за різною кількістю вимірів. Потім я вибрав модель з найнижчою швидкістю помилок. Ви можете використовувати інші показники, як область під кривою ROC.

Ви також можете використати щось на зразок ступінчастої регресії, щоб вибрати кількість розмірів для себе. Який тип регресії ви спеціально формуєте?

Що ви маєте на увазі під розрідженим BTW?


Рідкий ПК є, наприклад, L1 (ласо) -пенізований PCA. У звичайному PCA ми зазвичай можемо вводити терміни в порядку пояснення варіацій. З рідкісними PCA речі є дещо більш хаотичними, тому вибір, можливо, складніше.
Френк Харрелл

Питання було конкретно про розріджених основних компонентах, і ця відповідь (добре , як це) не вирішує проблему його взагалі , так -1.
амеба

Поетапна регресія, яка вибирає компоненти на основі асоціацій із Yце призведе до перевищення, якщо спеціальні штрафні функції не включені.
Френк Харрелл

@FrankHarrell, що потенційно може статися, але є менш схильним, якщо ви використовуєте AIC замість R-квадрата
Andrew Cassidy

@amoeba Я розгублений ... ні, я не звертався до "рідкої" частини основних коментарів, але ви зробили саме таку пропозицію використовувати перехресну перевірку в коментарі?
Ендрю Кассіді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.