Вступ:
У мене є набір даних із класичною "великою р, малою російською проблемою". Кількість доступних вибірок n = 150, тоді як кількість можливих предикторів p = 400. Результатом є суцільна змінна.
Я хочу знайти найважливіші дескриптори, тобто ті, які є найкращими кандидатами для пояснення результату та допомоги в побудові теорії.
Після досліджень на цю тему я виявив, що LASSO та Elastic Net зазвичай використовуються у випадку великих p, малих n. Деякі з моїх прогнозів сильно співвіднесені, і я хочу зберегти їх угруповання в оцінці важливості, тому я вибрав Elastic Net . Я припускаю, що я можу використовувати абсолютні значення коефіцієнтів регресії як міру важливості (будь ласка, виправте мене, якщо я помиляюся; мій набір даних стандартизований).
Проблема:
Оскільки моя кількість зразків невелика, як я можу досягти стабільної моделі?
Мій сучасний підхід полягає у пошуку найкращих параметрів настройки (лямбда та альфа) при пошуку в сітці на 90% набору даних з 10-кратною перехресною валідацією, усередненою оцінкою MSE. Потім я треную модель з найкращими параметрами настройки на цілих 90% набору даних. Я можу оцінити свою модель за допомогою R у квадраті 10% набору даних (що становить лише 15 зразків).
Неодноразово виконуючи цю процедуру, я виявив велику дисперсію в оцінках R у квадраті. Крім того, кількість ненульових предикторів змінюється, а також їх коефіцієнти.
Як я можу отримати більш стабільну оцінку важливості прогнозів і більш стабільну оцінку результативності остаточної моделі?
Чи можу я кілька разів запускати свою процедуру для створення декількох моделей, а потім середніх коефіцієнтів регресії? Або я повинен використовувати кількість випадків прогнозування в моделях як показник його важливості?
Наразі я отримую близько 40-50 ненульових прогнозів. Чи варто штрафувати кількість прогнозів сильніше для кращої стабільності?