Для регресії Лассо припустимо, найкраще рішення (наприклад, мінімальна помилка тестування) вибирає функції, так що \ hat {\ beta} ^ {lasso} = \ ліворуч (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ праворуч) .K β л и и про = ( β л з и про 1 , β л з и O 2 , . . . , β л
Ми знаємо, що є a упереджена оцінка , тож чому ми все-таки приймаємо як остаточне рішення, а не більш "розумне" , де - оцінка LS з часткової моделі . ( позначає стовпці відповідні вибраним ознакам).
Коротше кажучи, чому ми використовуємо Lasso як для вибору функції, так і для оцінки параметрів, а не лише для вибору змінної (і залишаючи оцінку для вибраних функцій OLS)?
(Також, що означає, що "Лассо може вибрати не більше функцій"? - розмір вибірки.)