LASSO відрізняється від вибору найкращої підмножини за пеналізацією та залежністю від шляху.
При виборі кращої підмножини, імовірно, CV використовувались для виявлення того, що найкращі показники дають 2 предиктори. Під час резюме, коефіцієнти регресії повної величини без пеналізації будуть використані для оцінки кількості змінних, які слід включити. Після того, як було прийнято рішення про використання 2 предикторів, паралельно було б порівнювати всі комбінації 2 предикторів для повного набору даних, щоб знайти 2 для кінцевої моделі. Цим двом остаточним прогнозникам давали б свої повноцінні коефіцієнти регресії без пеналізації, як ніби вони були єдиним вибором протягом усього часу.
Ви можете подумати про LASSO як про початок з великого штрафу на суму величин коефіцієнтів регресії, при цьому покарання поступово послаблюється. Результат полягає в тому, що змінні вводять по одній, при цьому рішення приймається в кожній точці під час релаксації, чи цінніше збільшити коефіцієнти змінних, які вже є в моделі, або додати іншу змінну. Але коли ви потрапите, скажімо, на 2-змінну модель, коефіцієнти регресії, дозволені LASSO, будуть меншими за величиною, ніж ті самі змінні, які мали б у стандартних не пенізованих регресіях, що використовуються для порівняння 2-змінної та 3-змінної моделей у вибір найкращої підмножини
Це можна вважати таким, що полегшує введення нових змінних у LASSO, ніж у виборі кращих підмножин. Евристично LASSO торгує потенційно меншими від фактичних коефіцієнтів регресії проти невизначеності в тому, скільки змінних слід включити. Це може, як правило, включати більше змінних у модель LASSO та потенційно гіршу ефективність для LASSO, якщо ви точно знали, що потрібно включити лише 2 змінні. Але якби ви вже знали, скільки змінних предиктора повинні бути включені у правильну модель, ви, ймовірно, не використовували б LASSO.
Ніщо до цього часу не залежало від колінеарності, що призводить до різних типів свавілля у виборі змінних у кращому підмножині та LASSO. У цьому прикладі краща підмножина вивчила всі можливі комбінації двох предикторів та обрала найкращу серед цих комбінацій. Тож кращі 2 виграють саме для цього конкретного зразка даних.
LASSO, залежно від шляху додавання однієї змінної за один раз, означає, що ранній вибір однієї змінної може впливати, коли інші змінні, пов'язані з нею, входять пізніше в процесі релаксації. Можливо також, щоб змінна була введена рано, а потім її коефіцієнт LASSO зменшився при введенні інших корельованих змінних.
На практиці вибір між корельованими передбачувачами в кінцевих моделях з будь-яким методом залежить від вибірки, що можна перевірити, повторивши ці процеси побудови моделі на вибірках завантажувальних даних тих самих даних. Якщо передбачувачів не дуже багато, і ваш головний інтерес полягає у прогнозуванні нових наборів даних, кращим вибором може бути регресія хребта, яка має тенденцію утримувати всі прогнози.