На сторінці 223 у вступі до статистичного навчання автори узагальнюють відмінності між регресією хребта та ласо. Вони наводять приклад (рис. 6.9) того, коли "ласо має тенденцію перевершити регресію хребта в плані зміщення, дисперсії та MSE".
Я розумію, чому ласо може бути бажаним: це призводить до рідкісних рішень, оскільки він зменшує багато коефіцієнтів до 0, в результаті чого виникають прості та інтерпретаційні моделі. Але я не розумію, як він може перевершити гребінь, коли цікавлять лише прогнози (тобто як у прикладі отримується істотно нижчий MSE).
Якщо хребет, якщо багато передбачувачів майже не впливають на реакцію (коли кілька прогнозів мають великий ефект), їх коефіцієнти просто не будуть зменшені до невеликої кількості, дуже близької до нуля ... в результаті чого вийде щось дуже схоже на ласо ? То чому б фінальна модель мала гірші показники, ніж ласо?