Припустимо, у вас є дві сильно корельовані змінні предиктора , і припустимо, що обидві центрируються та масштабуються (означають нуль, дисперсія одна). Тоді гряда санкція вектора параметрів є β 2 1 + β 2 2 в той час як термін ласо штрафу | β 1 | + | β 2 | . Тепер, оскільки модель повинна бути високолінійною, так що x і z більш-менш можуть підміняти один одного в передбаченні Y , так багато лінійних комбінацій x , z, де ми просто заміщаємо частковоx,zβ21+β22∣β1∣+∣β2∣xzYx,z для z буде працювати так само, як і предиктори, наприклад, 0,2 x + 0,8 x , 0,3 x + 0,7 z або 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zбуде приблизно так само хороший, як і прогнози. Тепер погляньте на ці три приклади: ласовий штраф у всіх трьох випадках є рівним, він дорівнює 1, тоді як покарання за гребеня відрізняються, це відповідно 0,68, 0,58, 0,5, тому покарання за гребінь буде віддавати перевагу рівній вазі колінарних змінних, а ласовий штраф не зможе вибрати. Це одна з причин, що гребінь (або, загалом, еластична сітка, яка є лінійною комбінацією ласових та гребінних штрафних санкцій) буде краще працювати з колінарними передбачувачами: Коли дані дають мало причин для вибору між різними лінійними комбінаціями колінарних передбачувачів, ласо буде просто "бродити", коли хребет прагне вибирати рівну вагу. Останнє може бути кращою здогадкою для використання з майбутніми даними! І якщо це так з нинішніми даними, це може виявитись у перехресній валідації як кращі результати з гребенем.
Ми можемо розглянути це байєсським способом: хребет та ласо передбачає різну попередню інформацію, і попередня інформація, яку має на увазі хребет, є більш розумною у таких ситуаціях. (Це пояснення тут я дізнався більш-менш з книги: "Статистичне навчання з рідкістю" Лассо і узагальнення "Тревора Хасті, Роберта Тібширані та Мартіна Уейнрайта, але в цей момент я не зміг знайти пряму цитату).