Чому регресія хребта не може забезпечити кращу інтерпретацію, ніж LASSO?

У мене вже є уявлення про плюси і мінуси регресії хребта та LASSO.

Для LASSO штрафний термін L1 дасть вектор розрідженого коефіцієнта, який можна розглядати як метод вибору функції. Однак для LASSO є деякі обмеження. Якщо функції мають високу кореляцію, LASSO вибере лише одну з них. Крім того, для проблем, де > , LASSO вибере щонайбільше параметрів ( і - кількість спостережень і параметрів відповідно). Це робить LASSO емпірично субоптимальним методом з точки зору передбачуваності порівняно з регресією хребта. $p$ $n$ $n$ $n$ $p$

Для регресії хребта він пропонує кращу передбачуваність в цілому. Однак його інтерпретація не така приємна, як LASSO.

Наведене пояснення часто можна знайти в підручниках з машинного навчання / обміну даними. Однак я все ще плутаю два аспекти:

Якщо ми нормалізуємо діапазон функцій (скажімо, між 0 і 1, або з нульовою середньою та одиничною дисперсією) та запустимо регресію хребта, ми все одно можемо мати уявлення про важливість функції, сортуючи абсолютні значення коефіцієнтів (найважливішою ознакою є найвище абсолютне значення коефіцієнтів). Хоча ми не вибираємо функції чітко, інтерпретація не втрачається за допомогою регресії хребта. У той же час, ми все ще можемо досягти високої потужності передбачення. Тоді для чого нам потрібен ЛАССО? Я щось тут пропускаю?
Чи віддається перевага LASSO через характер вибору особливостей? Наскільки я розумію, причини, чому нам потрібен вибір особливостей, - це можливість узагальнення та простота обчислення.

Для зручності обчислення ми не хочемо вводити всі 1 мільйон функцій у нашу модель, якщо ми виконуємо деякі завдання NLP, тому ми спочатку відкидаємо деякі, очевидно, непотрібні функції, щоб зменшити обчислювальні витрати. Однак для LASSO ми можемо знати результат вибору функції (розріджений вектор) лише після того, як ми подамо всі дані у нашу модель, тому ми не отримаємо користі від LASSO з точки зору зменшення обчислювальної вартості. Ми можемо зробити передбачення лише трохи швидше, тому що зараз ми вводимо лише підмножину функцій (скажімо, 500 з 1 мільйона) у нашу модель для отримання прогнозованих результатів.

Якщо LASSO віддається перевазі його здатності узагальнювати, то ми також можемо досягти тієї ж мети за допомогою регресії хребта (або будь-якого іншого виду регуляризації). Для чого нам знову потрібні LASSO (або еластичні сітки)? Чому ми не можемо просто дотримуватися регресії хребта?

Невже хтось може просити про це світло? Дякую!

— Бред Лі
джерело

L_{1}

$L_1$

L_{2}

$L_2$

Мені також цікаво, які підручники говорять про такі речі, як « регресія хребта», вона пропонує кращу передбачуваність взагалі (на відміну від LASSO, я розумію, не на відміну від необмеженої регресії). Можливо, загальне не таке загальне в їх використанні. Крім того, скільки інтерпретаційності мають дати методи регуляризації? (Також, Шмуелі "Пояснити або передбачити" (2010) - приємний твір, навіть не пов'язаний безпосередньо.)

— Річард Харді

@RichardHardy, ти маєш рацію. Тепер я більш уважно прочитав підручник і виявив, що « ні регресія хребта, ні ласо не будуть домінувати над іншими » на сторінці 223, Вступ до статистичного навчання з додатками в R , Гарет Джеймс та ін.

— Бред Лі

@RichardHardy, спочатку я знайшов подібні аргументи щодо L1-регуляризації на LIBLINEAR FAQ: csie.ntu.edu.tw/~cjlin/liblinear/…

— Бред Лі

Чи вдасться пробіг хребта та Лассо на реальному прикладі чи два прояснити відмінності? (Але вони не просто порівняти - сюжет підходить проти розрідженості?)

— денис

Відповіді:

Якщо ви замовите 1 мільйон згорнутих, зменшених, але ненульових функцій, вам доведеться прийняти якесь рішення: ви подивитеся на п’ять найкращих прогнозів, але що таке n ? LASSO вирішує цю проблему принципово, об'єктивно, тому що для кожного кроку на шляху (і часто ви вирішитеся в одній точці, наприклад, перехресною валідацією), є лише m коефіцієнти, які не дорівнюють нулю.
Дуже часто ви будете тренувати моделі на деяких даних, а потім застосовувати їх до деяких ще не зібраних даних. Наприклад, ви можете помістити свою модель на 50 000 000 електронних листів, а потім використовувати її для кожної нової електронної пошти. Правда, ви помістите його в повному наборі функцій для перших 50 000 000 листів, але для кожного наступного електронного листа ви матимете справу з набагато рідшою та швидшою та значно ефективнішою пам'яттю. Також вам навіть не потрібно буде збирати інформацію про скинуті функції, що може бути дуже корисним, якщо функції витягувати дорого, наприклад, за допомогою генотипування.

Ще одна точка зору на проблему L1 / L2, яку викриває, наприклад, Ендрю Гелман, полягає в тому, що у вас часто є інтуїція, якою може бути ваша проблема. За деяких обставин можливо, що реальність справді розріджена. Можливо, ви виміряли мільйони генів, але правдоподібно, що лише 30 000 з них насправді визначають метаболізм дофаміну. У такій ситуації L1, ймовірно, краще відповідає проблемі.
В інших випадках реальність може бути щільною. Наприклад, у психології "все співвідноситься (певною мірою) з усім" (Пол Мел). Уподобання на яблука проти апельсинів , ймовірно , робить корелюють з політичними вподобаннями так чи інакше - і навіть з IQ. Регуляризація може все-таки мати сенс тут, але справжні нульові ефекти повинні бути рідкісними, тому L2 може бути більш підходящим.

— йона
джерело

у = - 2 х_{1} + 3 х_{2} - х_{3}

$y = -2x_{1} + 3x_{2}-x_{3}$

x_{2} > x_{1} > x_{3}

$x_{2} > x_{1} > x_{3}$

[0, 1]

$[0, 1]$

— Бред Лі

Звичайно, ви можете їх сортувати, але вам все одно доведеться прийняти якесь рішення щодо того, на яку підмножину ви подивитеся.

— jona

Іншим способом висловити це було б так: хребет може допомогти у виборі функцій, LASSO робить вибір функції.

— йона

@ Brad, крім відмінної відповіді від jona (+1), зауважте, що судити про важливість функції за її стандартизованим коефіцієнтом регресії є одним із можливих підходів, але не єдиним; існують різні заходи "важливості функції", і вони можуть легко дати суперечливі результати. Дивіться цю тему для тривалого обговорення: stats.stackexchange.com/questions/64010 .

— амеба

Інтерпретабельність зменшується, якщо ціль залежить від безлічі особливостей. Він збільшується, якщо ми можемо зменшити кількість функцій, а також підтримувати точність. Регуляризація хребта не має можливості зменшити кількість особливостей. Але Лассо має можливість. Як це відбувається, пояснено візуально за наступним посиланням:

Клацніть Стаття на тему "Назустріч даних"

— сольвер149
джерело