У мене вже є уявлення про плюси і мінуси регресії хребта та LASSO.
Для LASSO штрафний термін L1 дасть вектор розрідженого коефіцієнта, який можна розглядати як метод вибору функції. Однак для LASSO є деякі обмеження. Якщо функції мають високу кореляцію, LASSO вибере лише одну з них. Крім того, для проблем, де > , LASSO вибере щонайбільше параметрів ( і - кількість спостережень і параметрів відповідно). Це робить LASSO емпірично субоптимальним методом з точки зору передбачуваності порівняно з регресією хребта.n n n p
Для регресії хребта він пропонує кращу передбачуваність в цілому. Однак його інтерпретація не така приємна, як LASSO.
Наведене пояснення часто можна знайти в підручниках з машинного навчання / обміну даними. Однак я все ще плутаю два аспекти:
Якщо ми нормалізуємо діапазон функцій (скажімо, між 0 і 1, або з нульовою середньою та одиничною дисперсією) та запустимо регресію хребта, ми все одно можемо мати уявлення про важливість функції, сортуючи абсолютні значення коефіцієнтів (найважливішою ознакою є найвище абсолютне значення коефіцієнтів). Хоча ми не вибираємо функції чітко, інтерпретація не втрачається за допомогою регресії хребта. У той же час, ми все ще можемо досягти високої потужності передбачення. Тоді для чого нам потрібен ЛАССО? Я щось тут пропускаю?
Чи віддається перевага LASSO через характер вибору особливостей? Наскільки я розумію, причини, чому нам потрібен вибір особливостей, - це можливість узагальнення та простота обчислення.
Для зручності обчислення ми не хочемо вводити всі 1 мільйон функцій у нашу модель, якщо ми виконуємо деякі завдання NLP, тому ми спочатку відкидаємо деякі, очевидно, непотрібні функції, щоб зменшити обчислювальні витрати. Однак для LASSO ми можемо знати результат вибору функції (розріджений вектор) лише після того, як ми подамо всі дані у нашу модель, тому ми не отримаємо користі від LASSO з точки зору зменшення обчислювальної вартості. Ми можемо зробити передбачення лише трохи швидше, тому що зараз ми вводимо лише підмножину функцій (скажімо, 500 з 1 мільйона) у нашу модель для отримання прогнозованих результатів.
Якщо LASSO віддається перевазі його здатності узагальнювати, то ми також можемо досягти тієї ж мети за допомогою регресії хребта (або будь-якого іншого виду регуляризації). Для чого нам знову потрібні LASSO (або еластичні сітки)? Чому ми не можемо просто дотримуватися регресії хребта?
Невже хтось може просити про це світло? Дякую!