Які недоліки використання ласо для змінного вибору для регресії?


60

З того, що мені відомо, використання ласо для змінного вибору вирішує проблему корельованих входів. Крім того, оскільки він еквівалентний регресії з найменшим кутом, він обчислюється не повільно. Однак багато людей (наприклад, люди, яких я знаю, що займаються біостатистикою) все ще, здається, віддають перевагу поетапному або поетапному змінному вибору. Чи є якісь практичні недоліки використання ласо, що робить його несприятливим?


9
Я не знаю, де ви чули, що Лассо займається проблемою колінеарності, це абсолютно не так.
Макрос

3
Для підбору моделі підкова краще, ніж LASSO - принаймні у випадку з обмеженою моделлю (де вибір моделі є найбільш корисним). Ви можете знайти обговорення цих питань у цьому Посиланні . Двоє з авторів цього документу також отримали подібну статтю на засіданнях у Валенсії, Баєсова статистика 9 "Зменшення глобально діючих законів: розріджена байесівська регуляризація та прогнозування". У статті Валенсії детальніше йдеться про штрафні рамки.
ймовірність

9
Якщо вас цікавить лише прогнозування, то вибір моделі не допомагає і зазвичай шкодить (на відміну від квадратичного штрафу = норма L2 = регресія хребта без вибору змінної). LASSO платить ціну за передбачувану дискримінацію за спробу зробити різний вибір.
Френк Харрелл

3
Кидання монети для прийняття довільного рішення часто виявляє, що ви насправді дбаєте про результат. Будь-який метод, який пропонує прийняти для вас рішення щодо вибору предикторів, часто дає зрозуміти, що у вас є ідеї про те, які прогноктори належать більш природно в моделі, ідеї, які ви не хочете ігнорувати. LASSO може працювати так.
Нік Кокс

5
Я другий @Nick: "жодна теорія, яка може керувати вибором моделі" навряд чи реальна. Здоровий глузд - це теорія.
Scortchi

Відповіді:


29

Немає причин робити поетапний вибір. Це просто неправильно.

LASSO / LAR - найкращі автоматичні методи. Але це автоматичні методи. Вони дозволяють аналітику не думати.

У багатьох аналізах деякі змінні повинні містити модель ВІДМОВЛЕННЯ будь-якої міри значущості. Іноді вони є необхідними контрольними змінними. В інших випадках пошук невеликого ефекту може бути суттєво важливим.


43
"Немає причин робити поетапний вибір. Це просто неправильно". - Майже ніколи не буває неймовірно звабливих тверджень, позбавлених контексту, доброї статистичної практики. Якщо щось тут "просто не так", це сміливе твердження вище. Якщо ваш аналіз не наголошує на -значеннях або оцінках параметрів (наприклад, прогнозних моделей), то ступінчастий вибір змінних може бути розумною справою і може: :: gasp :: перевершити LASSO в деяких випадках. (Пітер, я знаю, що раніше у нас був цей конвой - цей коментар більше спрямований на майбутнього читача, який може натрапити лише на цю посаду, а не на іншу). p
Макрос

4
-1 через критичну критику поетапно. Це не "просто неправильно", але має місце як детермінований пошук моделі. У вас дійсно є бджола в капелюшку щодо автоматичних методів.
ймовірністьілогічного

8
@Elvis, я не є експертом з цього питання чи прихильником ступінчастості; Я лише сумніваюся з безумовним характером заяви. Але з цікавості я зробив декілька простих моделей і виявив, що, коли у вас є велика кількість колінеарних прогнозів, які мають усі приблизно однакові ефекти, відбір назад робить краще, ніж LASSO, з точки зору позапробного прогнозування. Я використав з ε N ( 0 , 1 ) . Провідники є звичайними нормальними при c o r ( X
Yi=j=1100Хij+εi
εN(0,1)для кожної пари(J,K). cоr(Хij,Хiк)=1/2(j,к)
Макро

10
Ви, безумовно, повинні досліджувати колінеарність, перш ніж вдаватися до будь-якої регресії. Я б сказав, що якщо у вас є велика кількість колінеарних змінних, ви не повинні використовувати LASSO або Step step; вам слід вирішити проблему колінеарності (видалити змінні, отримати більше даних тощо) або скористатися методом, розробленим для таких проблем (наприклад, регресія хребта)
Peter Flom

5
Гаразд, ти маєш рацію, але я не думаю, що це насправді актуально. Ні зворотний ласо NOR (ні будь-який метод вибору змінних) не вирішує всіх проблем. Є щось, що вам потрібно зробити, перш ніж починати моделювати - і одна з них - перевірка на колінеарність. Мені також було б байдуже, який метод вибору змінної працював для інших наборів даних, які порушували правила регресії, до яких мають застосовуватися обидва методи.
Пітер Флом

22

Якщо вас цікавить лише помилка передбачення і не піклується про інтерпретацію, випадкові умовиводи, простоту моделі, тести коефіцієнтів тощо, чому ви все ще хочете використовувати лінійну регресійну модель?

Ви можете використовувати щось на кшталт збільшення на деревах рішень або підтримку векторної регресії та покращити якість прогнозування та все-таки уникнути перевиконання в обох зазначених випадках. Тобто Лассо, можливо, не є найкращим вибором для отримання найкращої якості прогнозування.

Якщо я розумію правильно, Лассо призначений для ситуацій, коли вас все ще цікавить сама модель, а не лише прогнози. Тобто - бачити вибрані змінні та їх коефіцієнти, інтерпретувати певним чином і т. Д. І для цього - Лассо може бути не найкращим вибором у певних ситуаціях, про що йдеться в інших питаннях тут.


20

LASSO заохочує скорочення коефіцієнтів до 0, тобто випадання цих змінних з вашої моделі. Навпаки, інші методи регуляризації, такі як хребет, мають тенденцію зберігати всі показники.

Тому я рекомендую подумати про те, чи має таке скасування сенс для ваших даних. Наприклад, розглянути можливість встановлення клінічного діагностичного тесту на даних про ген мікроматриці або на вібраційних спектроскопічних даних.

  • Ви очікуєте, що деякі гени несуть відповідну інформацію, але багато інших генів - це просто шум. ваша заявка. Видалення цих змінних - ідеально розумна ідея.

  • Навпаки, вібраційні спектроскопічні набори даних (хоча зазвичай мають подібні розміри порівняно з даними мікромасиви), як правило, мають відповідну інформацію "розмазану" великими частинами спектру (кореляція). У цій ситуації просити регуляризацію скидання змінних не є особливо розумним підходом. Тим більше, що інші методи регуляризації, такі як PLS, більш пристосовані до цього типу даних.

Елементи статистичного навчання добре обговорюють LASSO та протиставляють його іншим методам регуляризації.


14

Якщо два предиктори сильно співвідносяться, LASSO може закінчитися випадковим випаданням. Це не дуже добре, коли ви хочете робити прогнози для населення, де ці два прогнози не сильно корелюються, і, можливо, це причина віддати перевагу регресії хребта за тих обставин.

Ви також можете подумати, що стандартизація предикторів (сказати, коли коефіцієнти "великі" чи "малі") досить довільна і не здивована (як я) щодо розумних способів стандартизації категоричних предикторів.


1
Дякую за цю відповідь. Чи знаєте ви будь-які документи, в яких обговорюються проблеми з кореляційними прогнозами / категоричними провісниками?
Берк У.

2
Варто додати, що існують й інші методи санкціонованої регресії, які намагаються полегшити ці проблеми (наприклад, еластична сітка).
бдеонович

Здійснення вибору змінних із сильно коллінеарними змінними, ітеративний адаптивний гребінь (який наближає до L0 пенізовану регресію та s, реалізовані в пакеті l0ara) має тенденцію до найкращого, або покарання L0L2, як це реалізовано в пакеті L0Learn, також добре
спрацьовують

9

Лассо корисний лише в тому випадку, якщо ви обмежуєте розглядати моделі, лінійні в оцінюваних параметрах. Заявлений іншим способом, ласо не оцінює, чи вибрали ви правильну форму взаємозв'язку між незалежною та залежною змінною.

Дуже правдоподібно, що у довільному наборі даних можуть бути нелінійні, інтерактивні чи поліноміальні ефекти. Однак ці характеристики альтернативної моделі оцінюватимуться лише в тому випадку, якщо користувач проводить цей аналіз; ласо не є заміною для цього.

Для простого прикладу того, як це може піти не так, розглянемо набір даних, в яких неперервні інтервали незалежної змінної передбачають чергування високих і низьких значень залежної змінної. Це буде складно вирішити за допомогою звичайних лінійних моделей, оскільки в маніфестних змінних, присутніх для аналізу, немає лінійного ефекту (але може бути корисним деяке перетворення змінних маніфесту). Залишившись у своїй маніфестованій формі, ласо неправильно зробить висновок, що ця ознака стороння і нульовий її коефіцієнт, оскільки немає лінійної залежності. З іншого боку, оскільки в даних є розбиті по осі розбиття, модель на основі дерева, як випадковий ліс, ймовірно, буде добре.

введіть тут опис зображення


5

Одним з практичних недоліків ласо та інших методів регуляризації є пошук оптимального коефіцієнта регуляризації, лямбда. Використання перехресної перевірки для знаходження цього значення може бути так само дорого, як і методи поетапного вибору.


Що ви маєте на увазі під «дорогим»?
mar999

4
Це твердження насправді не відповідає дійсності. Якщо ви скористаєтеся пошуком сітки «теплий старт», як у методі glmnet, ви можете швидко обчислити всю сітку.
ймовірністьілогічний

1
@probabilityislogic Щоправда, про теплі старти я читав лише після того, як я зробив вищезазначений коментар. Як ви вважаєте цей документ, який свідчить про те, що теплі старти є повільнішими, а часом і менш ефективними, ніж прості перехресні перевірки? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999

5
λ

5

Я не експерт LASSO, але я фахівець у часових рядах. Якщо у вас є дані часових рядів або просторові дані, я б старанно уникав рішення, яке було засноване на незалежних спостереженнях. Крім того, якщо є невідомі детерміновані ефекти, які зіграли б ваші дані (зсуви рівня / тенденції часу тощо), то LASSO був би ще менш хорошим молотом. На завершення, коли у вас є дані часових рядів, вам часто потрібно сегментувати дані, стикаючись з параметрами або дисперсією помилок, які змінюються з часом.


1
LASSO може забезпечити хороші показники прогнозування при застосуванні на регресійних моделях часових рядів, таких як автоматичні авторегресії (AR), векторні авторегресії (VAR) та моделі корекції помилок векторних (VECM). Наприклад, пошукайте ласо-векторну авторегресію, і ви знайдете багато прикладів в академічній літературі. З мого власного досвіду, використання LASSO для стаціонарних моделей VAR забезпечує найкращі показники прогнозування порівняно з усіма виборами підмножини або регуляризацією хребта, тоді як регуляризація хребта б'є LASSO для інтегрованих моделей VAR (завдяки мультиколінеарності, відповідно до відповіді Scortchi).
Річард Харді

Таким чином, збій LASSO не притаманний даним тимчасових рядів.
Річард Харді

2

Це вже досить давнє запитання, але я вважаю, що тим часом більшість відповідей тут є досить застарілими (а той, який перевіряється як правильна відповідь, явно неправильний, імхо).

По-перше, з точки зору отримання хороших показників прогнозування не є загальним чином, що LASSO завжди краще, ніж поетапно. У статті "Розширені порівняння вибору найкращої підмножини", "Попередній покроковий вибір" та "Лассо" (Hastie et al. (2017)) пропонується широке порівняння прямого ступінчастого, LASSO та деяких варіантів LASSO, таких як розслаблений LASSO, а також кращий підмножина, і вони покажіть, що поетапно іноді краще, ніж LASSO. Хоча варіант LASSO - розслаблений LASSO - той, що дав найвищу точність прогнозування моделей за найширшого кола обставин. Висновок про те, що найкраще, багато в чому залежить від того, що ви вважаєте найкращим, наприклад, чи буде це найвища точність прогнозування або вибір найменших помилкових позитивних змінних.

Однак існує цілий зоопарк розріджених методів навчання, більшість з яких кращі за LASSO. Наприклад, є розслаблений LASSO , адаптивний LASSO та SCAD та MCP санкціонований регрес Мейхаузена, як це реалізовано в ncvregпакеті, які мають менший ухил, ніж стандартний LASSO, і тому переважніші. Крім того, якщо вас цікавить абсолютний найрідкіший розчин з найкращим показником прогнозування, тоді L0 пенізована регресія (також найкраща підмножина, тобто заснована на пеналізації nr ненульових коефіцієнтів на відміну від суми абсолютного значення коефіцієнтів у LASSO) краще, ніж LASSO, див. наприклад l0araпакет, який наближає L0 пенізованих GLM, використовуючи ітеративну процедуру адаптивного гребеня, і який на відміну від LASSO також дуже добре працює з дуже колінеарними змінними, і L0Learnпакет , який може вмістити L0 пенізовані регресійні моделі, використовуючи координатний спуск , потенційно в поєднанні з покаранням L2 для регуляції колінеарності.

Отже, щоб повернутися до свого первинного питання: чому б не використовувати LASSO для варіативного вибору? :

(1) через те, що коефіцієнти будуть сильно зміщеними, що покращується при розслабленій регресії LASSO, MCP та SCAD і повністю вирішується в пенізованій регресії L0 (яка має повну властивість оракул, тобто вона може вибирати як причинно-наслідкові змінні, так і відновити неупереджені коефіцієнти, також для p> n випадків)

(2) тому, що вона має тенденцію створювати більше помилкових позитивних результатів, ніж L0 пенізована регресія (у моїх тестах l0araнайкраще тоді, тобто ітеративний адаптивний гребінь, за яким слідує L0Learn)

(3) тому що він не може добре впоратися з колінеарними змінними (він би по суті просто випадковим чином обрав одну з колінеарних змінних) - ітераційний адаптивний гребінь / l0araта покарання L0L2 L0Learnнабагато краще справляються з цим.

Звичайно, загалом вам доведеться використовувати перехресну перевірку для налаштування параметрів регуляризації для отримання оптимальної продуктивності прогнозування, але це не проблема. І ви навіть можете робити високомірні умовиводи щодо своїх параметрів і обчислювати 95% довірчі інтервали на ваших коефіцієнтах, якщо вам подобається за допомогою непараметричного завантаження (навіть з урахуванням невизначеності щодо вибору оптимальної регуляризації, якщо ви робите перехресну перевірку також для кожного завантаженого набору даних , хоча це стає досить повільним).

Обчислювально LASSO не помітно повільніше, ніж поетапно наближається до btw, звичайно, ні, якщо використовується високооптимізований код, який використовує теплі, починає оптимізувати ваше регуляризацію LASSO (ви можете порівнювати себе, використовуючи fsкоманду для вперед покроково та lassoдля LASSO в bestsubsetпакеті). Той факт, що ступінчасті підходи все ще популярні, мабуть, має відношення до помилкової віри багатьох, що тоді можна просто зберегти остаточну модель і повідомити про пов'язані з нею значення p - що насправді робити не правильно, оскільки це не так враховуйте невизначеність, введену вашим вибором моделі, в результаті чого занадто оптимістичні значення p.

Сподіваюся, це допомагає?


0

Одне велике - це складність проведення тестування гіпотез. Ви не можете легко зрозуміти, які змінні є статистично значимими для Lasso. За допомогою поетапної регресії ви можете певною мірою зробити тестування гіпотез, якщо ви обережно ставитесь до багаторазового тестування.


8
Я б сказав, що це перевага, а не недолік. Це заважає вам робити щось, чого ви, мабуть, не повинні робити.
Пітер Флом

@ Петер: Чому? Я припускаю, що ви правильно коректуєте для багаторазового тестування тощо, щоб отримані значення P були дійсними.
dimimcha

10
насправді не існує способу правильно виправити багаторазове тестування. Див., Наприклад, стратегії моделювання регресії Harrell. Неможливо дізнатися правильну корекцію
Пітер Флом

4
Це правда, що складність проведення тестування гіпотез є потенційним недоліком LASSO. Неправда, що це недолік щодо поетапної регресії.
gung - Відновіть Моніку

2
Добре, є селективна рамка виводу (реалізована в пакеті selectiveInference) для (LASSO) виводу після публікації ... Або для будь-якого варіативного методу вибору можна використовувати непараметричне завантаження, щоб зробити висновок і отримати довірчі інтервали для ваших оцінок параметрів. ..
Том Венселер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.