Плутанина, пов’язана з еластичною сіткою


10

Я читав цю статтю, пов’язану з еластичною сіткою. Вони кажуть, що вони використовують еластичну сітку, тому що якщо ми просто використовуємо Лассо, вона, як правило, вибирає лише один предиктор серед сильних кореляторів. Але чи не це ми хочемо? Я маю на увазі, що це рятує нас від неприємностей мультиколінеарності, чи не так.

Будь-які пропозиції / роз’яснення?

Відповіді:


11

Припустимо, два прогноктори сильно впливають на відповідь, але сильно корелюються у вибірці, з якої ви будуєте свою модель. Якщо ви випадете з моделі, вона не спрогнозує добре для зразків з подібних сукупностей, у яких прогноктори не сильно корелюються.

Якщо ви хочете підвищити точність оцінок коефіцієнта за наявності мультиколінеарності, вам доведеться ввести трохи упередження, відключивши його за рахунок більшого зменшення дисперсії. Один із способів полягає в тому, щоб повністю видалити предиктори - за допомогою LASSO, або, за старих часів, поетапними методами -, який встановлює їхні оцінки коефіцієнта до нуля. Інша полягає в тому, щоб трохи змінити всі оцінки - з регресією хребта, або, за старих часів, регресуванням на перших кількох основних компонентах. Недоліком першого є те, що це дуже небезпечно, якщо модель буде використовуватися для прогнозування відповідей для прогнозованих моделей подалі від тих, що мали місце в оригінальній вибірці, тому що прогноктори, як правило, виключаються тільки тому, що вони не дуже використовують разом з іншими, майже колінеарні, прогнози. (Не те, що екстраполяція ніколи не є повністю безпечною.) Еластична сітка - це суміш цих двох, як пояснює @ user12436, і прагне зберігати групи корельованих предикторів у моделі.


Чому він не буде добре передбачати в цьому новому зразку?
користувач31820

1
Тому що в моделі відсутній важливий прогноз.
Scortchi

2
Якщо два предиктори співвідносяться в одній репрезентативній вибірці з популяцією, чи не слід їх співвідносити в іншій вибірці? якщо ви використовуєте модель для даних, які «відходять від тих, що мали місце в оригінальному зразку», чи не є прикордонним недійсне використання будь-якої моделі?
Метью Друрі

@MatthewDrury: Добре, якщо "правильна" модель - якщо немає непомічених непорозумінь, які варто турбувати, і якщо функціональна форма є екстраполяційною - то розподіл предикторів у вибірці не має значення (хоча, звичайно, це визначає точність оцінки та прогнози). Тож в одному крайньому випадку у вас може бути механістична модель, побудована на даних добре контрольованого експериментального дослідження причинних факторів; з іншого - емпірична модель, побудована на даних, зібраних із спостережливого дослідження, на купі змінних, які було просто виміряти.
Scortchi

Фраза: " за старих часів, покрокові методи змусили мене посміхнутися.: D (Очевидно +1, це хороша відповідь)
usεr11852

4

Але чи не це ми хочемо? Я маю на увазі, що це рятує нас від неприємностей мультиколінеарності, чи не так.

Так! і ні. Еластична сітка - це комбінація двох методів регуляризації, регуляризації L2 (використовується в регресії хребта) і регуляризації L1 (використовується в LASSO).

Lasso виробляє природні розріджені моделі, тобто більшість змінних коефіцієнтів будуть зменшені до 0 і фактично виключені з моделі. Таким чином, найменш значущі змінні зменшуються, перш ніж зменшувати інші, на відміну від хребта, де всі змінні скорочуються, а жодна з них насправді не зменшується до 0.

Еластична мережа використовує лінійну комбінацію обох цих підходів. Конкретний випадок, про який згадував Хасті при обговоренні методу, був у випадку великих p, малих n. Що означає: великі розмірні дані, порівняно мало спостережень. У такому випадку LASSO (повідомляється) вибиратиме лише коли-небудь n змінних, усуваючи при цьому всі інші, див. Статтю Hastie .

Це завжди залежатиме від фактичного набору даних, але ви добре можете уявити, що не завжди потрібно, щоб верхня межа кількості змінних у ваших моделях була рівною або меншою, ніж кількість ваших спостережень.


А як щодо мультиколінеарності. Еластична сітка дозволяє вибрати декілька колінеарних особливостей, що не добре, чи не так?
користувач31820

Я не думаю, що багато реальних наборів даних мають ідеально мультиколінеарні змінні. Сильно корельовані змінні можуть бути майже колінеарними, що все ще є проблемою, але ви можете бути готовими прийняти, якщо вони обидва важливі для вашої моделі.
значуще значення

Посилання, додане вище, веде до yahoo.com. Крім того, [стаття] ( onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/… ) є Zou та Hastie (Elastic net one).
KarthikS

2

І Лассо, і Еластична мережа є ефективними методами для вибору змінних або ознак вибору у великомірних параметрах даних (набагато більше змінних, ніж пацієнти або проби; наприклад, 20 000 генів і 500 зразків пухлини).

Було показано (Hastie та інші), що Elastic Net може перевершити Лассо, коли дані сильно корелюються. Лассо може просто вибрати одну з корельованих змінних і неважливо, яку саме вибрати. Це може бути проблемою, коли потрібно перевірити вибрані змінні в незалежному наборі даних. Змінна, обрана Лассо, може бути не найкращим прогнозувачем серед всіх корельованих змінних. Elastic Net вирішує цю проблему шляхом усереднення сильно корельованих змінних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.