Еластичний / гребінний / ласо-аналіз, що тоді?


19

Мене дуже цікавить процедура еластичної сітки для усадки / відбору прогнозів. Це здається дуже потужним.

Але з наукової точки зору я не знаю добре, що робити, коли отримав коефіцієнти. На яке питання я відповідаю? Це ті змінні, які найбільше впливають на цей результат, і це коефіцієнти, які дають найкраще співвідношення дисперсії / зміщення під час перевірки?

Це, звичайно, дуже описовий / прогнозний підхід порівняно з класичним підходом інтервалу величини / довіри. Конференційне оцінювання зараз вивчається Tibshirani & Co., але все ще є експериментальним.

Деякі люди використовують змінні, вибрані еластичною сіткою, для того, щоб виконати класичний інфекційний аналіз, але це усуне обмеження у відхиленні, приведені методикою.

Інша проблема полягає в тому, що оскільки параметри лямбда та альфа для пружної сітки вибираються шляхом перехресної перевірки, вони підлягають випадковій мінливості. Тому щоразу, коли ви запустите (напр.) Cv.glmnet (), ви будете вибирати дещо інший підмножина предикторів з завжди різними коефіцієнтами.

Я хоч щодо вирішення цього питання, розглядаючи правильну лямбда та альфа як випадкові змінні та повторно виконайте крок перехресної перевірки n разів, щоб отримати розподіл цих параметрів. Таким чином, для кожного прогноктора я мав би кількість випадків, і для кожного коефіцієнта я мав би розподіл результатів. Це повинно дати мені більш узагальнені результати зі статистикою діапазонів (наприклад, sd коефіцієнтів). Також було б цікаво побачити, чи вибрали лямбда та альфа цей спосіб асимптотично до деякого розподілу, оскільки це відкриє шлях для певного тестування висновку (але я не статистик, тому я не повинен говорити про речі, які я роблю не повністю розумію).

Отже, нарешті, моє запитання: Як тільки ви отримаєте прогнози та коефіцієнти з еластичної сітки з перехресною валідацією на основі альфа та лямбда, які і як слід представити ці результати? Як ви повинні їх обговорити? чого ми дізналися? Яку гіпотезу / узагальнення ми плутаємо?


Я думаю, що це занадто широко / незрозуміло, щоб відповісти належним чином. У деяких випадках я вважаю ваші твердження незрозумілими (напр., Що ви маєте на увазі під назвою ", але це усуне обмеження у відмінність, приведене технікою "), а в деяких інших випадках вводяться в оману (наприклад, " щоразу, коли ви біжите (наприклад,) cv.glmnet () ви виберете дещо інший підмножина провісників з завжди різними коефіцієнтами "- це не так щоразу, і навіть коли це трапляється, як правило, це не катастрофічно, якщо CV було зроблено правильно.)
usεr11852 каже Reinstate Monic

мотивація, яку я бачив, як еластична сітка пов’язана із змінною кластеризацією (через розділ 2.3 документа, посвідчення еластичного чистого паперу), про який детальніше (через дещо інший метод) розгорнуто
user795305

Відповіді:


8

Ці методи - ласо і еластична сітка - народилися з проблем як вибору особливостей, так і прогнозування. Я думаю, що через ці два об'єктиви можна знайти пояснення.

Меттью Ганн чудово пояснює у своїй відповіді, що ці дві цілі виразні і часто вирішені різними людьми. Однак, на щастя для нас, методи, які нас цікавлять, можуть добре працювати на обох аренах.

Вибір функції

Спочатку поговоримо про вибір функції. Спершу слід мотивувати еластичну сітку з точки зору ласо. Тобто, цитуючи Хасті та Зуу , "Якщо є група змінних, серед яких парні кореляції дуже високі, то ласо має тенденцію вибирати лише одну змінну з групи і не байдуже, яку саме обрано". Наприклад, це проблема, тому що це означає, що ми, мабуть, не знайдемо елемента справжньої підтримки за допомогою ласо - лише один, який сильно корелює з нею. (У статті йдеться про те, що це підтверджено в роботі LARS, яку я ще не читав.) Про труднощі відновлення підтримки за наявності кореляції також вказує Вайнрайт , коли існує висока кореляція між справжньою підтримкою та її доповненням.0.5

Тепер покарання l2 в еластичній сітці заохочує особливості, які мають коефіцієнти, які розглядаються як невідмінні лише за втратою, а штраф l1 мають рівні розрахункові коефіцієнти. Ми можемо це вільно бачити, помічаючи, що задовольняє | а | = | б(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2. Завдяки цьому еластична сітка робить це таким чином, що ми рідше «випадково» зробимо зникнення оцінки коефіцієнта, що відповідає справжній опорі. Тобто справжня підтримка, швидше за все, міститиметься в межах оціночної підтримки. Це добре! Це означає, що є більше помилкових відкриттів, але це ціна, яку більшість людей готові платити.|a|=|b|

Як осторонь, варто зазначити, що той факт, що сильно корельовані характеристики мають, як правило, дуже схожі оцінки коефіцієнтів, робить це так, що ми можемо виявити групування ознак в межах оціночної підтримки, які впливають на відповідь аналогічно.

Прогнозування

Тепер переходимо до прогнозування. Як зазначає Метью Ганн, вибір параметрів настройки за допомогою перехресної перевірки створює мету вибрати модель з мінімальною помилкою передбачення. Оскільки будь-яка модель, обрана ласо, може бути обрана еластичною сіткою (приймаючи ), є певний сенс, що еластична сітка здатна знайти модель, яка прогнозує краще, ніж ласо.α=1

Ледерер, Ю. та Гайнанова ні в якому разі не припускають про особливості, що ласо і еластична сітка можуть бути помилкою прогнозування l2, обмеженою однаковою кількістю. Не обов'язково правда, що їхня межа обмежена, але це може бути цікаво відзначити, оскільки нерівності оракул, здається, є стандартним способом у статистичній літературі для кількісного визначення прогнозних показників оцінювачів - можливо, оскільки розподіли настільки складні! Варто також зазначити, що Lederer (1) (2) має деякі статті щодо прогнозування ласо за наявності корельованих ознак.

Підсумок

Підводячи підсумок, проблеми, що цікавлять, є справжньою підтримкою, яка знаходиться в межах передбачуваної підтримки та прогнозування. Для відновлення підтримки існують жорсткі перевірені гарантії (через Wainwright), що ласо вибирає правильні функції, які будуть в моделі, за умови, що низька кореляція між справжньою підтримкою та її доповненням. Однак за наявності кореляції ми можемо повернутися до еластичної сітки, щоб з більшою ймовірністю вибрати функції справжньої опори, щоб бути серед усіх, що вона вибирає. (Зверніть увагу, що ми повинні ретельно підбирати параметри настройки тут.) І для прогнозування, коли ми вибираємо параметр настройки шляхом перехресної перевірки, має інтуїтивний сенс, що еластична сітка повинна працювати краще, ніж ласо - особливо за наявності кореляції .

Відклавши передбачення та певну формальність, чого ми дізналися? Ми дізналися про справжню підтримку.

Інтервали довіри

Варто зазначити, що за останні 2 роки багато що змінилося щодо дійсного висновку для ласо. Зокрема, робота Лі, Сонця, Сонця та Тейлора дає точні умовиводи щодо коефіцієнтів ласо, обумовлених вибраною моделлю. (Результати висновку в ласо для справжніх коефіцієнтів були приблизно на час посади ОП, і вони добре підсумовані у зв'язаному документі.)


Чи було б правильно вважати, що оцінки регуляризованих коваріатів, ймовірно, більш схожі на ті, які ми могли б знайти, повторюючи дослідження? Тобто, оскільки регуляризація допомагає мінімізувати помилку передбачення вибірки, вона може допомогти мінімізувати різницю в оцінці вибірки та поза вибірці?
Бакабург

1
@ Бакабург, так, це має сенс сказати. Регуляризація створює оцінки з меншою дисперсією.
user795305

9

Те, що ви робите з еластичним, гребінним або ласо, використовуючи перехресну перевірку для вибору параметрів регуляризації, підходить до лінійної форми для оптимізації прогнозування . Чому саме ці параметри регуляризації? Тому що вони найкраще працюють для прогнозування нових даних. Скорочення оцінки коефіцієнта зменшення до нуля, введення зміщення (як це робиться або в хребті, або в Лассо) може зменшити надмірне оснащення і зменшити відхилення . Ідея полягає у тому, щоб ваші параметри штрафу мали правильний баланс, щоб оптимізувати прогнозування нових даних.

Уявіть, що процес генерації даних - це:

yi=f(xi,β)+ϵi

Дозволяти β^βy^jj

Як ви повинні представити свої результати? Це залежить від вашого основного дослідницького питання! Можливо, ви захочете відступити і подумати над тим, на яке питання ви намагаєтесь відповісти. Що вас цікавить? Що ви намагаєтесь зробити?

  • Прогноз?
  • Оцініть коефіцієнти?
  • Варіабельний вибір?

Важливо розрізняти два типи дослідницьких питань:

  1. y^j
  2. β^

y^β^

  • y^kn
  • Алгоритми, навчені різними складками, можуть мати суттєво різні оцінки параметрів.
  • Акцент у машинному навчанні робиться на прогнозуванні, а не послідовно оцінюючи причинно-наслідкові наслідки. (Це контрастує з економетрикою, де зазвичай головне питання полягає в послідовній оцінці причинних наслідків). Прогнозування, оцінюючи деяку функціональну форму, відрізняється від оцінки причинного зв'язку. Рівень поліції може бути хорошим прогнозувачем рівня злочинності, і це не означає, що поліція спричиняє злочинність.

Як ви визнаєте, можуть виникнути проблеми з інтерпретацією того, чому працює параметризація машинного навчання. Чи задоволена ваша аудиторія чорною скринькою передбачення? Або як прогнозування працює в центрі вашого питання?

Лассо та Рідж: класичні причини їх використання

  • y^

  • Ви можете використовувати регуляризацію для запобігання надмірного оздоблення. Напр. регресія хребта в контексті поліноміальної кривої може підійти досить добре.

  • Як вказує @Benjamin у своїй відповіді, Лассо також може бути використаний для вибору змінних. За певних умов регулярності Лассо послідовно вибирає відповідну модель: невідповідні коефіцієнти будуть встановлені на нуль.

L1L2

Що я продовжую повертатися, це те, що досить складно інтерпретувати результати запущеної регресії хребта, ласо або еластичної сітки без додаткового контексту того, що ви намагаєтеся з'ясувати!


Професор Сендхіл Муллайнатан виступив з доповіддю про машинне навчання на засіданні AFA у січні 2017 року, яке мотивувало частини цієї посади.


3
Такий спосіб мислення є недоліком на мою думку. Він ґрунтується на припущенні, що основне явище досить просте, щоб його зрозуміти людина. Високомірні моделі в більшості випадків занадто складні, щоб їх зрозуміти людина, але вони дуже підходять для широкомасштабного штучного інтелекту. Насправді найкращий предиктор - це найкраща інтерпретація явища, чи можете ви його осягнути чи ні.
Cagdas Ozgenc

2
@CagdasOzgenc Я думаю, що це справедливий момент, що деякі функції надзвичайно складні, важко описати людям, але зрозумілі та вивчені машинами (наприклад, оцінка шахової дошки). У цих ситуаціях може бути краще підняти руки, навіть не намагатися інтерпретувати те, чого навчилася машина. З іншого боку, існують такі ситуації, як випробування наркотиків, коли є причинний ефект, середня ефективність, яку ви намагаєтеся оцінити за наявності безлічі плутанини, ефектів відбору тощо. Це в певному сенсі різні проблеми та потреби різні техніки.
Меттью Ганн

1
y^
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.