Яку проблему вирішують методи усадки?


61

Сезон відпусток дав мені змогу згорнутися біля вогню з елементами статистичного навчання . Виходячи з (частої) перспективи економетрики, у мене виникають проблеми з розумінням використання методів усадки, таких як регресія хребта, ласо і найменший кут регресії (ЛАР). Як правило, мене цікавлять оцінки самих параметрів та досягнення неупередженості або принаймні узгодженості. Методи усадки цього не роблять.

Мені здається, що ці методи застосовуються тоді, коли статистик переживає, що функція регресії стає занадто чуткою до прогнозів, що вважає прогнози важливішими (вимірюються величиною коефіцієнтів), ніж вони є насправді. Іншими словами, оздоблення.

Але, OLS, як правило, надає неупереджені та послідовні оцінки. (Виноска) Я завжди бачив проблему не в тому, щоб дати оцінку занадто великим, а надто малі інтервали довіри, оскільки процес відбору не враховується ( ESL згадує цей останній пункт).

Незаангажовані / послідовні оцінки коефіцієнтів призводять до об'єктивних / послідовних прогнозів результату. Методи усадки підштовхують прогнози ближче до середнього результату, ніж OLS, здавалося б, залишаючи інформацію на столі.

Повторюся, я не бачу, яку проблему намагаються вирішити методи усадки. Я щось пропускаю?

Виноска: нам потрібна умова повного ранжування стовпців для ідентифікації коефіцієнтів. Припущення про середню екзогенність / нуль для помилок та припущення про лінійні умовні очікування визначають інтерпретацію, яку ми можемо дати коефіцієнтам, але ми отримуємо об'єктивну або послідовну оцінку чогось, навіть якщо ці припущення не відповідають дійсності.


1
Тут є кілька пов'язаних питань. Це одне: stats.stackexchange.com/questions/10478/…
кардинал

2
Зауважте, що для вибору параметру усадки існують прості і досить слабкі умови для досягнення послідовності параметра. Про це детально йдеться у відомому документі Knight & Fu (2000) та висвітлюються випадки, що виходять далеко за регресію хребта та ласо. Послідовність вибору моделі також стала популярною темою за останні кілька років.
кардинал

@cardinal, дякую за покажчики для моделювання результатів узгодженості для ласо; Я буду дивитись. Звичайно, ці результати можна знайти і для OLS. Результати означають, що обидві процедури потрапляють до одного місця. Тому я досі не розумію, чому ми використовуємо ласо через OLS.
Чарлі

1
Послідовність моделі - це інше поняття, ніж асимптотична послідовність оцінок параметрів. Чи знаєте ви (знайомі) з цією різницею?
кардинал

@cardinal, За послідовністю моделі я вважаю, що ви маєте на увазі правильні прогнози. Ми можемо отримати це, використовуючи критерій AIC у процесі відбору за допомогою OLS. Я здогадуюсь, що ви маєте на увазі, що в межах межі Ласо вибирає правильну модель з "неправильними" коефіцієнтами?
Чарлі

Відповіді:


47

Я підозрюю, що ви хочете більш глибокої відповіді, і мені доведеться дозволити комусь іншому це надати, але я можу дати вам кілька думок щодо регресу хребта з розкутої, концептуальної точки зору.

Регресія OLS дає оцінку параметрів, які є неупередженими (тобто, якщо такі вибірки зібрані та параметри оцінюються невизначено, розподіл вибірки оцінок параметрів буде зосереджено на справжньому значенні). Більше того, розподіл вибірки матиме найменшу дисперсію від усіх можливих неупереджених оцінок (це означає, що в середньому оцінка параметра OLS буде ближчою до справжнього значення, ніж буде оцінка, отримана в рамках іншої неупередженої процедури оцінки). Це стара новина (і я вибачаюся, я знаю, що ви це добре знаєте), однак те, що дисперсія нижча , не означає, що вона страшенно низька. За певних обставин, дисперсія розподілу вибірки може бути настільки великою, що робить оцінювач OLS по суті нікчемним. (Одна з ситуацій, коли це могло статися - це високий рівень мультиколінеарності.)

Що робити в такій ситуації? Ну, може бути знайдено інший оцінювач, який має меншу дисперсію (хоча, очевидно, він повинен бути упередженим, враховуючи те, що було передбачено вище). Тобто ми торгуємо неупередженими за меншу дисперсію. Наприклад, ми отримуємо оцінки параметрів, які, ймовірно, істотно наближаються до справжнього значення, хоча, ймовірно, трохи нижче істинного значення. Чи доцільна ця компромісія - це судження, яке повинен зробити аналітик, зіткнувшись із цією ситуацією. У будь-якому випадку, регресія хребта - саме така методика. Наступна (повністю виготовлена) фігура призначена для ілюстрації цих ідей.

введіть тут опис зображення

Це забезпечує короткий, простий, концептуальний вступ до регресії хребта. Я знаю менше про lasso та LAR, але я вважаю, що можна застосувати ті самі ідеї. Більше інформації про регресію ласо та найменшого кута можна знайти тут , особливо корисним є посилання "просте пояснення ...". Це дає набагато більше інформації про методи усадки.

Я сподіваюся, що це має певну цінність.


12
Це дає деякі приємні концептуальні підказки. У другому абзаці багато уваги приділяється неупередженості, але важливий застереження відсутній. Якщо (а) лінійна модель не є "правильною" (і коли це?) Та (б) всі відповідні прогнози не будуть включені в модель, оцінки коефіцієнтів все ще будуть упередженими.
кардинал

5
Моє обмежене розуміння зміщення / відхилення від варіацій полягає в тому, що хтось шукає пояснення (як, можливо, оригінальний плакат) вважає за краще неупередженість, навіть якби дисперсія була більшою, але хтось, хто робить прогноз, цілком може віддати перевагу чомусь із невеликою дисперсією, навіть якщо упередженість вводиться.
Уейн

2
@Wayne: Дійсно, це (одна з) суть справи. Значна частина точок зору в ESL йде з точки зору прогнозування, і це обумовлює значну частину їх аналізу. Проведення висновку за одним коефіцієнтом, особливо в умовах спостереження, є дуже слизькою справою. Було б потрібно серйозно переконливо стверджувати, що оцінки коефіцієнтів були справді "неупередженими".
кардинал

1
Зважаючи на деякий час, я можу спробувати трохи пізніше розширити свої вже надмірно об'ємні коментарі.
кардинал

@gung, ось пов’язана мета-нитка, яка вас може зацікавити.
Річард Харді,

16

Помилка оцінювача - це поєднання (квадратних) зміщення та дисперсійних компонентів . Однак на практиці ми хочемо пристосувати модель до конкретної кінцевої вибірки даних і хочемо мінімізувати загальну помилку оцінювача, що оцінюється на конкретному зразку даних, який ми насправді маємо , а не нульову помилку в середньому для деякої сукупності зразків (чого у нас немає). Таким чином, ми хочемо зменшити як ухил, так і дисперсію, звести до мінімуму помилку, що часто означає жертву неупередженості, щоб зробити більше зменшення компонента дисперсії. Особливо це стосується невеликих наборів даних, де дисперсія, ймовірно, буде великою.

Я думаю, що різниця у фокусі залежить від того, хто цікавиться властивостями процедури чи отримує найкращі результати на певній вибірці. Типово часто лікарі вважають, що з ними легше впоратися в цих рамках; Байєси часто більше зосереджені на останніх.


9

Я думаю, що є кілька відповідей, які можуть бути застосовні:

  • Регресія хребта може забезпечити ідентифікацію, коли матриця предикторів не є повним рангом стовпця.
  • Lasso та LAR можна використовувати, коли кількість предикторів перевищує кількість спостережень (інший варіант несингулярного питання).
  • Lasso та LAR - алгоритми автоматичного вибору змінних.

Я не впевнений, що перший пункт щодо регресії хребта - це насправді особливість; Я думаю, що я скоріше міняю свою модель, щоб боротися з неідентифікацією. Навіть без зміни моделювання OLS забезпечує унікальні (і неупереджені / послідовні) прогнози результату в цьому випадку.

Я міг бачити, як другий момент може бути корисним, але вибір вперед також може працювати у випадку, коли кількість параметрів перевищує кількість спостережень, отримуючи неупереджені / послідовні оцінки.

Зрештою, вибір вперед / назад, як приклади, легко автоматизується.

Тож я досі не бачу справжніх переваг.


6
Деякі зауваження: ( 1 ) Оцінки OLS не є унікальними, коли матриця предикторів не повного рангу. ( 2 ) Послідовність є асимптотичним поняттям, тому необхідна послідовність оцінювачів. Це означає, що вам потрібно визначити тип послідовності, яку ви розглядаєте, а тип росту, який вас цікавить, має значення. ( 3 ) Існує кілька типів послідовності, і розуміння відмінностей між ними може бути наочним. У статті Zhao & Yu (2006) є приємна дискусія. ( 4 ) Незаангажованість завищена.
кардинал

1
( 5 ) Початковою мотивацією регресії хребта в Hoerl & Kennard (1970) було обробляти неправильно обумовлені дизайнерські матриці, що є "м'якою" формою дефіциту рангу.
кардинал

1
@cardinal, повторно. (1): Вибачте, я мав на увазі прогнози результату, а не оцінки коефіцієнтів.
Чарлі

1
Ну, тоді добре. Це квадрати краще з виноскою у запитанні.
кардинал

Ось посилання на загальнодоступну версію Zhao & Yu (2006), як у коментарі вище.
Річард Харді

4

Ось основний приклад прикладу з біостатистики

Припустимо, що я вивчаю можливі зв’язки між наявністю раку яєчників та набором генів.

Моя залежна змінна є двійковою (кодується як нуль або 1) Мої незалежні змінні кодують дані з протеомічної бази даних.

Як це прийнято в багатьох генетичних дослідженнях, мої дані набагато ширші, ніж високі. Я маю 216 різних спостережень, але 4000 або так можливих прогнозів.

Лінійна регресія виявляється правою (система жахливо над визначеною).

Методи вибору функцій насправді не здійснені. Із 4000+ різними незалежними змінними всі можливі підмножинні методи не підлягають сумніву, і навіть вибір послідовних функцій сумнівний.

Найкращий варіант - це, мабуть, використання логістичної регресії з еластичною сіткою.

Я хочу зробити вибір функції (визначити, які незалежні змінні важливі), тому регресія хребта насправді не підходить.

Цілком можливо, що існує більше 216 незалежних змінних, які мають значний вплив, тому я, мабуть, не повинен використовувати ласо (Лассо не може визначити більше прогнозів, ніж у вас є спостереження) ...

Введіть еластичну сітку ...


1
ви могли б надати підручник, який стосується таких ситуацій, про які ви згадали?
Qbik

0

Іншою проблемою, з якою можуть вирішуватися методи усадки лінійної регресії, є отримання низької дисперсійної (можливо, неупередженої) оцінки середнього ефекту лікування (АТЕ) у великомірних дослідженнях контрольних випадків на даних спостережень.

Зокрема, у випадках, коли 1) існує велика кількість змінних (ускладнює вибір змінних для точного узгодження); 2) відповідність балів схильності не вдається усунути дисбаланс в обробці та контрольних зразках; 3) присутня мультиколінеарність. є кілька методик, таких як адаптивне ласо (Zou, 2006), які отримують асимптотично неупереджені оцінки. Було кілька робіт, в яких обговорювалося використання регресії ласо для причинного висновку та генерування довірчих інтервалів на оцінках коефіцієнтів (див. Наступний пост: Висновок після використання Лассо для вибору змінної ).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.