Чому усадка насправді працює, що так особливого в 0?


15

На цьому сайті вже розміщено повідомлення, що говорить про те саме: Чому працює усадка?

Але, хоча відповіді популярні, я не вірю, що суть питання справді вирішена. Цілком зрозуміло, що введення деякої упередженості в оцінку призводить до зменшення дисперсії та може покращити якість оцінки. Однак:

1) Чому шкода, заподіяна введенням зміщення, менша порівняно з коефіцієнтом виграшу у відхиленні?

2) Чому це завжди працює? Наприклад, у випадку регресії хребта: теорема існування

3) Що так цікавого в 0 (походження)? Зрозуміло, що ми можемо скорочуватися де завгодно (наприклад, Штейн оцінювач ), але чи буде це так добре, як походження?

4) Чому різні універсальні схеми кодування віддають перевагу меншій кількості бітів навколо джерела? Чи є ці гіпотези просто більш імовірними?

Очікуються відповіді з посиланням на перевірені теореми або встановлені результати.


@ KarolisKoncevičius, дякую за виправлення посилань! Зауважу, проте, що ваші редагування мови можуть бути не дуже корисними, крім останнього. Інші, здається, додають зайвий текст і тим самим роблять публікацію трохи менш читаною.
Річард Харді

1
3) "що такого цікавого в походженні?" як ви розумієте це твердження ?. якщо у вас є груповий коефіцієнт (наприклад, країна) та індивідуальний фактор (наприклад, місто), то усадка приведе до середнього рівня до країни, і тоді лише відхилення на рівні міста з достатньою кількістю даних матимуть коефіцієнт) - тобто ваша модель буде висунута на рівень групи (середня країна) (натискаючи коефіцієнти рівня міста до нуля) ... і так само для більшої кількості рівнів в ієрархіях (і кількох ієрархіях)
seanv507

Відповіді:


7

1) Чому шкода, заподіяна введенням зміщення, менша порівняно з коефіцієнтом виграшу у відхиленні?

Це не обов'язково, так зазвичай є. Чи вартий компроміс, це залежить від функції збитків. Але речі, які нас цікавлять у реальному житті, часто схожі на помилку у квадраті (наприклад, ми піклуємося більше про одну велику помилку, ніж про дві помилки наполовину менше).

Як контрприклад - уявіть, що для вступу до коледжів ми зменшуємо кількість балів SAT у бік середнього показника SAT за демографічними показниками (однак визначено). Якщо зробити все правильно, це зменшить дисперсію та середню квадратичну помилку оцінок (певної) здатності людини під час введення упередженості. Більшість людей вважають ІМХО, що такий компроміс неприйнятний.

2) Чому це завжди працює?

3) Що так цікавого в 0 (походження)? Зрозуміло, що ми можемо скорочуватися в будь-якому місці, де нам подобається (наприклад, оцінювач Штейна), але чи буде це так добре, як походження?

Я думаю, це тому, що ми зазвичай скорочуємо коефіцієнти або оцінку ефекту. Є підстави вважати, що більшість ефектів не є великими (див., Наприклад , прийом Ендрю Гельмана ). Один із способів сказати, що світ, де все впливає на все сильним ефектом, - це жорстокий непередбачуваний світ. Оскільки наш світ достатньо передбачуваний, щоб ми могли жити довгими життями і будувати напівстабільні цивілізації, то випливає, що більшість ефектів не є великими.

Оскільки більшість ефектів не великі, корисно помилково зменшити кілька дійсно великих, а також правильно зменшити навантаження незначних ефектів.

Я вважаю, що це лише властивість нашого світу, і ви, ймовірно, могли б побудувати самостійні світи, де усадка не є практичною (швидше за все, зробивши середньоквадратичну помилку непрактичною функцією втрат). Просто у нас не буває світ, у якому ми живемо.

З іншого боку, коли ми розглядаємо усадку як попередній розподіл в баєсовському аналізі, є випадки, коли усадка до 0 активно шкідлива на практиці.

Одним із прикладів є масштаб довжини в Гауссових процесах (де 0 є проблематичним). Рекомендація в посібнику Стана полягає у використанні попереднього, який ставить незначну вагу близько нуля, тобто ефективно «скорочує» малі значення від нуля. Аналогічно, рекомендовані пріори для дисперсії в негативному біноміальному розподілі ефективно стискаються від нуля. І останнє, але не менш важливе значення, щоразу, коли нормальний розподіл параметризований з точністю (як в INLA), корисно використовувати обернені гами або інші попередні розподіли, які скорочуються від нуля.

4) Чому різні універсальні схеми кодування віддають перевагу меншій кількості бітів навколо джерела? Чи є ці гіпотези просто більш імовірними?

П(i)П(i+1)i


1
Відповідь 1) насправді хороша!
Девід

Очевидно, що Ендрю Гелман мав на увазі стандартні моделі, де ми множимо коефіцієнти з вхідними даними. Це не обов'язково має бути так. Що робити, якщо ми коефіцієнт обернено входить у модель? Тоді 0 підірве речі.
Cagdas Ozgenc

1
@CowboyTrader Так, і є випадки використання в реальному світі, коли 0 проблематично, і ми скорочуємося (додаємо у відповідь). Тож я вважаю, що це трохи підтверджує те, що усадка до нуля - це лише евристика, яка трапляється (на практиці) часто, але не є фундаментальною математичною правдою.
Мартін Модрак

1
Вибачте за мою початкову реакцію. Ваша відповідь стає все більш змістовною. Зауважте, що усадка працює під іншими функціями втрат, а не лише під квадратними втратами. Справжня проблема, над якою я переживаю, це чому, до біса, це завжди працює? Для середніх / параметрів розташування 0, здається, магічне число.
Cagdas Ozgenc

σ

0

Рідж, ласо і еластична сітка схожі на байєсівські методи з пріорами, орієнтованими на нуль - див., Наприклад, Статистичне навчання з розрідженістю Хасті , Тібширані та Уейнрайта, розділ 2.9 Lq Penalties and Bayes Estimates: "Існує також байєсівський погляд на ці оцінки. ... Це означає, що оцінка ласо є байєсівським ПДЧ (максимальний апостеріорі), використовуючи лапласіанський поперед ".

Один із способів відповісти на ваше запитання ( what's so special about zero?) полягає в тому, що ефекти, які ми оцінюємо, в середньому дорівнюють нулю, і вони, як правило, невеликі (тобто наші пріори повинні бути зосереджені навколо нуля). Тоді зменшення оцінок до нуля є оптимальним у байєсівському розумінні, і через цю лінзу можна обдумати ласо, гребеня та еластичні сітки.


3
Скорочення до нуля - нічого особливого (за винятком того, що рівняння простіше, оскільки ви просто помножите результат на певний коефіцієнт). Ви також можете зменшитись до будь-якої іншої точки. Чим далі ця точка є від справжнього значення, тим менш хороші показники зменшення (але для будь-якої точки існує деяка кількість скорочення, яка дасть деяке збільшення продуктивності ... принаймні для гауссових розподілених змінних). Тож коли результат, як правило, далеко від нуля, то зменшення до нуля дасть лише незначне поліпшення.
Секст

1
@MartijnWeterings Чітко поставити пріоритет на саму правду буде ідеальним ("бичком очей"). Але чому зменшення до 0 все ж дає певне поліпшення? Це я за цим.
Cagdas Ozgenc

@CowboyTrader Зменшення будь-якого значення дає покращення. Ось чому він працює і для 0.
Секст

@MartijnWeterings Так, але межі теорії навчання, як правило, завжди залежать від походження. Вони кладуть кульку / багатогранник / тощо з центром походження. Це просто доказ зручності? Гіпотези MDL кодування кодують цілі числа, надаючи 0 найкоротшу довжину коду? Це збіг?
Cagdas Ozgenc

1
Тож скажіть, що ви виконуєте регресію хребта в тому випадку, якщо всі змінні насправді є частиною моделі (що часто не зустрічається на практиці), тоді це буде не так добре. Можливо, це мав на увазі Адріан, "ефекти в середньому дорівнюють нулю, і вони, як правило, невеликі" (я не знаю випадків, для яких це точно так. Але в машинному навчанні багато випадків, коли ми годуємо багато Параметри, а там, де їх багато, мабуть, не потрібні, тоді більшість ефектів дорівнює нулю чи малому.)
Секст
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.