1) Чому шкода, заподіяна введенням зміщення, менша порівняно з коефіцієнтом виграшу у відхиленні?
Це не обов'язково, так зазвичай є. Чи вартий компроміс, це залежить від функції збитків. Але речі, які нас цікавлять у реальному житті, часто схожі на помилку у квадраті (наприклад, ми піклуємося більше про одну велику помилку, ніж про дві помилки наполовину менше).
Як контрприклад - уявіть, що для вступу до коледжів ми зменшуємо кількість балів SAT у бік середнього показника SAT за демографічними показниками (однак визначено). Якщо зробити все правильно, це зменшить дисперсію та середню квадратичну помилку оцінок (певної) здатності людини під час введення упередженості. Більшість людей вважають ІМХО, що такий компроміс неприйнятний.
2) Чому це завжди працює?
3) Що так цікавого в 0 (походження)? Зрозуміло, що ми можемо скорочуватися в будь-якому місці, де нам подобається (наприклад, оцінювач Штейна), але чи буде це так добре, як походження?
Я думаю, це тому, що ми зазвичай скорочуємо коефіцієнти або оцінку ефекту. Є підстави вважати, що більшість ефектів не є великими (див., Наприклад , прийом Ендрю Гельмана ). Один із способів сказати, що світ, де все впливає на все сильним ефектом, - це жорстокий непередбачуваний світ. Оскільки наш світ достатньо передбачуваний, щоб ми могли жити довгими життями і будувати напівстабільні цивілізації, то випливає, що більшість ефектів не є великими.
Оскільки більшість ефектів не великі, корисно помилково зменшити кілька дійсно великих, а також правильно зменшити навантаження незначних ефектів.
Я вважаю, що це лише властивість нашого світу, і ви, ймовірно, могли б побудувати самостійні світи, де усадка не є практичною (швидше за все, зробивши середньоквадратичну помилку непрактичною функцією втрат). Просто у нас не буває світ, у якому ми живемо.
З іншого боку, коли ми розглядаємо усадку як попередній розподіл в баєсовському аналізі, є випадки, коли усадка до 0 активно шкідлива на практиці.
Одним із прикладів є масштаб довжини в Гауссових процесах (де 0 є проблематичним). Рекомендація в посібнику Стана полягає у використанні попереднього, який ставить незначну вагу близько нуля, тобто ефективно «скорочує» малі значення від нуля. Аналогічно, рекомендовані пріори для дисперсії в негативному біноміальному розподілі ефективно стискаються від нуля. І останнє, але не менш важливе значення, щоразу, коли нормальний розподіл параметризований з точністю (як в INLA), корисно використовувати обернені гами або інші попередні розподіли, які скорочуються від нуля.
4) Чому різні універсальні схеми кодування віддають перевагу меншій кількості бітів навколо джерела? Чи є ці гіпотези просто більш імовірними?
П( i ) ≥ P( i + 1 )i