Розглянемо наступні три явища.
Парадокс Штейна: з огляду на деякі дані багатовимірного нормального розподілу в , середнє значення вибірки не є дуже хорошим оцінником справжнього середнього. Оцінку можна отримати з нижньою середньою помилкою у квадраті, якщо зменшити всі координати середнього зразка у напрямку до нуля [або до їх середнього значення, або насправді до будь-якого значення, якщо я правильно розумію].
Примітка: зазвичай парадокс Штейна формулюється шляхом врахування лише однієї єдиної точки даних з ; будь ласка, виправте мене, якщо це вирішальне значення, і моя формуляра вище не є правильною.
Регресія хребта: задана деяка залежна змінна та деякі незалежні змінні , стандартна регресія tends щоб перенавантажувати дані та призводити до низької продуктивності, що не є вибіркою. Часто можна зменшити перевищення, зменшуючи до нуля: .
Випадкові ефекти в багаторівневих / змішаних моделях: враховуючи деяку залежну змінну (наприклад, зріст учня), яка залежить від деяких категоричних прогнозів (наприклад, ідентифікатор школи та стать студента), часто рекомендується ставитись до деяких предикторів як до "випадкових", тобто припускати, що середній зріст учня в кожній школі походить від деякого основного нормального розподілу. Це призводить до зменшення оцінок середньої висоти в школі до загальної середньої величини.
У мене є відчуття, що все це різні аспекти одного і того ж явища "усадки", але я не впевнений і, безумовно, не вистачає доброї інтуїції щодо цього. Отже, моє головне питання: чи справді існує глибока схожість між цими трьома речами, чи це лише поверхня? Яка тут спільна тема? У чому полягає правильна інтуїція?
Окрім того, ось деякі фрагменти цієї головоломки, які мені не дуже підходять:
У регресії хребта не скорочується рівномірно; усадка хребта насправді пов'язана з розкладанням сингулярного значення , де напрямки з низькою дисперсією зменшуються більше (див., наприклад, Елементи статистичного навчання 3.4.1). Але оцінювач Джеймса-Штейна просто бере середню вибірку і помножує її на один коефіцієнт масштабування. Як це поєднується?X
Оновлення: див. Оцінювач Джеймса-Штейна з неоднаковими відхиленнями і, наприклад, тут щодо варіацій коефіцієнтів.
Середнє значення вибірки є оптимальним для розмірів нижче 3. Чи означає це, що коли у моделі регресії є лише один або два предиктори, регресія хребта завжди буде гіршою, ніж звичайні найменші квадрати? Власне, подумайте про це, я не можу уявити собі ситуацію в 1D (тобто простому, не множинному регресії), де усадка хребта була б корисною ...
Оновлення: Ні. Див. За яких саме умов регресія хребта здатна забезпечити поліпшення порівняно з звичайною регресією найменших квадратів?
З іншого боку, середнє значення вибірки завжди неоптимальне в розмірах вище 3. Чи означає це, що з більш ніж 3-ма прогнозаторами регресія хребта завжди краща за OLS, навіть якщо всі предиктори некорельовані (ортогональні)? Зазвичай регресія хребта мотивована мультиколінеарністю і необхідністю "стабілізувати" термін.
Оновлення: так! Дивіться ту саму нитку, що і вище.
Часто виникають гострі дискусії щодо того, чи слід включати різні фактори в ANOVA як фіксовані або випадкові ефекти. Чи не слід ми, за тією ж логікою, завжди ставитися до фактору як до випадкового, якщо він має більше двох рівнів (або якщо факторів більше двох? Зараз я збентежений)?
Оновлення :?
Оновлення: я отримав кілька відмінних відповідей, але жодна не дає достатньо великої картини, тому я дам питання "відкритим". Я можу пообіцяти присвоїти нагороду в розмірі щонайменше 100 балів за нову відповідь, яка перевершить існуючу. Я здебільшого шукаю об'єднавчого погляду, який міг би пояснити, як загальне явище усадки проявляється в цих різних контекстах, і вказати на принципові відмінності між ними.