Єдиний погляд на усадку: яке співвідношення (якщо воно є) між парадоксом Штейна, регресією хребта та випадковими ефектами у змішаних моделях?


64

Розглянемо наступні три явища.

  1. Парадокс Штейна: з огляду на деякі дані багатовимірного нормального розподілу в , середнє значення вибірки не є дуже хорошим оцінником справжнього середнього. Оцінку можна отримати з нижньою середньою помилкою у квадраті, якщо зменшити всі координати середнього зразка у напрямку до нуля [або до їх середнього значення, або насправді до будь-якого значення, якщо я правильно розумію].Rn,n3

    Примітка: зазвичай парадокс Штейна формулюється шляхом врахування лише однієї єдиної точки даних з ; будь ласка, виправте мене, якщо це вирішальне значення, і моя формуляра вище не є правильною.Rn

  2. Регресія хребта: задана деяка залежна змінна та деякі незалежні змінні , стандартна регресія tends щоб перенавантажувати дані та призводити до низької продуктивності, що не є вибіркою. Часто можна зменшити перевищення, зменшуючи до нуля: .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Випадкові ефекти в багаторівневих / змішаних моделях: враховуючи деяку залежну змінну (наприклад, зріст учня), яка залежить від деяких категоричних прогнозів (наприклад, ідентифікатор школи та стать студента), часто рекомендується ставитись до деяких предикторів як до "випадкових", тобто припускати, що середній зріст учня в кожній школі походить від деякого основного нормального розподілу. Це призводить до зменшення оцінок середньої висоти в школі до загальної середньої величини.y

У мене є відчуття, що все це різні аспекти одного і того ж явища "усадки", але я не впевнений і, безумовно, не вистачає доброї інтуїції щодо цього. Отже, моє головне питання: чи справді існує глибока схожість між цими трьома речами, чи це лише поверхня? Яка тут спільна тема? У чому полягає правильна інтуїція?

Окрім того, ось деякі фрагменти цієї головоломки, які мені не дуже підходять:

  • У регресії хребта не скорочується рівномірно; усадка хребта насправді пов'язана з розкладанням сингулярного значення , де напрямки з низькою дисперсією зменшуються більше (див., наприклад, Елементи статистичного навчання 3.4.1). Але оцінювач Джеймса-Штейна просто бере середню вибірку і помножує її на один коефіцієнт масштабування. Як це поєднується?XβX

    Оновлення: див. Оцінювач Джеймса-Штейна з неоднаковими відхиленнями і, наприклад, тут щодо варіацій коефіцієнтів.β

  • Середнє значення вибірки є оптимальним для розмірів нижче 3. Чи означає це, що коли у моделі регресії є лише один або два предиктори, регресія хребта завжди буде гіршою, ніж звичайні найменші квадрати? Власне, подумайте про це, я не можу уявити собі ситуацію в 1D (тобто простому, не множинному регресії), де усадка хребта була б корисною ...

    Оновлення: Ні. Див. За яких саме умов регресія хребта здатна забезпечити поліпшення порівняно з звичайною регресією найменших квадратів?

  • З іншого боку, середнє значення вибірки завжди неоптимальне в розмірах вище 3. Чи означає це, що з більш ніж 3-ма прогнозаторами регресія хребта завжди краща за OLS, навіть якщо всі предиктори некорельовані (ортогональні)? Зазвичай регресія хребта мотивована мультиколінеарністю і необхідністю "стабілізувати" термін.(XX)1

    Оновлення: так! Дивіться ту саму нитку, що і вище.

  • Часто виникають гострі дискусії щодо того, чи слід включати різні фактори в ANOVA як фіксовані або випадкові ефекти. Чи не слід ми, за тією ж логікою, завжди ставитися до фактору як до випадкового, якщо він має більше двох рівнів (або якщо факторів більше двох? Зараз я збентежений)?

    Оновлення :?


Оновлення: я отримав кілька відмінних відповідей, але жодна не дає достатньо великої картини, тому я дам питання "відкритим". Я можу пообіцяти присвоїти нагороду в розмірі щонайменше 100 балів за нову відповідь, яка перевершить існуючу. Я здебільшого шукаю об'єднавчого погляду, який міг би пояснити, як загальне явище усадки проявляється в цих різних контекстах, і вказати на принципові відмінності між ними.


Я розумію, що регресія хребта (і його двоюрідних братів, таких як Лассо та еластична сітка) скорочує коефіцієнти для корельованих змінних, поділених усіма спостереженнями в регресії (наприклад, соціально-економічний статус студента та GPA), тоді як модель випадкових ефектів виконує зменшення коефіцієнтів для взаємовиключні рівні або групи співвіднесених спостережень (наприклад, соціально-економічний статус учня, згрупований за ідентифікацією школи).
RobertF

3
Я думаю, що найкращим місцем для отримання об’єднуючої відповіді є перегляд ключового слова BLUP (для кращого лінійного неупередженого передбачувача) esp. в літературі по тваринництву. Дивіться, наприклад , опитування Робінсона в статистичній науці. Або книга
Сіань

2
@ Xi'an: Велике спасибі, я вже знайшов книгу Грубера сам, і хоча він, безумовно, багато обговорює як регрес Джеймса-Штейна, так і хребта, я не знайшов одразу жодного прямого порівняння цих двох (читаючи всю книгу - це зараз не варіант для мене ...). Дякую за посилання на опитування Робінсона, я погляну; розведення тварин ! хто б міг подумати. До речі, я бачив ваші коментарі до споріднених тем і здогадуєтесь, що ви, можливо, є одним із людей, які насправді могли б дати задовільну відповідь тут! Це було б чудово; поки що жодна відповідь не викликає у мене задоволення.
Амеба каже, що повернешся Моніку

2
@ Xi'an: Ну, ваші корисні коментарі нижче змушують мене пропустити відповідь тут. У всякому разі, я почав читати Робінсона і зрозумів, що "Найкращий лінійний неупереджений прогноз" - це необ'єктивний оцінювач (очевидно, оскільки він реалізує усадку)! Яка приємна термінологія.
Амеба повідомляє, що повернеться Моніка

4
Вони добре називають тваринництво: після того, як Casella & George 1992 "Gibbs for kids" повинні були змінити свою назву, щоб опублікувати, Wang & Gianola написали вступ "Гіббс для свиней" у 1993 році на зустрічі Європейської асоціації тваринництва!
Сіань

Відповіді:


30

Зв'язок між оцінкою Джеймса – Штейна та регресією хребта

Нехай - вектор спостереження довжини , , оцінювач Джеймса-Штейна є, З точки зору регресії хребта, ми можемо оцінити через де рішення Неважко помітити, що два оцінювачі знаходяться в одній формі, але нам потрібно оцінитиyθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 в оцінці Джеймса-Штейна і визначити в регресії хребта за допомогою перехресної перевірки.λ

Зв'язок між оцінкою Джеймса-Штейна та моделями випадкових ефектів

Давайте спочатку обговоримо моделі змішаних / випадкових ефектів у генетиці. Модель - Якщо немає фіксованих ефектів і , модель стає що еквівалентно встановленню оцінника Джеймса-Штейна, з деякими Байєсівська ідея.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Зв'язок між моделями випадкових ефектів та регресією хребта

Якщо ми зосередимось на моделях випадкових ефектів вище, Оцінка рівносильна для вирішення задачі коли . Доказ можна знайти у розділі 3 Розпізнавання образів та машинного навчання .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Зв'язок між (багаторівневими) моделями випадкових ефектів та моделлю генетики

У наведеній вище моделі випадкових ефектів розмірність дорівнює а розмір дорівнює . Якщо ми векторизуємо як і повторимо відповідно, то маємо ієрархічну / кластеризовану структуру, кластери і кожен з одиниць. Якщо ми регресуємо на повторному , то ми можемо отримати випадковий ефект на для кожного кластеру, хоча це на зразок зворотної регресії.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Підтвердження : перші три пункти багато в чому вивчені з цих двох китайських статей, 1 , 2 .


(+1) Дякую велике! Це дуже корисно, і я обов'язково загляну в підручник Бішопа, який добре знаю і часто консультуюсь. Я не очікував, що там знайду щось на змішаних моделях, але схоже, що розділ 3.3 "Байєсова лінійна регресія" насправді про це, просто використовує різну термінологію. Дуже добре знати! Але що ви ставитесь до моїх питань щодо кулі?
Амеба каже: Відновити Моніку

У вас занадто багато питань у дописі. :) 1) Як я відповів вище, оцінка Джеймса-Штейна і регресія хребта рівноцінні, коли немає коваріатів або просто матриці ідентичності. 2,3,4) як було зазначено @James, кількість предикторів ( вище) не обов'язково дорівнює розміру відповіді . Xpm
Рандель

До речі, я не можу побачити середню / середню вибірку, яка використовується в оцінці Джеймса-Штейна, вона фактично приймає оцінювач а потім зменшує його до . y0
Рандель

2
Оцінювач JS та регресія хребта відрізняються. Оцінка регресії хребта розмірного p-вектора відповідає матриці проектування , що призведе до оцінки , у якому в знаменнику JS-оцінювача відсутній термін (нелінійний!)pIp(1+λ)1Ipyy2
Андрій М

3
Я думаю, що все залежить від того, що ви називаєте оцінкою хребта. У ранньому розумінні Херла та Кеннард (1970) дійсно немає залежності від від даних. У пізнішому розумінні докторської дисертації Казелли (1978) ручне визначення замінюється функцією залишкової суми квадратів. λλ
Сіань

6

Я збираюся залишити його в якості вправи для спільноти плоті цієї відповіді, але в цілому причина усадка оцінок будуть * домінуючі * незсунені оцінки в кінцевих вибірках, тому що Байес оцінювачі не можуть домінувати , і багато оцінювачів усадки можуть бути отримані як Байес. 1234

Все це підпадає під егіду Теорії рішень. Вичерпним, але досить недружелюбним посиланням є "Теорія оцінки балів" Леманна та Казелли. Можливо, інші можуть приспівувати дружніші посилання?


1 розраховувачем від параметра на даних є домінував інший оцінювач , якщо для будь-якого ризику (наприклад, середньоквадратична помилка) з дорівнює або більше, ніж , і б'є принаймні для одного . Іншими словами, ви отримуєте рівну або кращу продуктивність для скрізь у просторі параметрів.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Оцінювачем є Байєс (у будь-якому разі втрата помилки в квадраті), якщо це задні очікування , враховуючи дані, під деякими попередніми , наприклад, , де очікування приймається з заднього. Природно, різні пріори призводять до різних ризиків для різних підмножин . Важливим прикладом іграшки є попереднє що ставить усі попередні маса про точку . Тоді ви можете показати, що оцінювач Байєса є постійною функцієюθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, що, звичайно, має надзвичайно хороші показники у та поблизу та дуже погані показники в інших місцях. Але, тим не менш, над нею не може домінувати, оскільки лише цей оцінювач призводить до нульового ризику при .θ0θ0

3 Природним питанням є те, якщо будь-який оцінювач, який не може бути домінованим (називається допустимим , хоч не був би незламним?), Повинен бути Байєсом? Відповідь майже. Див. "Теореми повного класу".

4 Наприклад, регресія хребта виникає як баєсова процедура, коли ви розміщуєте нормальну (0, ) до , а моделі випадкових ефектів виникають як емпірична баєсова процедура в подібних рамках . Ці аргументи ускладнюються тим фактом, що ванільна версія байєсівських теорем про прийнятність передбачає, що кожен параметр має належний попередній вміст. Навіть у регресії хребта це не відповідає дійсності, оскільки "попереднє" розміщення на дисперсії1/λ2βσ2Термін помилки - це постійна функція (міра Лебега), яка не є правильним (інтегральним) розподілом ймовірностей. Але, тим не менш, багато таких "частково" оцінок Байєса можна визнати допустимими, продемонструвавши, що вони є "межею" послідовності оцінювачів, які є належними Байесом. Але докази тут стають досить суперечливими і делікатними. Див. "Узагальнені оцінки баєсів".


1
Дякую багато, дуже цікаво (+1). Я можу лише побажати, щоб Ваша відповідь була більш детальною ... Повідомлення про свою виноску (3): Ви кажете, що всі оцінки Байєса допустимі / незмінні (мені подобається це слово), незалежно від попереднього? Але оцінювач Джеймса-Штейна може бути похідний від емпіричного Байєса; чому це тоді неприпустимо? Також це означатиме, що, наприклад, у регресії хребта я можу взяти попередньо зосереджену не навколо нуля, а навколо якогось іншого значення: , і все одно це буде розумна стратегія регуляризації? βN(β0,1/λ2)
Амеба каже: Відновити Моніку

2
З причини, чому оцінювач Джеймса-Штейна неприйнятний, відповідь можна знайти тут . Існує також детальна та цікава дискусія у Lehmann & Casella (1998), « Теорія оцінки точки» .
Рендел

@Randel: так, я знаю, що це неприпустимо, і я бачив це міркування, мені просто цікаво, як це підходить до заяви Ендрю (якщо я правильно це зрозумів), що всі оцінки Байєса допустимі, оскільки Джеймса-Штейна можна зрозуміти через емпіричне Байєс ...
Амеба заявила, що повернеться до Моніки

2
@Amoeba: так, будь-який оцінювач Байєса, який знаходиться заднім під будь-яким належним попереднім, призводить до прийнятного оцінки. Що стосується емпіричного Бейса, то такі процедури насправді не є бонафідними Бейсами, оскільки наявність попередньої залежності від даних може призвести до патологій. Іноді їх можна визнати прийнятними, іноді - ні, як правило, потрібно працювати в кожному конкретному випадку. Я відредагував свою відповідь, щоб бути трохи кемливішим з цього приводу, тому що насправді я не знаю, чи допустимі класичні лінійні змішані моделі!
Ендрю М

3
Потрібно лише зазначити, що справжні правильні оцінки Байєса рідко працюють як оцінки Джеймса-Штейна, оскільки вони не є мінімальними. Білл Штрадерман, наприклад, показав (у 1975 р.), Що не існує відповідного мінімакс-оцінника Байєса розмірами менше 5 для звичайної нормальної середньої задачі, яка все це задала.
Сіань

2
  • Джеймс-Штейн припускає, що розмірність реакції становить щонайменше 3. У стандартній регресії хребта реакція є одновимірною. Ви плутаєте кількість предикторів з виміром відповіді.

  • Якщо говорити, я бачу схожість між цими ситуаціями, але що саме робити, наприклад, чи повинен бути виправлений чи випадковий фактор, скільки зменшення застосовувати, якщо воно взагалі залежить від конкретного набору даних. Наприклад, чим більше ортогональних предикторів, тим менше має сенс вибрати регрес Рейда над стандартною регресією. Чим більша кількість параметрів, тим більше має сенс витягнути пріоритет із самого набору даних через Емпіричний Байєс і потім використовувати його для зменшення оцінок параметрів. Чим вище співвідношення сигнал / шум, тим менші переваги усадки тощо.


Дякую за відповідь. Що стосується вашої першої кулі: але те, що зменшується в регресії хребта, - це , яка має стільки ж вимірів, як і прогноктори, чи не так? β
амеба каже: Відновіть Моніку

1
Гаразд, тоді теоретично JS повинен працювати краще, припускаючи, що він поширився на випадок, коли MSE оцінюється, а матриця дисперсії-коваріації бета є довільною. У такому випадку JS не просто візьме точкову оцінку бета, а помножить її на коефіцієнт масштабування. Подібно до регресу хребта, різні компоненти бета-версії будуть зменшуватися по-різному.
Джеймс

Дуже хороший пункт про коваріаційну матрицю ! Я думаю, це відповідає (принаймні інтуїтивно) моєю першою кулею. β
амеба каже: Відновити Моніку

2
@James: лінійні моделі можна думати про проектування зразка (який живе в ) на -вимірний підпростір (стовпці, що охоплюються дизайнерською матрицею.) Зокрема, ми завжди могли б тривіально спроектувати його на ідентичність, яка те саме, що використовувати середнє вибіркове значення вектора, коли у вас є лише одне спостереження. Rnpn
Ендрю М

2

Як говорили інші, зв’язок між трьома полягає в тому, як ви включаєте попередню інформацію в вимірювання.

  1. У разі парадоксу Штейна ви знаєте, що справжня кореляція між вхідними змінними повинна бути нульовою (і всіма можливими мірами кореляції, оскільки ви хочете мати на увазі незалежність, а не просто некорельованість), отже, ви можете побудувати змінну краще, ніж просту вибіркова середня величина та придушення різних заходів кореляції. У байєсівській структурі ви можете побудувати попереднє, що буквально вниз зважує події, які призводять до кореляції між зразком середніх і важить до інших.
  2. У разі регресії хребта потрібно знайти хорошу оцінку для умовного значення очікування E (y | x). В принципі, це нескінченномірні проблеми і не визначені, оскільки у нас є лише обмежена кількість вимірювань. Однак попередні знання полягають у тому, що ми шукаємо функцію континууму, яка моделює дані. Це все ще не визначено, оскільки існує ще нескінченна кількість способів моделювання функцій континууму, але набір дещо менший. Регресія хребта - це лише один простий спосіб сортування можливих функцій континууму, тестування їх та зупинка на остаточному ступені свободи. Інтерпретація - це розмірне зображення VC: під час регресії хребта ви перевіряєте, наскільки добре af (x, p1, p2 ...) модель із заданим ступенем свободи описує невизначеність, властиву даним. Практично він вимірює, наскільки добре може бути f (x, p1, p2 ... ), а емпіричний P (p1, p2 ...) може реконструювати повний розподіл P (y | x), а не лише E (y | x). Таким чином, моделі з занадто великою мірою свободи (яка зазвичай перевищує) зважуються, оскільки більше середнього параметра після певного ступеня свободи дасть більші кореляції між параметрами і, отже, набагато ширше P (f (x, p1, p2). ..)) розподіли. Інша інтерпретація полягає в тому, що початкова функція втрат також є вимірювальною величиною, і вона оцінюється для даного зразка з невизначеністю, тому реальна задача полягає не в тому, щоб мінімізувати функцію втрат, а знайти мінімум, що значно нижчий ніж інші (практично змінюється від одного ступеня свободи до іншого - баєсівське рішення, тому один змінює кількість параметрів лише у тому випадку, якщо вони дають значне зниження функції втрат). Регресія хребта може бути інтерпретована як наближення до цих двох зображень (розмірність CV, очікувана втрата). У деяких випадках ви хочете віддати перевагу більш високим ступеням свобод, наприклад, у фізиці частинок ви вивчаєте зіткнення частинок, коли ви очікуєте, що утворюється кількість частинок буде розподілом Пуассона, тому ви реконструюєте доріжку частинок на зображенні (фото, наприклад ) таким чином, що надає перевагу заданій кількості треків і пригнічує моделі, які мають меншу або більшу інтерпретацію зображення треку.
  3. Третій випадок також намагається впровадити попередню інформацію в вимірювання, а саме, що з попередніх вимірювань відомо, що висоту учнів можна моделювати дуже добре, наприклад, по Гауссовим розподілам, а не Коші.

Отже, коротко кажучи, відповідь полягає в тому, що ви можете зменшити невизначеність вимірювання, якщо знаєте, чого очікувати, і класифікуєте дані за деякими попередніми даними (попередня інформація). Ці попередні дані - це те, що обмежує вашу функцію моделювання, яку ви використовуєте для відповідності вимірювань. У простих випадках ви можете записати свою модель в байєсівські рамки, але іноді це недоцільно, як, наприклад, при інтеграції всіх можливих функцій континуусів, щоб знайти ту, яка має байєсівське максимальне значення заднього.


2

Оцінювач Джеймса Штейна та регресія Рідж

Розглянемо

y=Xβ+ϵ

З ϵN(0,σ2I)

Найменше квадратне рішення має форму

β^=S1Xy , де .S=XX

β^ є неупередженим до і має матрицю коріансу . Тому ми можемо писатиβσ2S1

β^N(β,σ2S1) Зауважте, що - це максимальна оцінка ймовірності, MLE.β^

Джеймс Штейн

Для простоти для Jame Stein ми припускаємо . Потім Джеймс і Штейн додадуть пріоритет у форміS=Iβ

βN(0,aI)

І отримаємо задню частину форми , вони Потім оцінить допомогою і отримає оцінку Джеймса Штейна за формоюaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Регрес хребта

У хребті регресія зазвичай є стійкою (середнє значення 0, перехід 1 для кожного стовпця ), так що параметри регресії порівнянні. Коли це для .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Розрахунковий хребет регресія визначається як, , щоб бутиβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ зауважте, що є MLE.β^

Як було виведено ?? Нагадаємоβ^(λ)

β^N(β^,σ2S1) і якщо ми додамо байєсівський пріоритет

βN(0,σ2λI)

Тоді ми отримуємо

E(β|β^)=(S+λI)1Sβ^

Те саме, що оцінка регресії хребта . Отже, наведена тут початкова форма Джеймса Штейна приймає і .β^(λ)S=Ia=σ2λ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.