Чому обмежена максимальна ймовірність дає кращу (неупереджену) оцінку дисперсії?


11

Я читаю теоретичний документ Дуга Бейтса про пакет lme4 R для того, щоб краще зрозуміти складність і змішаність моделей, і натрапив на інтригуючий результат, який я хотів би зрозуміти краще, щодо використання обмеженої максимальної ймовірності (REML) для оцінки дисперсії .

У розділі 3.3 щодо критерію REML він зазначає, що використання REML в оцінці дисперсії тісно пов'язане із застосуванням ступенів корекції свободи при оцінці відхилення від залишкових відхилень у встановленій лінійній моделі. Зокрема, "хоча зазвичай не виводяться таким чином", ступінь корекції свободи можна отримати, оцінюючи дисперсію шляхом оптимізації "критерію REML" (рівняння (28)). Критерій REML - це по суті лише ймовірність, але параметри лінійного пристосування були усунені маргіналізацією (замість того, щоб встановити їх рівним оцінці придатності, що дало б зміщення вибіркової вибірки).

Я зробив математику і перевірив заявлений результат для простої лінійної моделі з лише фіксованими ефектами. З чим я борюся - це тлумачення. Чи існує якась перспектива, з якої природно отримати оцінку дисперсії шляхом оптимізації ймовірності, коли параметри придатності були маргіналізовані? Це байєсівське відчуття, ніби я думаю про ймовірність як задню і маргіналізуючу підходящі параметри так, ніби вони є випадковими змінними.

Або виправдання в основному лише математичне - воно працює в лінійному випадку, але також є узагальнюючим?

Відповіді:


4

Відхилення дисперсії випливає з того, що середня оцінка була оцінена за даними, а отже, "розкид цих даних навколо цього оціненого середнього" (тобто дисперсія) менший, ніж поширення даних навколо "справжнього" середнього . Дивіться також: Інтуїтивне пояснення ділення на при обчисленні стандартного відхилення?n1

Фіксовані ефекти визначають модель "для середнього значення", тому, якщо ви можете знайти оцінку дисперсії, отриману без оцінки середнього значення з даних ("маргіналізація фіксованих ефектів (тобто середнє значення")), то це недооцінка розповсюдження (тобто дисперсія) буде зменшено.

Це "інтуїтивне" розуміння того, чому оцінки REML усувають зміщення; ви знаходите оцінку для дисперсії, не використовуючи «середню оцінку».


1

Перегляньте ДОДАТОК: МЕТОД ОЦІНУВАННЯ ПАМ'ЯТЬ із цього ресурсу, пов'язаного з SAS, від автора Девіда Дікі.

" Ми завжди можемо знайти (n-1) числа Z з відомим середнім 0 і тією самою сумою квадратів і теоретичною дисперсією, що й значення n Y. Це мотивує ділення суми Z квадратів на число Zs, яке n -1. "

Коли я був у середній школі, REML робився найкращим з тих пір, як нарізаний хліб. Вивчаючи пакет lme4 , я дізнався, що він насправді не так добре узагальнює і, можливо, це не так важливо в грандіозній схемі речей.


Можливо, ні ... цікавий математика та статистика, хоча.
Пол

Я згоден, Пол. Я думаю, що REML - прекрасний приклад елегантного та креативного вирішення проблем у статистиці. Це напевно звикає на практиці, і, можливо, це все, на що можна сподіватися в статистичних дослідженнях.
Бен Огорек
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.