Чому саме оцінка максимальної вірогідності вважається частою методикою


19

Статистична статистика для мене є синонімом для спроб прийняти рішення, яке підходить для всіх можливих вибірок. Тобто, правило частого прийняття рішення завжди повинне намагатися мінімізувати ризик , що залежить від функції втрати та справжнього стану природи :δLθ0

Rfrеq=Еθ0(L(θ0,δ(Y))

Як максимальна ймовірність оцінки пов'язана з ризиком частості? З огляду на те, що це найчастіше застосовувана методика оцінки точок, яка використовується вестустами, має бути певний зв’язок. Наскільки я знаю, оцінка максимальної ймовірності є старшою від концепції частотистського ризику, але все ж має бути певний зв’язок, чому б інакше так багато людей стверджували, що це частофілістська техніка?

Найтісніший зв’язок, який я знайшов, - це те

"Для параметричних моделей, які задовольняють слабкі умови регулярності, максимальний показник ймовірності становить приблизно мінімакс" Wassermann 2006, p. 201 "

Прийнята відповідь або пов'язує оцінку максимальної точки ймовірності сильнішою до частолістського ризику, або дає альтернативне формальне визначення частолістського висновку, яке показує, що MLE є частою методикою виводу.


6
ML не звертає уваги на ризик! Це, власне, є частиною періодичної теоретичної критики М.Л. Я підозрюю, що на це питання може бути важко відповісти, оскільки він неявно використовує "Частота" у двох несумісних сенсах - одне - теоретичне рішення, посилаючись на функцію втрат, а інше неявно посилається на те, що не передбачає попереднього розподілу.
whuber

@whuber ML звертає увагу на ризик. Насправді це мінімізація при логарифмічних втратах при неналежному рівномірному попередньому.
Cagdas Ozgenc

4
@Cagdas Я вважаю, що це зазвичай не є ризиком для особи, яка приймає рішення: вона просто демонструє ML, як ніби це мінімізує ризик, якщо логарифмічні втрати - це ризик, який для них має значення. Звернення до "неналежної уніформи", до речі, нечасто.
whuber

1
Процедури оцінки @whuber Bayesian також використовують накопичені втрати журналу. Лише після цього застосовується ризик, який приймає рішення. Якщо ми говоримо про оптимізацію ризику, що приймає рішення, безпосередньо (а не через перехідний журнал втрат журналу), то в цьому відношенні більш відомі частофілістські процедури, тобто OLS.
Cagdas Ozgenc

Відповіді:


16

Ви застосовуєте відносно вузьке визначення частотизму та MLE - якщо ми трохи щедріші та визначаємо

  • Частотність: мета послідовності, (асимптотична) оптимальність, неупередженість та контрольовані показники помилок при повторній вибірці, незалежно від справжніх параметрів

  • MLE = оцінка точки + довірчі інтервали (CI)

тоді здається досить зрозумілим, що MLE задовольняє всі частістські ідеали. Зокрема, CI в MLE, як p-значення, керують коефіцієнтом помилок при повторній вибірці та не дають 95% області ймовірності для справжнього значення параметра, як думають багато людей - отже, вони проходять через та через частоту.

Не всі ці ідеї вже були присутні у фундаментальній праці Фішера 1922 р. «Про математичні основи теоретичної статистики» , але ідея оптимальності та неупередженості є, і Нейман останній додав ідею побудови КІ з фіксованими показниками помилок. Ефрон, 2013 р., "250-річний аргумент: віра, поведінка та завантажувальний тренінг" , підсумовує свою дуже читаючу історію дискусії Байєса / Частота:

На початку 1900-х рр. Частістська стрічка справді прокотилася. Рональд Фішер розробив теорію максимальної ймовірності оптимальної оцінки, показавши найкращу можливу поведінку для оцінки, а Єжи Нейман зробив те ж саме для інтервалів і тестів. Процедури Фішера та Неймана були майже ідеальним підходом до наукових потреб та обчислювальних меж науки ХХ століття, кидаючи байєсіанство в тіньове існування.

Що стосується вашого більш вузького визначення - я м'яко не погоджуюся з вашою передумовою, що мінімізація ризику частості (ФР) є головним критерієм, який вирішує, чи слід за методом філософії частолістів. Я б сказав, що мінімізація FR є бажаною властивістю випливає з філософії частолістської форми, а не передує їй. Отже, правило / оцінювач прийняття рішення не обов'язково мінімізувати FR, щоб бути частою, а мінімізація FR також не обов'язково говорить про те, що метод є частопеністським, але частоліст, сумніваючись, віддасть перевагу мінімізації FR.

Якщо ми поглянемо на MLE спеціально: Фішер показав, що MLE є асимптотично оптимальним (в цілому еквівалентним мінімізації FR), і це, безумовно, була однією з причин просування MLE. Однак він усвідомлював, що оптимальність не відповідає обмеженому розміру вибірки. І все-таки він був задоволений цим оцінником через інші бажані властивості, такі як послідовність, асимптотична нормальність, інваріантність при перетворенні параметрів, і не будемо забувати: простота обчислення. Зокрема, інваріантність підкреслюється в документі 1922 р. - з мого читання, я б сказав, що підтримка інваріантності при перетворенні параметрів та можливість позбутися пріорів взагалі були однією з його головних мотивацій у виборі MLE. Якщо ви хочете краще зрозуміти його міркування, я дуже рекомендую документ 1922 року,


2
Чи можу я узагальнити вашу відповідь, оскільки оцінювання максимальної точки ймовірності найчастіше використовується спільно з КІ або як частина тесту гіпотези (наприклад, тест на вірогідність), отже, це частоталістична методика? Якщо це так, я думаю, що це правильна відповідь, проте не та, на яку я сподівався. Я мав на меті формальний аргумент, чому максимальну ймовірність оцінки можна вважати частою методикою оцінки балів. Якщо це вимагає іншого формального визначення частотистських висновків, це теж добре.
Джуліян Карлс

1
Я, як правило, думаю про MLE як про рамки, що включають оцінки точок Фішера разом із ІС Неймана - саме так це навчається на уроці, і завдяки наведеним аргументам я вважаю, що це часто до кісток. Цікаво, скільки сенсу обговорювати, чи тільки MLE є частою оцінкою, без контексту того, як і для чого він використовується. Якщо ви хочете міркувань Фішера, я дуже рекомендую документ 1922 року - я б сказав, що причини, за якими він заявляє, є частолюбськими, хоча цього слова тоді ще не існувало. Я поширив свій коментар з цього приводу.
Флоріан Хартіг

1

В основному, з двох причин:

  • Максимальна ймовірність - це точкова оцінка параметрів моделі. Ми, байєси, люблять задній розподіл.
  • Максимальна ймовірність не передбачає попереднього розповсюдження. Ми, байєси, потрібні нашим пріорам, це може бути інформативним чи неінформативним, але воно має існувати

6
+1 Я просто хочу зазначити, що ви неявно позначаєте, що в цій відповіді "частоліст" порівнюється з "не-байєсівкою". Мова "Ми, байєси" також говорить про те, що "байєсів" посилається на якусь особисту характеристику чи приналежність до племені - майже так, ніби ви є родом ескімосів, а не набір прийомів та інтерпретацій.
whuber

4
З іншого боку, MLE можна легко отримати як байєсівська техніка. Це просто оцінка ПДЧ для будь-якої статистичної моделі з використанням єдиного попереднього.
Джуліян Карлс

3
MAPтакож є точковою оцінкою, і нахмуриться "Справжніми баянами"
Урі Горен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.