Якщо ви використовуєте точкову оцінку, яка максимізує


12

Якби хтось сказав

"Цей метод використовує MLE бальну оцінку для параметра, який максимізує , тому він є частосистемним; і далі він не баєсовский."P(x|θ)

ти погодився б?

  • Оновлення на задньому плані : нещодавно я прочитав статтю, яка стверджує, що вона часто. Я не згоден з їх твердженням, в кращому випадку я вважаю це неоднозначним. У цьому документі прямо не згадується ні MLE (ні MAP ). Вони просто беруть бальну оцінку, і вони просто діють так, як ніби ця бальна оцінка справжня. Вони цього не роблятьзробити будь-який аналіз розподілу вибірки цього оцінювача або щось подібне; модель досить складна, тому такий аналіз, мабуть, неможливий. Вони також не вживають слова "задній". Вони просто приймають цю бальну оцінку за номіналом і переходять до основної цікавої теми - виведення відсутніх даних. Я не думаю, що в їхньому підході є щось, що підказує, яка їх філософія. Вони, можливо, мали намір бути частоцистськими (бо відчувають себе зобов'язаними носити свою філософію на рукаві), але їх фактичний підхід досить простий / зручний / лінивий / неоднозначний. Зараз я схильний сказати, що дослідження насправді не має за собою філософії; натомість я думаю, що їхнє ставлення було більш прагматичним чи зручним:

    "Я помітив дані, , і я хочу оцінити деякі відсутні дані, . Є параметр який контролює взаємозв'язок між і . Мені не дуже цікаво за винятком засобу для досягнення . Якщо у мене є оцінка для , це спростить передбачення з . Я виберу точну оцінку тому що це зручно, зокрема я виберу що максимально збільшує . "г & thetas ; г х & thetas ; & thetas ; г х & thetas ; & thetas ; Р ( х | & thetas ; )xzθzxθθzxθθ^P(x|θ)

Ідея об'єктивного оцінювача , очевидно, є частою концепцією. Це пояснюється тим, що він не обумовлює дані, і він описує приємне властивість (неупередженість), яке би містило всі значення параметра.

У методах Байєса ролі даних і параметрів є певними зворотними. Зокрема, ми зараз визначаємо спостережувані дані та продовжуємо робити висновки про значення параметра. Це вимагає попереднього.

Поки що добре, але де MLE (Максимальна оцінка ймовірності) вписується у все це? У мене складається враження, що багато людей відчувають, що це частотант (а точніше, що це не баєс). Але я відчуваю, що це Байєс, тому що він включає взяття спостережуваних даних, а потім пошук параметра, який максимізує . MLE неявно використовує рівномірне попереднє та умовне використання даних та максимізацію . Чи справедливо сказати, що MLE виглядає як частолюдцем, так і баєсом? Або кожен простий інструмент повинен потрапити саме в одну з цих двох категорій?P ( p a r a m e t e r | d a t a )P(data|parameter)P(parameter|data)

MLE послідовний, але я вважаю, що послідовність може бути представлена ​​як байєсівська ідея. Давши довільно великі вибірки, оцінка сходить на правильну відповідь. Заява "оцінка буде дорівнює справжньому значенню" має значення для всіх значень параметра. Цікавим є той факт, що ця заява також справедлива, якщо ви дотримуєтесь спостережуваних даних, роблячи її баєсівською. Цей цікавий бік стосується MLE, але не для об'єктивного оцінювача.

Ось чому я вважаю, що MLE - це «найбейсеєвіший» метод, який можна охарактеризувати як частотний.

У будь-якому випадку, більшість властивостей частота (наприклад, неупередженість) застосовуються у всіх випадках, включаючи кінцеві розміри вибірки. Той факт, що послідовність зберігається лише в неможливому сценарії (нескінченна вибірка в рамках одного експерименту), говорить про те, що послідовність не є такою корисною властивістю.

З огляду на реалістичний (тобто кінцевий) зразок, чи існує властивість Frequentist, що відповідає дійсності MLE? Якщо ні, то MLE насправді не часто.


6
MLE не можна вважати баєсівським, починаючи з інтерпретації параметрів в обох парадигмах. З точки зору Байєса, параметр є випадковою змінною, тоді як у класичних параметрах - це значення, яке слід оцінити. MLE у багатьох випадках збігається з ПДЧ (і, можливо, іншими точковими байесівськими оцінками), але інтерпретація абсолютно інша.

3
@Procrastinator, ви можете опублікувати свій коментар як відповідь. Я не сподіваюся, що я його схвалюватиму чи не прийму, але просто відчуваю, що ваш коментар - це відповідь. Тоді ми з вами можемо видалити наші коментарі тут.
Аарон Макдейд

1
Я не розумію цього питання. (Я можу бути в цьому один.) Точно, що ви маєте на увазі під "частісткою"? "Не Баєсіан" не обійдеться, тому що це містить величезний спектр філософій та методів. Що робить щось "частичним властивістю"? Чи є взагалі якийсь зв’язок між вашим "частолюбистим" і, скажімо, Авраамом Вальдом чи Джеком Кіфер, який обґрунтовує статистичні процедури принципами теоретичних рішень? (Кіфер, зокрема, мав досить критичну думку про MLE на цій основі.)
whuber

3
@whuber: Ви не самотні. Один голос, який потрібно закрити, - мій і був зроблений день-два тому. На моє переконання, це питання не має певної чіткості та зосередженості, і воно не є конструктивним через його дискурсивне та дещо полемічне обрамлення.
кардинал

1
Модератори не хочуть закривати цю тему, оскільки вона зібрала багато відповідей (включаючи таку, яку було прийнято!) Та коментарів, що дозволяє припустити, що спільнота може не погодитися з вашою новою оцінкою цього потоку, Аарон.
whuber

Відповіді:


7

Або кожен простий інструмент повинен потрапити саме в одну з цих двох категорій?

Ні. Прості (і не дуже прості інструменти) можна вивчити з багатьох точок зору. Функція ймовірності сама по собі є наріжним каменем як в баєсівській, так і в частотній статистиці, і її можна вивчати з обох точок зору! Якщо ви хочете, ви можете вивчити MLE як приблизне рішення Байєса, або ви можете вивчити його властивості за допомогою асимптотичної теорії, часто.


4
Це неправильно Аарон. Часто користувачі використовують максимальну оцінку ймовірності і вірять у принцип ймовірності. К'єтіл має рацію, що ймовірність функціонування є ключовим елементом як байєсівського, так і частістського підходів до висновку. Але вони використовують його по-різному.
Майкл Р. Черник

3
Я дав дуже гарну відповідь на питання Аарона, але з якихось дивних причин люди заперечують це. Вони не повинні розуміти, що відбувається. Ні в якому разі не можна оцінити максимальну ймовірність як байєсівську, оскільки вона максимально збільшує ймовірність і взагалі не враховує попередні розподіли!
Майкл Р. Черник

4
(Я щойно видалив власний коментар, я намагаюся забезпечити, щоб я додав лише корисні коментарі.) Майкл, немає сенсу скаржитися на голоси, і ти не збираєшся співчувати, просто сказавши: "Вони не повинні розуміти, що таке продовжувати."
Аарон Макдейд

7
@Michael, ти коли-небудь був свідком продуктивного руху вперед і назад, що починається з "чому я був знятий з посади"? Я впевнений, що ні. Ось чому я (та кілька інших членів тут) відмовляю навіть починати розмову, незалежно від того, чи вважаєте ви це виправданим чи ні. Це безглуздо і, як правило, веде до розширеної дискусії поза темою.
Макрос

3
@Michael, я, безумовно, погоджуюся, що люб’язно люб’язно давати пояснення, і я намагаюся це зробити, якщо хтось ще не висловив своє занепокоєння в коментарях. Але якщо ви все-таки отримаєте мовчазне голосування, я сумніваюся, що поширення теми почне продуктивну розмову.
Макрос

10

Коли ви робите оцінку максимальної вірогідності, ви враховуєте значення оцінки та властивості вибірки оцінювача, щоб встановити невизначеність вашої оцінки, виражену довірчим інтервалом. Я думаю, що це важливо стосовно вашого запитання, оскільки інтервал довіри взагалі буде залежати від точок вибірки, яких не спостерігали, а деякі вважаються, як насправді, небайсейською властивістю.

PS Це пов'язано з більш загальним фактом, що оцінка максимальної ймовірності (точка + інтервал) не відповідає принципу ймовірності , в той час як повний (" стиль диких ") байєсівський аналіз робить.


+1. Думка про те, що усічений нормал спричинить інший задній куточок, цікава та дивовижна! Я прокоментував, що скептично ставлюсь, але цей коментар видалив. Мені потрібно ще трохи подумати над цим. Як правило, я вважаю, що Принцип ймовірності "очевидно правдивий", тому я повинен подумати над цим трохи більше.
Аарон Макдейд

Гарна точка Дзен. Я припускаю, що як бальна оцінка максимальної ймовірності оцінювання дотримується принципу ймовірності, але частофілістське поняття довірчих інтервалів не відповідає.
Майкл Р. Черник

@Zen, я не переконаний, що плакати однакові. У вас є посилання на це? Я створив Google Doc з моїм аргументом, що задні зміниться, коли ми замінимо нормальний на усічений нормальний. Заздалегідь спасибі.
Аарон Макдейд

6

Функція ймовірності - це функція, яка включає дані та невідомий параметр (и). Його можна розглядати як щільність ймовірності для спостережуваних даних із заданим значенням (ами) параметра (и). Параметри фіксуються. Тож сама по собі ймовірність є поняттям, що часто зустрічається. Максимізація ймовірності полягає лише в тому, щоб знайти конкретне значення (параметри) параметра (и), завдяки якому ймовірність приймає максимальне значення. Таким чином, оцінка максимальної вірогідності - метод частінгу, заснований виключно на даних та формі моделі, яка передбачається, що їх генерують. Оцінка Байєса вводиться лише тоді, коли попередній розподіл розміщений на параметрі (ях) і використовується формула Байєса для отримання апостеріорного розподілу для параметрів (ів) шляхом поєднання попереднього з вірогідністю.


Усі розміщені тут коментарі переміщені до спеціалізованої кімнати чату . Якщо у когось є труднощі приєднатися до цієї кімнати, і лише в цьому випадку, будь ласка, позначте увагу модератора. Подальші коментарі не приймаються.
chl

6

Якщо припустити, що під «Байєсіаном» ви посилаєтесь на суб’єктивного Байєса (він же епістемічний Байєс, Де-Фінетті Байес), а не поточного емпіричного значення Байєса - це далеко не банально. З одного боку, ви робите висновок лише на основі даних. Суб’єктивних переконань під рукою немає. Це здається достатньо частолюбним ... Але критика, висловлена ​​навіть у самого Фішера (суворого не (суб'єктивного) баєса), полягає у тому, що у виборі вибіркового розподілу суб'єктивність даних проповзла. Параметр визначається лише з урахуванням нашого переконання процесу генерування даних.

На закінчення - я вважаю, що MLE, як правило, вважається концепцією частолістів, хоча це лише питання про те, як ви визначаєте "частофіціалістів" та "баєсів".


+1: Це те, що я намагався отримати в коментарі вище.
Ніл G

1

(відповідаючи на власне запитання)

Оцінка є функцією , яка приймає деякі дані і виробляє ряд (або діапазон чисел). Сам по собі оцінювач насправді не є «байєсівським» або «частістським» - ви можете думати про це як про чорну скриньку, де надходять цифри і виходять цифри. Ви можете представити один і той же оцінка частолісту і баєсу, і вони будуть по-різному говорити про оцінювач.

(Я не задоволений своєю спрощеною відмінністю між частофілістськими та байєсівськими - є й інші питання, які слід розглядати. Але для простоти давайте робити вигляд, що це лише два чітко визначені філософські табори.)

Ви не можете сказати, чи є дослідником часто баєсівський саме за тим, який оцінювач вибирають. Важливо - слухати, які аналізи вони роблять на оцінювачі та які причини вони вибирають для вибору цього оцінювача.

θP(x|θ)

Коли таке ж програмне забезпечення представлено байєсів, байєсівці можуть бути задоволені великою частиною аналізу часто. Так, за інших рівних умов, упередженість не є доброю, а послідовність - це добре. Але байєсівці більше цікавлять інші речі. Байєсівський захоче перевірити, чи приймає оцінювач форму якоїсь функції заднього розподілу; і якщо так, то який раніше використовувався? Якщо оцінювач ґрунтується на задній частині, байєсів буде задаватися питанням, чи хороший попередній. Якщо вони задоволені попереднім і якщо оцінювач повідомляє про режим заднього (на відміну, скажімо, середнього заднього), то вони із задоволенням застосовують цю інтерпретацію до оцінки: "Ця оцінка є суть підрахунок, який має найкращі шанси бути правильним ".

Я часто чую, як кажуть, що часто відвідувачі та байєсівці «інтерпретують» речі по-різному, навіть коли кількість залучених осіб однакова. Це може бути трохи заплутано, і я не думаю, що це насправді правда. Їх інтерпретації не суперечать один одному; вони просто роблять заяви про різні аспекти системи. Відкладемо осторонні оцінки на даний момент і замість них розглянемо інтервали. Зокрема, існують часті інтервали довіри та достовірні інтервали баєсів . Зазвичай вони дадуть різні відповіді. Але в певних моделях, з певними пріорами, два типи інтервалу дадуть однакову числову відповідь.

Коли інтервали однакові, як ми можемо інтерпретувати їх по-різному? Частіст скаже про оцінку інтервалу:

Перш ніж я побачу дані або відповідний інтервал, можу сказати, що існує хоча б 95% ймовірність того, що справжній параметр буде міститися в інтервалі.

тоді як баєсівський скаже про оцінку інтервалу:

Після того, як я бачу дані або відповідний інтервал, можу сказати, що існує хоча б 95% ймовірність того, що справжній параметр міститься в інтервалі.

Ці два твердження ідентичні, крім слів «До» та «Після». Баєсій зрозуміє і погодиться з попереднім твердженням, а також визнає, що його правда не залежить від будь-якого попереднього, тим самим зробивши його «сильнішим». Але кажучи як байєсів, я б хвилювався, що колишня заява може бути не дуже корисною . Останнім твердженням частофілісту не сподобається, але я не розумію його досить добре, щоб дати чітку характеристику заперечень частоліста.

Переглянувши дані, чи все ще часто буде оптиміст, що справжнє значення міститься в інтервалі? Можливо, не. Це дещо контрінтуїтивно, але важливо для дійсного розуміння довірчих інтервалів та інших концепцій, заснованих на розподілі вибірки. Ви можете припустити, що частофіліст все ще скаже "З огляду на дані, я все ще думаю, що на цьому інтервалі є 95% ймовірність того, що справжнє значення є". Частолістці не тільки ставлять під сумнів, чи це твердження правдиве, вони також ставлять під сумнів, чи є сенс приписувати ймовірності таким чином. Якщо у вас є додаткові запитання щодо цього, не запитуйте мене, це питання для мене занадто багато!

Байєсівський радо висловлює це твердження: "За умови, що я щойно бачив дані, вірогідність 95%, що справжнє значення знаходиться в цьому діапазоні".

Я мушу визнати, що я трохи заплутався в одному заключному пункті. Я розумію і погоджуюсь із твердженням, яке висловлював частоліст до того, як дані з’являться. Я розумію і погоджуюсь із твердженням, яке висловив Байєсій після того, як дані з’являються. Однак я не настільки впевнений, що скаже частоліст після того, як побачать дані; чи зміниться їхня віра про світ? Я не в змозі зрозуміти тут філософію частолістів.


1
Хоча я знаходжу багато цього чіткого та міркуючого, але цілком ігнорується щось фундаментальне, а це взагалі різні інтерпретації ймовірності. Також останні два абзаци не стосуються жодного я бачив аналізу чи тлумачення. Дійсно, я не визнаю жодного практикуючого статиста у вашому "частолюдисті" (який звучить як античний філософ). Хто - принаймні після Арістотеля - коли-небудь говорив, що аналіз їх даних завершений до того, як отримані дані? Це солом’яна людина за спробу просунути байєсівський підхід?
whuber

1
@whuber, якщо це солом'яна людина, це не навмисно. Завжди важко здійснити будь-яку спробу повідомити про думку інших, не випадково включивши до неї судження. І я не претендую на широке розуміння багатьох позицій нюансів. Я спробую переглянути свій останній абзац. Крім того, ви кажете, що я взагалі залишив "різні трактування ймовірності". Я б краще сказати нічого, ніж сказати щось неправильне. Неможливо сказати все. Я можу спробувати дати тобі правду і нічого, крім правди, але я не можу дати тобі всю правду :-)
Аарон Макдейд

(+1) Ти маєш рацію, тут триває довга дискусія, і не можна висвітлити кожну точку в одному дописі. Я підтримую цю відповідь за її ретельне та продумане викладення (але не тому, що я з усім згоден!).
whuber

Я відредагував останні кілька абзаців, щоб спробувати стати справедливішим; від "Після перегляду даних ..." далі. Я не експерт, тому намагаюся бути чесно розпливчаним, де я виходжу з глибини. Дякуємо за відгук.
Аарон Мак-Дейд

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.