Байесівські думки про переодягнення


20

Я багато часу приділяв розробці методів та програмного забезпечення для перевірки прогнозних моделей у традиційній періодичній статистиці. Втілюючи в життя більше ідей Баєса, я бачу деякі ключові відмінності. По-перше, байєсівське прогностичне моделювання просить аналітика подумати над попередніми розподілами, які можуть бути налаштовані під особливості кандидата, і ці пріори підтягнуть модель до них (тобто досягти усадки / пеналізації / регуляризації з різною сумою штрафу за різні прогнозні функції ). По-друге, "справжній" байєсівський шлях не призводить до єдиної моделі, а отримує цілий задній розподіл для прогнозування.

Маючи на увазі ці риси Байєса, що означає переодягнення? Чи варто це оцінювати? Якщо так, то як? Як ми можемо знати, коли байєсівська модель є надійною для використання на місцях? Або це суперечливий момент, оскільки задній буде переносити всі невизначеності, що надають обережність, коли ми використовуємо розроблену нами модель для прогнозування?

Як мінялося б мислення, якщо ми змусили байєсівську модель перегнати до єдиного числа, наприклад, заднього середнього / режиму / середнього ризику?

Я бачу деякі пов'язані з мисленням тут . Паралельне обговорення можна знайти тут .

Подальше запитання : Якщо ми повністю баєсіанські і витрачаємо деякий час на роздуми про пріорі перед тим, як побачити дані, і ми підходимо до моделі, де вірогідність даних була належним чином визначена, чи будемо ми змушені задовольнитись нашою моделлю щодо перевиконання ? Або нам потрібно робити те, що ми робимо в частістському світі, де випадково вибраний предмет може бути прогнозований в середньому добре, але якщо ми виберемо предмет, який має дуже низький прогноз, або той, який має дуже високе передбачуване значення, буде регресія до середнього?


1
Дивіться mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2
Тім

1
Ендрю Гельман має дуже релевантну статтю в блозі на сайті andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank

Відповіді:


6

Я можу почати з того, що байєсівська модель не може систематично перевищувати (або недооцінювати) дані, отримані з попереднього прогнозного розподілу, що є основою для процедури перевірки того, що програмне забезпечення Bayesian працює правильно, перш ніж його застосовувати до даних, зібраних з світ.

Але він може перевищувати один набір даних, отриманий з попереднього прогнозного розподілу, або єдиний набір даних, зібраний у світі, в тому сенсі, що різні прогнозні заходи, застосовані до даних, які ви обумовили, виглядають краще, ніж ті самі прогнозні заходи, що застосовуються до майбутніх даних, які є породжений тим самим процесом. Розділ 6 Байесівської книги Річарда МакЛарета присвячений переодяганню.

Тяжкість та частота надмірного пристосування можуть бути зменшені добрими приорами, особливо тими, які є інформативними щодо масштабу ефекту. Поставляючи зникнення попередньої ймовірності на неймовірно великі значення, ви відмовляєте задньому розподілу надто хвилюватися деяким ідіосинкратичним аспектом даних, які ви умовляєте, що може запропонувати неймовірно великий ефект.

Найкращі способи виявлення придатності передбачають перехресну валідацію "відключення", яку можна наблизити до заднього розподілу, який фактично не залишає спостережень поза набору кондиціонерів. Існує припущення, що жодне індивідуальне "спостереження" [*], яке ви умовляєте, не має надто великого впливу на задній розподіл, але це припущення можна перевірити, оцінивши розмір оцінки параметра параметра фігури в Узагальненому розподілі Парето, тобто підходять до важливості відбору ваг (які виходять з вірогідності вірогідності спостереження, оціненого за кожним малюнком із заднього розподілу). Якщо це припущення виконано, то можна отримати прогнозні заходи для кожного спостереження, як ніби це спостереження було опущено, заднє було виведене з умовного на інших спостереженнях, а заднє прогностичне розподіл було побудовано для опущеного спостереження. Якщо ваші прогнози щодо залишених спостережень страждають, то ваша модель спочатку була придатною. Ці ідеї реалізовані в Росіїloo- пакет для R, який включає цитати, такі як тут і там .

Що стосується перегонки на одне число, я люблю обчислювати частку спостережень, які потрапляють у 50% прогностичні інтервали. Наскільки ця пропорція перевищує половину, модель є надмірно придатною, хоча вам потрібно більше ніж кілька спостережень, щоб зменшити шум у функції індикатора включення. Для порівняння різних моделей (які можуть перевищувати) очікувану щільність прогнозування журналу (яка обчислюється looфункцією в цикліпакунок) - це хороший захід (запропонований IJ Good), оскільки він враховує можливість того, що більш гнучка модель може відповідати наявним даним краще, ніж менш гнучка модель, але, як очікується, прогнозує майбутні дані гірше. Але ці ідеї можна застосувати для очікування будь-якого прогностичного заходу (який може бути більш інтуїтивним для практикуючих); див. E_looфункцію в пакеті loo .

[*] Вам потрібно вибрати, що являє собою спостереження в ієрархічній моделі. Наприклад, вас цікавить прогнозування нового пацієнта чи новий момент часу для вже існуючого пацієнта? Ви можете це зробити будь-яким способом, але попередній вимагає, щоб ви (пере) записали функцію ймовірності, щоб інтегрувати параметри, що відповідають специфіці пацієнта.


2
Дуже інформативний Бен. Дуже дякую, що знайшли час для детальної відповіді. Щоб відповісти на ваше запитання щодо обсягу, я маю на увазі нових пацієнтів. Мені залишається загальне філософське питання, яке я додав до кінця початкового питання.
Френк Харрелл

2
Я схильний вважати такі перевірки як такі, що відображають наші попередні переконання, які ми не зробили або не змогли вбудувати в попередні розповсюдження, які ми використовували. Наприклад, у принципі вам слід вказати спільний попередній PDF-файл для всіх параметрів, але майже завжди є багато припущень, що це апріорі не залежить від цього , не тому, що ви дійсно вважаєте, що вони незалежні, а лише тому, що вказуєте багатоваріантна структура залежності дуже складна. Багатоваріантні функції, такі як прогнозування, можуть допомогти вам дізнатися після факту, чи були вхідні дані спільними зусиллями.
Бен Гудрич

Це має величезний сенс і є дуже проникливим. Мені залишається трохи труднощів щодо оцінки прогнозної точності для "екстремальних" суб'єктів, тобто тих, у кого дуже низькі або дуже високі прогнозовані значення. [І для Байєса, який передбачив значення. Це суб'єкти зі зміщеним заднім розподілом або ті, хто має середнє заднє низьке / високе?]
Френк Харрелл

1
Ще одна думка з цього приводу: Схоже, у багатьох ситуаціях практикуючі мають досить узгоджені та суперечливі переконання щодо знаменника правила Байєса. Наприклад, якщо у когось є той чи інший рак, який їх розподіл на час виживання, не обумовлюючи нічого іншого? Але важче і суперечливіше вказати чисельник Правила Байєса таким чином, що якщо ви інтегруєте всі параметри, вам залишиться те, що ви вважаєте знаменником. Прогностична перевірка (як попередня, так і задня) - це певний спосіб вирівняти числівник із знаменником Правила Байєса.
Бен Гудрих

1

Переобладнання означає, що модель добре працює на навчальному наборі, але погано працює на тестовому наборі. ІМХО, він походить з двох джерел: даних та моделі, яку ми використовуємо (або нашої суб'єктивності).

к

Як наслідок, якщо ми є частолюбивими, то джерело надягання походить від MLE. Якщо ми баєсийці, то це випливає з (суб'єктивного) вибору попереднього розподілу (і, звичайно, вибору ймовірності)). Тож навіть якщо ви використовуєте задній розподіл / середній / медіанний, ви вже перенасичені з самого початку, і ця накладка продовжується. Правильний вибір попереднього розповсюдження та вірогідність допоможе, але вони все ще є моделями, ви ніколи не зможете уникнути переобладнання повністю.


Ігноруючи правдоподібність даних, що є загальним для частістських та байєсівських підходів, ідея про те, що надмірне оснащення походить від вибору попереднього, є проникливою. Це означає, що немає можливості перевірити наявність примірності, тому що немає ніякого способу і не потрібно перевіряти попереднє, якщо ми все заздалегідь виконали, думаючи про попереднє. Але все одно я залишаюсь з відчуттям, що заглиблюється, що екстремальні передбачення виявлять надмірний (регрес до середнього). Попередній стосується параметрів, а не крайнощів у даних.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.