Чи правда, що байєсцям не потрібні тестові набори?


9

Нещодавно я спостерігав за цим розмовою Еріка Дж. Ма і перевіряв його запис у блозі , де він цитує Радфорда Ніла, що байєсські моделі не надмірно (але вони можуть переповнювати ), і при їх використанні нам не потрібні тестові набори для їх перевірки (для мені здається, що цитати, швидше, говорять про використання набору валідації для регулювання параметрів). Чесно кажучи, аргументи мене не переконують, і я не маю доступу до книги, тож чи можете ви дати більш детальний та суворий аргумент за та проти такого твердження?

До речі, тим часом Ерік Ма вказав мені на цю дискусію на ту саму тему.


3
Один головний проріз у цьому аргументі щодо цієї розмови: Якщо ви робите MCMC, якщо ви не повністю досліджуєте задній, ваш висновок абсолютно недійсний. Якщо ви робите висновок в нейромережі Байєса, ви майже напевно не досліджували дуже великі ділянки задньої частини за допомогою MCMC. Тому вам краще розділити свої дані, щоб двічі перевірити свої умовиводи!
Кліф АВ

одне, що слід враховувати - це що ми оцінюємо чи підтверджуємо? можливо, ми не використовуємо всю інформацію, яку ми маємо (ні до того, ні до ймовірності). перевірка відповідності моделі може допомогти у відповіді на це питання.
ймовірністьлогічного

Відповіді:


5

Якщо ми будемо використовувати "єдину справжню модель" та "справжні пріори", що відображають деяку належну інформацію, отриману попередньою інформацією, то, наскільки я знаю, у Байєса справді не виникає надмірної проблеми, і те, що задній прогнозний розподіл, що дає дуже мало даних, буде належним чином невизначеним . Однак, якщо ми використовуємо якусь прагматично обрану модель (тобто ми вирішили, що, наприклад, коефіцієнт небезпеки є постійним у часі, а експоненціальна модель є відповідною, наприклад, що деякий коваріат не є в моделі = точка перед коефіцієнтом нуля) з деякою неінформативні або регуляризуючі пріори за замовчуванням, то ми справді не знаємо, чи це все ще стосується. У такому випадку вибір (гіпер-) пріорів має певну довільність до нього, що може спричинити або не призвести до хороших результатів прогнозування вибірки.

Таким чином, тоді дуже розумно задавати питання, чи добре буде працювати вибір гіперпараметра (= параметри гіперприорів) у поєднанні з обраною ймовірністю. Насправді, ви можете легко вирішити, що добре налаштувати свої гіперпараметри, щоб отримати бажану ефективність прогнозування. З цього погляду набір валідацій (або перехресне підтвердження) для налаштування гіперпараметрів та тестовий набір для підтвердження працездатності мають ідеальний сенс.

Я думаю, що це тісно пов'язане з низкою дискусій Ендрю Гелмана в його блозі (див., Наприклад, запис у блозі 1 , запис у блозі 2 , запис у блозі 3 у LOO for Stan та дискусії щодо задніх прогнозних перевірок), де він обговорює свої проблеми навколо (у певному сенсі правильно) стверджує, що байєсівці не повинні перевіряти, чи має їх модель сенс і щодо практичної оцінки байесівської моделі.

Звичайно, нас дуже часто цікавить використання методів Байєса в налаштуваннях, де попередньої інформації мало, і ми хочемо використовувати дещо інформативні пріори. У цей момент може стати дещо складним мати достатньо даних, щоб дістатися з будь-якого місця з валідацією та оцінкою на тестовому наборі.


2

Тож я відповів на питання про те, що ви посилаєтесь, і я переглянув відео та прочитав допис у блозі. Редфорд Ніл не каже, що байесівські моделі не надто підходять. Згадаймо, що перевиконання - це явище шуму, який трактується як сигнал і занесений в оцінку параметрів. Це не єдине джерело помилки вибору моделі. Дискусія Ніла ширша, проте, вдаючись до ідеї невеликого розміру вибірки, він наважився на обговорення переозброєння.

Дозвольте мені частково переглянути свою попередню публікацію про те, що байесівські моделі можуть наближатись до всіх байесівських моделей, але вони роблять це таким чином, що покращує прогнозування. Знову ж таки, повертаючись до визначення плутанини сигналу із шумом, невизначеність методів Байєса, задній розподіл - це кількісна оцінка цієї невизначеності щодо того, що таке сигнал, а що - шум. Роблячи це, байєсівські методи вводять шум в оцінки сигналу, оскільки вся задня частина використовується для виводу та прогнозування. Перебіг та інші джерела помилки класифікації моделей є різним типом проблеми в методах Байєса.

Для спрощення давайте приймемо структуру розмови Ма та зосередимось на лінійній регресії та уникаємо глибокої дискусії, оскільки, як він зазначає, альтернативні методи, про які він згадує, - це лише композиції функцій і існує прямий зв'язок між логікою лінійної регресія та глибоке навчання.

Розглянемо наступну потенційну модель

у=β0+β1х1+β2х2+β3х3.
Дозволяє створити широкий зразок розміру N складається з двох підпроборів, н1,н2, де н1 - це навчальний набір і н2- це набір перевірки. Ми побачимо, чому, дотримуючись кількох застережень, байесівські методи не потребують окремого набору для навчання та валідації.

Для цього обговорення нам потрібно створити ще вісім параметрів, по одному для кожної моделі. Вони єм18. Вони слідують за багаточленним розподілом і мають належні пріори, як і коефіцієнти регресії. Вісім моделей є

у=β0+β1х1+β2х2+β3х3,
у=β0,
у=β0+β1х1,
у=β0+β2х2,
у=β0+β3х3,
у=β0+β1х1+β2х2,
у=β0+β1х1+β3х3,
у=β0+β2х2+β3х3,
у=β0+β1х1,
у=β0+β2х2,
і
у=β0+β3х3.

Тепер нам потрібно потрапити в бур’яни щодо відмінностей між байєсівськими та частотологічними методами. У навчальному наборі,н1,модельєр, що використовує методи частоти, вибирає лише одну модель. Модельєр, що використовує байєсовські методи, не настільки обмежений. Хоча байєсівський моделер може використовувати критерій вибору моделі, щоб знайти лише одну модель, вони також вільні у використанні усереднення моделей. Байєсівський моделер також може змінювати вибрані моделі в середині потоку в сегменті перевірки. Більше того, моделер, що використовує байєсівські методи, може змішувати та співставляти між селекцією та усередненням.

Для прикладу в реальному світі я перевірив 78 моделей банкрутства. Із 78 моделей комбінована задня ймовірність 76 із них становила приблизно одну десятитисячну частку одного відсотка. Інші дві моделі складали приблизно 54 відсотки та 46 відсотків відповідно. На щастя, вони також не поділили жодних змінних. Це дозволило мені вибрати обидві моделі та ігнорувати інші 76. Коли у мене були всі точки даних для обох, я усереднював їх прогнози, виходячи із задніх ймовірностей двох моделей, використовуючи лише одну модель, коли у мене були відсутні пункти даних, які виключали інший. Хоча я мав навчальний набір і набір валідацій, це був не той самий привід, як у них часто. Крім того, наприкінці кожного дня протягом двох ділових циклів я оновлював свої афіші з даними кожного дня. Це означало, що моя модель в кінці валідаційного набору не була модель в кінці навчального набору. Байєсові моделі не перестають навчатися в той час, як це часто.

Щоб заглибитись, давайте конкретизуємо наші моделі. Припустимо, що під час навчального зразка найкраще підходили частотські моделі та байєсівська модель з використанням відповідного вибору моделі або, альтернативно, що вага моделі в усередненні моделі була настільки великою, що вона майже не відрізнялася від частотистської моделі. Ми будемо уявляти цю модель

у=β0+β1х1+β2х2+β3х3.
Уявімо також, що справжня модель в природі є
у=β0+β1х1+β3х3.

Тепер розглянемо різницю в наборі перевірки. Модель "Частота" переобладнана даними. Припустимо, що до певного моментун2iщо вибір моделі або процедура валідації змінила вибір на справжню модель в природі. Далі, якщо застосовувалося усереднення моделей, то справжня модель в природі мала вагу в передбаченні задовго до того, як вибір моделей був чіткий. Є.Т. Джейнс у своєму томі щодо теорії ймовірностей витрачає певний час на обговорення цього питання. У мене книга на роботі, тому я не можу отримати хорошу цитату, але ви повинні прочитати її. Її ISBN - 978-0521592710.

Моделі є параметрами в баєсівському мисленні і як такі є випадковими, або, якщо ви хочете, невизначеними. Ця невизначеність не закінчується в процесі перевірки. Він постійно оновлюється.

Через відмінності між методами Байесія та Частопедія, існують й інші типи випадків, які також слід враховувати. Перший виходить з параметри виводу, другий - з формальних прогнозів. У байєсівських методах вони не те саме. Байєсівські методи формально відокремлюють умовиводи і прийняття рішень. Вони також відокремлюють оцінку параметрів та прогнозування параметрів.

Уявімо собі, не втрачаючи загальності, що модель була б успішною, якби σ2^<кі невдача в іншому випадку. Ми будемо ігнорувати інші параметри, оскільки було б багато зайвої роботи, щоб отримати просту ідею. Для моделера, що використовує байєсівські методи, це питання зовсім іншого типу, ніж для питання, що використовує методи частості.

Для тесту частого лікаря складається гіпотеза, виходячи з навчального набору. Модельєр, що використовує методи частоти, перевірив би, чи розрахована дисперсія більша або дорівнюєк і спробувати відхилити нуль над зразком, розмір якого становить н2 шляхом фіксації параметрів до тих, що виявлені в н1.

Для моделера, що використовує байєсівські методи, вони формують оцінки параметрів протягом вибірки н1 і задня щільність н1 стане пріоритетом для вибірки н2. Якщо припустити властивість обмінності справедливою, то запевняється, що задні оцінкин2в усіх сенсах слова дорівнює оцінці ймовірності, сформованій із вибіркового зразка. Розщеплення їх на два зразки еквівалентно силою математики тим, що їх взагалі не розбивали.

Щодо прогнозів, подібне питання стосується. Методи Байєса мають прогнозний розподіл, який також оновлюється з кожним спостереженням, тоді як частотолог заморожується в кінці вибіркин1. Прогнозну щільність можна записати якПр(х~=к|Х). Якщох~ є передбачення і Х є вибіркою, тоді де параметри, які ми позначимо θ? Незважаючи на те, що системи прогнозування часто застосовуються, більшість людей просто трактують оцінки балів як справжні параметри і обчислюють залишки. Байєсівські методи оцінювали б кожен прогноз проти прогнозованої щільності, а не лише одного бала. Ці прогнози не залежать від параметрів, які відрізняються від точкових методів, що використовуються в рішеннях частот.

Як зауваження, формальна частота прогнозування частот існує, використовуючи стандартні помилки, і їх можна зробити, але на практиці це рідко. Якщо немає конкретних попередніх знань, то два набори прогнозів повинні бути однаковими для одного і того ж набору точок даних. Вони з часом відрізняються, оскількин1+н2>н1 і тому рішення Байєса міститиме більше інформації.

Якщо немає попередньої суттєвої інформації і якщо використовуються частоти прогнозування частот, а не точкові оцінки, то для фіксованого зразка результати байєсівських та частотологічних методів будуть ідентичними, якщо обрана одна модель. Якщо є попередня інформація, то метод Байєса, як правило, генерує більш точні прогнози. Ця різниця може бути дуже великою на практиці. Крім того, якщо є моделювання усереднення, то цілком ймовірно, що метод Байєса буде більш надійним. Якщо ви використовуєте вибір моделі та заморожуєте байєсівські передбачення, то немає різниці у використанні моделі "Частота" з використанням частотних прогнозів.

Я використовував набір тесту та перевірки, оскільки мої дані не підлягали обміну. Як результат, мені потрібно було вирішити дві проблеми. Перший подібний до вигорання в методах MCMC. Мені знадобився гарний набір оцінок параметрів, щоб почати свою тестову послідовність, і тому я використав п’ятдесят років попередніх даних, щоб отримати хорошу попередню щільність, щоб почати свій тест на перевірку. Друга проблема полягала в тому, що мені потрібна була певна форма стандартизованого періоду для тестування, щоб тест не ставив під сумнів. Я використав два попередні бізнес-цикли за датою NBER.


Але потім скажіть, що ви оцінили ПДЧ для лінійної регресійної моделі з "неінформативними" пріорами. Це було б еквівалентом отримання максимальної оцінки ймовірності для моделі, тому ML також не потребує тестового набору, припускаючи обмінність?
Тім

"перевиконання - це явище шуму, який трактується як сигнал і входить в оцінку параметрів". Я вважаю, що це визначення є специфічним для моделей аддитивного шуму. В іншому випадку переоцінка проти недостатнього визначення не так добре визначена.
Cagdas Ozgenc

@CagdasOzgenc спасибі У вас є запропонована редакція?
Дейв Харріс

@Tim Я ніколи не згадував оцінку MAP. Якщо ви зведете проблему до оцінки MAP, то ви віддасте надійність. Оцінювач MAP - це точка, яка мінімізує функцію витрат над щільністю. Це може бути проблематично для прогнозів, якщо щільність не має достатньої статистики. Оцінювач MAP, по суті, втрачає інформацію. Якщо ви використовували оцінювач MAP, який не в оригінальному запитанні і, очевидно, не є частиною презентації Ma, тоді ви створюєте для себе інший набір проблем.
Дейв Харріс

@Tim Оцінювач MAP походить від байєсівської теорії рішень, і це накладення верхньої частини байєсівської оцінки та умовиводу. ПДЧ зручно. Існує ціна, яку потрібно заплатити при виборі зручності. Якщо функція витрат на цінні або майже нічого не є вашою справжньою вартістю, ви передаєте інформацію та точність. Ви також закінчуєте різні методичні питання, ніж запропоновано у презентації Ма.
Дейв Харріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.