Тож я відповів на питання про те, що ви посилаєтесь, і я переглянув відео та прочитав допис у блозі. Редфорд Ніл не каже, що байесівські моделі не надто підходять. Згадаймо, що перевиконання - це явище шуму, який трактується як сигнал і занесений в оцінку параметрів. Це не єдине джерело помилки вибору моделі. Дискусія Ніла ширша, проте, вдаючись до ідеї невеликого розміру вибірки, він наважився на обговорення переозброєння.
Дозвольте мені частково переглянути свою попередню публікацію про те, що байесівські моделі можуть наближатись до всіх байесівських моделей, але вони роблять це таким чином, що покращує прогнозування. Знову ж таки, повертаючись до визначення плутанини сигналу із шумом, невизначеність методів Байєса, задній розподіл - це кількісна оцінка цієї невизначеності щодо того, що таке сигнал, а що - шум. Роблячи це, байєсівські методи вводять шум в оцінки сигналу, оскільки вся задня частина використовується для виводу та прогнозування. Перебіг та інші джерела помилки класифікації моделей є різним типом проблеми в методах Байєса.
Для спрощення давайте приймемо структуру розмови Ма та зосередимось на лінійній регресії та уникаємо глибокої дискусії, оскільки, як він зазначає, альтернативні методи, про які він згадує, - це лише композиції функцій і існує прямий зв'язок між логікою лінійної регресія та глибоке навчання.
Розглянемо наступну потенційну модель
у=β0+β1х1+β2х2+β3х3.
Дозволяє створити широкий зразок розміру
N складається з двох підпроборів,
н1,н2, де
н1 - це навчальний набір і
н2- це набір перевірки. Ми побачимо, чому, дотримуючись кількох застережень, байесівські методи не потребують окремого набору для навчання та валідації.
Для цього обговорення нам потрібно створити ще вісім параметрів, по одному для кожної моделі. Вони єм1…8. Вони слідують за багаточленним розподілом і мають належні пріори, як і коефіцієнти регресії. Вісім моделей є
у=β0+β1х1+β2х2+β3х3,
у=β0,
у=β0+β1х1,
у=β0+β2х2,
у=β0+β3х3,
у=β0+β1х1+β2х2,
у=β0+β1х1+β3х3,
у=β0+β2х2+β3х3,
у=β0+β1х1,
у=β0+β2х2,
і
у=β0+β3х3.
Тепер нам потрібно потрапити в бур’яни щодо відмінностей між байєсівськими та частотологічними методами. У навчальному наборі,н1,модельєр, що використовує методи частоти, вибирає лише одну модель. Модельєр, що використовує байєсовські методи, не настільки обмежений. Хоча байєсівський моделер може використовувати критерій вибору моделі, щоб знайти лише одну модель, вони також вільні у використанні усереднення моделей. Байєсівський моделер також може змінювати вибрані моделі в середині потоку в сегменті перевірки. Більше того, моделер, що використовує байєсівські методи, може змішувати та співставляти між селекцією та усередненням.
Для прикладу в реальному світі я перевірив 78 моделей банкрутства. Із 78 моделей комбінована задня ймовірність 76 із них становила приблизно одну десятитисячну частку одного відсотка. Інші дві моделі складали приблизно 54 відсотки та 46 відсотків відповідно. На щастя, вони також не поділили жодних змінних. Це дозволило мені вибрати обидві моделі та ігнорувати інші 76. Коли у мене були всі точки даних для обох, я усереднював їх прогнози, виходячи із задніх ймовірностей двох моделей, використовуючи лише одну модель, коли у мене були відсутні пункти даних, які виключали інший. Хоча я мав навчальний набір і набір валідацій, це був не той самий привід, як у них часто. Крім того, наприкінці кожного дня протягом двох ділових циклів я оновлював свої афіші з даними кожного дня. Це означало, що моя модель в кінці валідаційного набору не була модель в кінці навчального набору. Байєсові моделі не перестають навчатися в той час, як це часто.
Щоб заглибитись, давайте конкретизуємо наші моделі. Припустимо, що під час навчального зразка найкраще підходили частотські моделі та байєсівська модель з використанням відповідного вибору моделі або, альтернативно, що вага моделі в усередненні моделі була настільки великою, що вона майже не відрізнялася від частотистської моделі. Ми будемо уявляти цю модель
у=β0+β1х1+β2х2+β3х3.
Уявімо також, що справжня модель в природі є
у=β0+β1х1+β3х3.
Тепер розглянемо різницю в наборі перевірки. Модель "Частота" переобладнана даними. Припустимо, що до певного моментунi2що вибір моделі або процедура валідації змінила вибір на справжню модель в природі. Далі, якщо застосовувалося усереднення моделей, то справжня модель в природі мала вагу в передбаченні задовго до того, як вибір моделей був чіткий. Є.Т. Джейнс у своєму томі щодо теорії ймовірностей витрачає певний час на обговорення цього питання. У мене книга на роботі, тому я не можу отримати хорошу цитату, але ви повинні прочитати її. Її ISBN - 978-0521592710.
Моделі є параметрами в баєсівському мисленні і як такі є випадковими, або, якщо ви хочете, невизначеними. Ця невизначеність не закінчується в процесі перевірки. Він постійно оновлюється.
Через відмінності між методами Байесія та Частопедія, існують й інші типи випадків, які також слід враховувати. Перший виходить з параметри виводу, другий - з формальних прогнозів. У байєсівських методах вони не те саме. Байєсівські методи формально відокремлюють умовиводи і прийняття рішень. Вони також відокремлюють оцінку параметрів та прогнозування параметрів.
Уявімо собі, не втрачаючи загальності, що модель була б успішною, якби σ2^< kі невдача в іншому випадку. Ми будемо ігнорувати інші параметри, оскільки було б багато зайвої роботи, щоб отримати просту ідею. Для моделера, що використовує байєсівські методи, це питання зовсім іншого типу, ніж для питання, що використовує методи частості.
Для тесту частого лікаря складається гіпотеза, виходячи з навчального набору. Модельєр, що використовує методи частоти, перевірив би, чи розрахована дисперсія більша або дорівнюєк і спробувати відхилити нуль над зразком, розмір якого становить н2 шляхом фіксації параметрів до тих, що виявлені в н1.
Для моделера, що використовує байєсівські методи, вони формують оцінки параметрів протягом вибірки н1 і задня щільність н1 стане пріоритетом для вибірки н2. Якщо припустити властивість обмінності справедливою, то запевняється, що задні оцінкин2в усіх сенсах слова дорівнює оцінці ймовірності, сформованій із вибіркового зразка. Розщеплення їх на два зразки еквівалентно силою математики тим, що їх взагалі не розбивали.
Щодо прогнозів, подібне питання стосується. Методи Байєса мають прогнозний розподіл, який також оновлюється з кожним спостереженням, тоді як частотолог заморожується в кінці вибіркин1. Прогнозну щільність можна записати якПр (х~= k | X ). Якщох~ є передбачення і Х є вибіркою, тоді де параметри, які ми позначимо θ ? Незважаючи на те, що системи прогнозування часто застосовуються, більшість людей просто трактують оцінки балів як справжні параметри і обчислюють залишки. Байєсівські методи оцінювали б кожен прогноз проти прогнозованої щільності, а не лише одного бала. Ці прогнози не залежать від параметрів, які відрізняються від точкових методів, що використовуються в рішеннях частот.
Як зауваження, формальна частота прогнозування частот існує, використовуючи стандартні помилки, і їх можна зробити, але на практиці це рідко. Якщо немає конкретних попередніх знань, то два набори прогнозів повинні бути однаковими для одного і того ж набору точок даних. Вони з часом відрізняються, оскількин1+н2>н1 і тому рішення Байєса міститиме більше інформації.
Якщо немає попередньої суттєвої інформації і якщо використовуються частоти прогнозування частот, а не точкові оцінки, то для фіксованого зразка результати байєсівських та частотологічних методів будуть ідентичними, якщо обрана одна модель. Якщо є попередня інформація, то метод Байєса, як правило, генерує більш точні прогнози. Ця різниця може бути дуже великою на практиці. Крім того, якщо є моделювання усереднення, то цілком ймовірно, що метод Байєса буде більш надійним. Якщо ви використовуєте вибір моделі та заморожуєте байєсівські передбачення, то немає різниці у використанні моделі "Частота" з використанням частотних прогнозів.
Я використовував набір тесту та перевірки, оскільки мої дані не підлягали обміну. Як результат, мені потрібно було вирішити дві проблеми. Перший подібний до вигорання в методах MCMC. Мені знадобився гарний набір оцінок параметрів, щоб почати свою тестову послідовність, і тому я використав п’ятдесят років попередніх даних, щоб отримати хорошу попередню щільність, щоб почати свій тест на перевірку. Друга проблема полягала в тому, що мені потрібна була певна форма стандартизованого періоду для тестування, щоб тест не ставив під сумнів. Я використав два попередні бізнес-цикли за датою NBER.