Коли я намагаюся вибрати серед різних моделей або кількість функцій, які слід включити, скажімо, передбачення, я можу придумати два підходи.
- Розподіліть дані на навчальні та тестові набори. Ще краще, використовуйте завантажувальну чи перехресну перевірку k-кратну кількість разів. Тренуйтеся на навчальному наборі щоразу і обчислюйте помилку над тестовим набором. Помилка тесту графіку порівняно з кількістю параметрів. Зазвичай ви отримуєте щось подібне:
- Обчисліть ймовірність моделі, інтегруючи над значеннями параметрів. тобто обчисліть , і побудуйте це на основі кількості параметрів. Потім ми отримуємо щось подібне:
Отже, мої запитання:
- Чи підходять ці підходи для вирішення цієї проблеми (визначення кількості параметрів, які слід включити у вашу модель, або вибір серед кількох моделей)?
- Вони еквівалентні? Напевно, ні. Чи дадуть вони однакову оптимальну модель за певних припущень чи на практиці?
- За винятком звичайної філософської різниці у визначенні попередніх знань у байесівських моделях тощо, які плюси та мінуси кожного підходу? Якого б ви вибрали?
Оновлення: я також знайшов відповідне питання щодо порівняння AIC та BIC. Здається, що мій метод 1 асимптотично еквівалентний AIC, а метод 2 асимптотично пов'язаний з BIC. Але я також прочитав там, що BIC еквівалентний CV-рейтингу «Вихід-Один-Вихід». Це означає, що мінімум помилок у навчанні та максимум байєсівської ймовірності є еквівалентними, коли рейтинг CV є еквівалентним CV-кратному. Мабуть, дуже цікава праця " Асимптотична теорія вибору лінійної моделі " Джуна Шао стосується цих питань.