Парадокс у виборі моделі (AIC, BIC, пояснити чи передбачити?)


18

Прочитавши Галіт Шмулі «Пояснити або передбачити» (2010), мене спантеличить очевидне протиріччя. Є три приміщення,

  1. Вибір моделі на основі AIC проти BIC (кінець стор. 300 - початок стор. 301): просто кажучи, AIC слід використовувати для вибору моделі, призначеної для прогнозування, тоді як BIC слід використовувати для вибору моделі для пояснення . Додатково (не у вищенаведеному документі) ми знаємо, що за деяких умов BIC вибирає справжню модель серед набору моделей-кандидатів; справжня модель - це те, чого ми шукаємо в пояснювальному моделюванні (кінець стор. 293).
  2. Проста арифметика: AIC вибере більшу модель, ніж BIC, для зразків розміром 8 або більше (задовольняє через різні покарання складності в AIC проти BIC).ln(n)>2
  3. «Справжня» модель (тобто модель з правильними регресорів і правильної функціональною формою , але недосконале оціненими коефіцієнтами) не може бути кращою моделлю для прогнозування (стр 307) . : Регресійна модель з відсутнім провісником може бути краще модель прогнозування - введення зміщення внаслідок відсутнього прогноктора може бути переважене зменшенням дисперсії через неточність оцінки.

Пункти 1. і 2. припускають, що більші моделі можуть бути кращими для прогнозування, ніж більш парсимоніальні моделі. Тим часом, пункт 3. дає протилежний приклад, коли більш прогнозована модель краща для прогнозування, ніж велика модель. Мені це здається дивним.

Запитання:

  1. Як може бути очевидне протиріччя між пунктами {1. і 2.} і 3. пояснити / вирішити?
  2. Зважаючи на пункт 3., чи можете ви дати зрозуміле пояснення, чому і як більша модель, обрана AIC, насправді краща для прогнозування, ніж більш парсимонізована модель, обрана BIC?

2
Я не знаходжу парадокса / протиріччя. AIC ефективний (асимптотично мінімізує очікувану помилку передбачення), а BIC є послідовним (асимптотично вибирає справжній порядок). У пункті 3) сказано, що упередження можуть бути переважені різницею. Очевидно, немає гарантії того, що в певній вибірці один кращий за інший. Тож ваш парадокс виглядає як те, що для даної вибірки АПК може бути не найкращим для прогнозування, що не здивує. Для вашого Q2: якщо збільшення зміщення, викликане меншою моделлю BIC, більше, ніж збільшення дисперсії в AIC, більший, AIC краще.
hejseb

2
Я б запропонував вам поглянути на перші глави у "Вибір моделі та усереднення моделей" Нілса Хорта та Герди Класксенс, можливо, це все прояснить.
hejseb

Відповіді:


1

Вони не повинні сприйматися в одному контексті; пункти 1 і 2 мають різний контекст. І для AIC, і для BIC спочатку досліджується, яка комбінація параметрів, у якій кількість дає найкращі показники (Деякі автори мають епілептичні припаси, коли я використовую слово indexв цьому контексті. Ігноруйте їх або шукайте індекс у словнику.) У пункті 2 AIC - це багатша модель, де багатша означає вибір моделей з більшою кількістю параметрів, лише іноді, тому що часто оптимальна модель AIC - це та сама кількість параметрів, що модель BIC відбір. Тобто, якщо AIC та BIC вибирають моделі, що мають однакове число параметрів, тоді твердження полягає в тому, що AIC буде кращим для прогнозування, ніж BIC. Однак, навпаки, може статися навпаки, якщо BIC досягає максимуму із обраною моделлю менших параметрів (але жодних гарантій). Sober (2002) зробив висновок, що AIC вимірює точність прогнозування, тоді як BIC вимірює корисність, де точність прогнозування може означати прогнозування y поза межами граничного значення x. Коли на вулиці, часто менш оптимальний АПК зі слабкими прогнозними параметрами знижується, краще прогнозує екстрапольовані значення, ніж оптимальний індекс АПК від більшої кількості параметрів у вибраній моделі. Зауважу, попутно, що AIC та ML не усувають необхідності тестування помилок при екстраполяції, що є окремим тестом для моделей. Це можна зробити, утримуючи крайні значення з набору "тренувань" та обчислюючи помилку між екстрапольованою моделлю "після тренінгу" та утриманими даними.

f(x)yзалишки (придумайте більше негативних залишків з одного боку та більше позитивних залишків з іншого), тим самим зменшуючи загальну помилку. Тож у цьому випадку ми просимо найкраще значення y, яке задається значенням x, а для AIC ми ретельніше просимо найкращих функціональних зв’язків між x та y. Одна відмінність між ними полягає, наприклад, що BIC, інші параметри вибору параметрів будуть мати кращий коефіцієнт кореляції між моделлю та даними, а AIC матиме кращу помилку екстраполяції, виміряну як похибка y-значення для заданого екстрапольованого x-значення.

Пункт 3 - іноді твердження за певних умов

  • σ


  • β2

  • коли предиктори сильно корелюють; і

  • коли розмір вибірки невеликий або діапазон залишених змінних малий.

2222

Я б не поспішав зазначити, що ці твердження є оптимістичними. Як правило, моделі неправильні, і часто краща модель може застосовувати норму, яку неможливо використовувати з AIC або BIC, або для їх застосування передбачається неправильна залишкова структура, і потрібні альтернативні заходи. У моїй роботі це завжди так.


1
Я не впевнений, що ти відповідаєш на запитання. Мені відомо про загальні обмеження інформаційних критеріїв, але про це я не прошу. Більше того, я не розумію вашої точки зору, якщо AIC і BIC мають однакове число параметрів, тоді твердження полягає в тому, що AIC буде кращим для прогнозування, ніж BIC . Якщо альтернативні моделі мають однакову кількість параметрів, порівняння AIC і BIC зводиться до порівняння ймовірностей, і AIC і BIC виберуть однакову альтернативу. Чи не могли б ви також пояснити, що ви маєте на увазі під кращою моделлю, щоб застосувати норму, яку не можна використовувати з AIC або BIC ?
Річард Харді

Продовження: Поки ми маємо ймовірність та ступінь свободи, ми можемо розрахувати AIC та BIC.
Річард Харді

@ RichardHardy Правда: Поки ми маємо ймовірність та ступінь свободи, ми можемо розрахувати AIC та BIC. Однак обчислення буде неоптимальним та оманливим, якщо залишки будуть студентськими-Т та ми не використали AIC та BIC для Student-T. На відміну від Student's-T, є розподіли залишків, для яких ML може бути неопублікованим, наприклад, Gamma, Beta тощо.
Карл

Дякую за роз’яснення! Я вважаю, що відповідь на вищезазначені питання повинна існувати досить просто і загально. Більш конкретно, я не вважаю, що це має потребувати "потворних" випадків і збоїв AIC та BIC. Навпаки, я вважаю, що має бути досить базовий випадок, який міг би ілюструвати, чому парадокс є лише очевидним, а не реальним. У той же час ваш другий абзац, здається, йде в зворотному напрямку. Не те, що воно само по собі не було б цінним, але я боюся, що це могло б відволікти нас від реальних основних питань.
Річард Харді

@ RichardHardy Часто практичне питання є нерозв'язним для AIC. Наприклад, порівняння одних і тих же або різних моделей з різними нормами та / або перетвореннями даних або аналіз складних норм, наприклад, зменшення помилок тихонової регуляризації похідного параметра, загальних обертів тощо. Це потрібно також згадати, щоб не використовувати хтось AIC , BIC неправильно.
Карл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.