Прочитавши Галіт Шмулі «Пояснити або передбачити» (2010), мене спантеличить очевидне протиріччя. Є три приміщення,
- Вибір моделі на основі AIC проти BIC (кінець стор. 300 - початок стор. 301): просто кажучи, AIC слід використовувати для вибору моделі, призначеної для прогнозування, тоді як BIC слід використовувати для вибору моделі для пояснення . Додатково (не у вищенаведеному документі) ми знаємо, що за деяких умов BIC вибирає справжню модель серед набору моделей-кандидатів; справжня модель - це те, чого ми шукаємо в пояснювальному моделюванні (кінець стор. 293).
- Проста арифметика: AIC вибере більшу модель, ніж BIC, для зразків розміром 8 або більше (задовольняє через різні покарання складності в AIC проти BIC).
- «Справжня» модель (тобто модель з правильними регресорів і правильної функціональною формою , але недосконале оціненими коефіцієнтами) не може бути кращою моделлю для прогнозування (стр 307) . : Регресійна модель з відсутнім провісником може бути краще модель прогнозування - введення зміщення внаслідок відсутнього прогноктора може бути переважене зменшенням дисперсії через неточність оцінки.
Пункти 1. і 2. припускають, що більші моделі можуть бути кращими для прогнозування, ніж більш парсимоніальні моделі. Тим часом, пункт 3. дає протилежний приклад, коли більш прогнозована модель краща для прогнозування, ніж велика модель. Мені це здається дивним.
Запитання:
- Як може бути очевидне протиріччя між пунктами {1. і 2.} і 3. пояснити / вирішити?
- Зважаючи на пункт 3., чи можете ви дати зрозуміле пояснення, чому і як більша модель, обрана AIC, насправді краща для прогнозування, ніж більш парсимонізована модель, обрана BIC?