AIC і BIC використовуються, наприклад, при поетапній регресії. Вони фактично є частиною більшого класу "евристики", які також використовуються. Наприклад, DIC (Критерій інформації про відхилення) часто використовується при виборі Байєсової моделі.
Однак вони в основному "евристики". Хоча можна довести, що і АПК, і БІК сходяться асимптотично до схем перехресної перевірки (я думаю, що АПК іде в бік виходу з одного виходу, а БІК - до іншого підходу, але я не впевнений), вони відомі недостатньо штрафувати і надмірно штрафувати відповідно. Тобто, використовуючи AIC, ви часто отримуєте модель, яка є складнішою, ніж повинна бути, тоді як з BIC ви часто отримуєте занадто спрощену модель.
Оскільки обидва стосуються резюме, CV часто є кращим вибором, який не страждає від цих проблем.
Потім нарешті виникає питання про кількість параметрів, необхідних для BIC та AIC. За допомогою загальних функціональних наближувачів (наприклад, KNN) на вхідних даних з реальною вартістю можна "приховати" параметри, тобто побудувати реальне число, яке містить ту саму інформацію, як два реальних числа (подумайте, наприклад, про пересічення цифр). У такому випадку, яка фактична кількість параметрів? З іншого боку, при більш складних моделях у вас можуть бути обмеження щодо ваших параметрів, скажімо, ви можете підходити лише до таких параметрів, що θ1>θ2 (див. Наприклад, тут ). Або у вас може бути неідентифікація, і в цьому випадку кілька значень параметрів фактично дають одну і ту ж модель. У всіх цих випадках просто підрахунок параметрів не дає належної оцінки.
Оскільки багато сучасних алгоритмів машинного навчання показують ці властивості (тобто універсальне наближення, незрозуміла кількість параметрів, неідентифікованість), AIC та BIC є менш корисними для цієї моделі, ніж вони можуть здатися на перший погляд.
Редагувати :
Ще кілька моментів, які можна було б уточнити:
- Здається, я неправильно вважав відображення, переплітаючи цифри біекцією між R→RN (див. Тут ). Однак деталі, чому це не біекція, трохи важко зрозуміти. Однак насправді нам не потрібна біекція, щоб ця ідея спрацювала (достатньо сюжету).
- Згідно з доказом Кантора (1877), між R→RN має бути біекція . Хоча цю біекцію не можна чітко визначити, її існування можна довести (але для цього потрібна недоведена аксіома вибору). Це біекція все ще може використовуватися в теоретичній моделі (можливо, реально реалізувати цю модель в комп'ютері), щоб розпакувати один параметр у довільну кількість параметрів.
- Насправді нам не потрібно відображення між R→RN щоб бути біекцією. Будь-якої сюрєктивної функції R→RN достатньо, щоб розпакувати кілька параметрів з одного. Показано, що такі сюжети існують як обмеження послідовності інших функцій (так звані криві , що заповнюють простір , наприклад крива Пеано ).
- Оскільки ані доказ Кантора не конструктивний (він просто доводить існування біекції без наведення прикладу), ні криві заповнення простору (тому що вони існують лише як межі конструктивних об'єктів і тому самі по собі не є конструктивними), аргумент I зроблений є лише теоретичним доказом. Теоретично ми могли просто продовжувати додавати параметри до моделі, щоб зменшити BIC нижче будь-якого потрібного значення (на навчальному наборі). Однак у реальній реалізації моделі ми маємо наблизити криву заповнення простору, тому помилка апроксимації може заборонити нам насправді робити це (я фактично цього не перевіряв).
- Оскільки все це вимагає вибору аксіоми, доказ стає недійсним, якщо ви не приймаєте цю аксіому (хоча це робить більшість математиків). Це означає, що в конструктивній математиці це може бути неможливо, але я не знаю, яку роль грає конструктивна математика для статистики.
- NRN+1RNRNRN. Однак це лише неофіційний аргумент, я не знаю жодного формального трактування цього поняття "складності".