Чому інформаційний критерій Akaike більше не використовується в машинному навчанні?


16

Я щойно натрапив на "критерій інформації Akaike", і я помітив цю велику кількість літератури щодо вибору моделі (також такі речі, як BIC, здається, існують).

Чому сучасні методи машинного навчання не скористаються цими критеріями вибору моделі BIC та AIC?


9
бо ймовірності ніхто не обчислює?
Аксакал

1
Що ви маєте на увазі під «сучасними методами машинного навчання»? Наскільки я використовував AIC і BIC використовуються часто.
Ферді

4
Також чому -1? Пам'ятайте, що дурних питань немає - кожне питання намагається пролити світло на Всесвіт
відлуння

4
@echo: Я не подав заявки, але думаю, що ваше питання було б покращено, якби ви могли висловити / підтримати основну претензію (що методи машинного навчання
дійсно

2
@Aksakal Дякую Я думаю, що краще, якби питання, побудовані навколо розгорнутої претензії, могли б викликати це твердження. Я маю на увазі як загальне правило.
user603

Відповіді:


15

AIC і BIC використовуються, наприклад, при поетапній регресії. Вони фактично є частиною більшого класу "евристики", які також використовуються. Наприклад, DIC (Критерій інформації про відхилення) часто використовується при виборі Байєсової моделі.

Однак вони в основному "евристики". Хоча можна довести, що і АПК, і БІК сходяться асимптотично до схем перехресної перевірки (я думаю, що АПК іде в бік виходу з одного виходу, а БІК - до іншого підходу, але я не впевнений), вони відомі недостатньо штрафувати і надмірно штрафувати відповідно. Тобто, використовуючи AIC, ви часто отримуєте модель, яка є складнішою, ніж повинна бути, тоді як з BIC ви часто отримуєте занадто спрощену модель.

Оскільки обидва стосуються резюме, CV часто є кращим вибором, який не страждає від цих проблем.

Потім нарешті виникає питання про кількість параметрів, необхідних для BIC та AIC. За допомогою загальних функціональних наближувачів (наприклад, KNN) на вхідних даних з реальною вартістю можна "приховати" параметри, тобто побудувати реальне число, яке містить ту саму інформацію, як два реальних числа (подумайте, наприклад, про пересічення цифр). У такому випадку, яка фактична кількість параметрів? З іншого боку, при більш складних моделях у вас можуть бути обмеження щодо ваших параметрів, скажімо, ви можете підходити лише до таких параметрів, що θ1>θ2 (див. Наприклад, тут ). Або у вас може бути неідентифікація, і в цьому випадку кілька значень параметрів фактично дають одну і ту ж модель. У всіх цих випадках просто підрахунок параметрів не дає належної оцінки.

Оскільки багато сучасних алгоритмів машинного навчання показують ці властивості (тобто універсальне наближення, незрозуміла кількість параметрів, неідентифікованість), AIC та BIC є менш корисними для цієї моделі, ніж вони можуть здатися на перший погляд.

Редагувати :

Ще кілька моментів, які можна було б уточнити:

  1. Здається, я неправильно вважав відображення, переплітаючи цифри біекцією між RRN (див. Тут ). Однак деталі, чому це не біекція, трохи важко зрозуміти. Однак насправді нам не потрібна біекція, щоб ця ідея спрацювала (достатньо сюжету).
  2. Згідно з доказом Кантора (1877), між RRN має бути біекція . Хоча цю біекцію не можна чітко визначити, її існування можна довести (але для цього потрібна недоведена аксіома вибору). Це біекція все ще може використовуватися в теоретичній моделі (можливо, реально реалізувати цю модель в комп'ютері), щоб розпакувати один параметр у довільну кількість параметрів.
  3. Насправді нам не потрібно відображення між RRN щоб бути біекцією. Будь-якої сюрєктивної функції RRN достатньо, щоб розпакувати кілька параметрів з одного. Показано, що такі сюжети існують як обмеження послідовності інших функцій (так звані криві , що заповнюють простір , наприклад крива Пеано ).
  4. Оскільки ані доказ Кантора не конструктивний (він просто доводить існування біекції без наведення прикладу), ні криві заповнення простору (тому що вони існують лише як межі конструктивних об'єктів і тому самі по собі не є конструктивними), аргумент I зроблений є лише теоретичним доказом. Теоретично ми могли просто продовжувати додавати параметри до моделі, щоб зменшити BIC нижче будь-якого потрібного значення (на навчальному наборі). Однак у реальній реалізації моделі ми маємо наблизити криву заповнення простору, тому помилка апроксимації може заборонити нам насправді робити це (я фактично цього не перевіряв).
  5. Оскільки все це вимагає вибору аксіоми, доказ стає недійсним, якщо ви не приймаєте цю аксіому (хоча це робить більшість математиків). Це означає, що в конструктивній математиці це може бути неможливо, але я не знаю, яку роль грає конструктивна математика для статистики.
  6. NRN+1RNRNRN. Однак це лише неофіційний аргумент, я не знаю жодного формального трактування цього поняття "складності".

Хочете зазвучити цю публікацію stats.stackexchange.com/questions/325129/… ? Я не мав жодного везіння з цим деякий час.
Скандер Х.

1
@LiKao Чи можете ви навести посилання на "техніку" параметри приховування, як, наприклад, пересічні цифри.
horaceT

@horaceT На жаль, я не знаю жодної статті, яка дає такий приклад. У статтях про MDL є поняття "функціональна складність" (наприклад, lpl.psy.ohio-state.edu/documents/MNP.pdf див. Екв. 10). Часто приклад робиться із обмеженими параметрами (наприклад, researchgate.net/publication/… ). Мені подобається перегортати приклад, обговорюючи це, і показувати, що складний єдиний параметр може фіксувати кілька простих параметрів, тому що я вважаю його більш інтуїтивним.
LiKao

f1,2:RR2f1,N:RRNNf1,NNN1

@LiKao Це 'досить захоплююче. Pls посилання зазначив доказ "подачі кривих". Я міг бачити, що обмежені параметри мають "меншу" ступінь свободи. Наївно, якщо f (x, y) = 0, y просто функція x; ви просто помістіть g (x) туди, де є. Хіба ви не можете робити подібні речі із обмеженою оптимізацією.
horaceT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.