Чи є якась причина віддавати перевагу AIC або BIC перед іншими?


222

AIC і BIC - це обидва методи оцінки відповідності моделі, що штрафується за кількістю оцінюваних параметрів. Наскільки я розумію, BIC карає моделі більше за вільні параметри, ніж AIC. Крім переваг, що ґрунтуються на строгості критеріїв, чи є інші причини віддати перевагу AIC перед BIC або навпаки?


1
Я вважаю, що доцільніше назвати це обговорення як "функціональний" вибір або "коваріаційний" вибір. Для мене вибір моделей набагато ширший, включаючи конкретизацію розподілу помилок, форму функції зв’язку та форму коваріатів. Коли ми говоримо про AIC / BIC, ми зазвичай опиняємося в ситуації, коли всі аспекти побудови моделі фіксовані, крім вибору коваріатів.

6
Вирішення конкретних коваріатів для включення в модель звичайно відбувається шляхом вибору моделі терміна, і є декілька книг з вибором моделі в заголовку, які в першу чергу визначають, яку модель коваріатів / параметрів включати в модель.
Майкл Черник

Я не знаю, чи стосується ваше питання спеціально до філогенезу (біоінформатики), але якщо так, то це дослідження може надати деякі думки щодо цього аспекту: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

Об’єднане запитання також запитує про KIC , оновіть текст запитання та вкажіть визначення KIC, попередньо посилаючись на посилання.
smci

1
@smci Я додав stats.stackexchange.com/questions/383923/…, щоб дозволити людям розбиратися у питаннях, пов’язаних із КЗК, якщо вони зацікавлені.
russellpierce

Відповіді:


179

Ваше запитання означає, що AIC та BIC намагаються відповісти на одне і те ж питання, що не відповідає дійсності. АПК намагається вибрати модель, яка найбільш адекватно описує невідому реальність з високими розмірами. Це означає, що реальність ніколи не буває у наборі кандидатських моделей, які розглядаються. Навпаки, BIC намагається знайти модель ІСТИНА серед набору кандидатів. Мені здається досить дивним припущення, що реальність закладена в одній із моделей, яку будували дослідники на цьому шляху. Це справжнє питання для BIC.

Тим не менш, є багато дослідників, які кажуть, що BIC кращий за AIC, використовуючи моделювання відновлення моделей як аргумент. Ці імітації складаються з генерування даних з моделей A і B, а потім встановлення обох наборів даних з двома моделями. Переобладнання виникає тоді, коли неправильна модель підходить для даних краще, ніж генеруюча. Сенс цих симуляцій полягає в тому, щоб перевірити, наскільки AIC та BIC виправляють ці наряди. Зазвичай результати вказують на те, що АПК занадто ліберальна і все ще часто надає перевагу складнішій, неправильній моделі над більш простою, справжньою моделлю. На перший погляд, ці симуляції здаються справді гарними аргументами, але проблема з ними полягає в тому, що вони не мають сенсу для AIC. Як я вже говорив раніше, AIC не вважає, що будь-яка з кандидатських моделей, що тестуються, насправді є правдою. Згідно з AIC, всі моделі - це наближення до реальності, і реальність ніколи не повинна мати низьку розмірність. Принаймні нижче, ніж деякі моделі-кандидати.

Моя рекомендація - використовувати як AIC, так і BIC. У більшості випадків вони погоджуватимуться з кращою моделлю, а коли цього не відбувається, просто повідомляють про це.

Якщо ви незадоволені як AIC, так і BIC, і у вас є вільний час для інвестицій, знайдіть Мінімальну довжину опису (MDL) - зовсім інший підхід, який долає обмеження AIC та BIC. Існує декілька заходів, що випливають із MDL, як нормалізована максимальна ймовірність або наближення інформації Фішера. Проблема з MDL полягає в тому, що його математично вимогливий та / або обчислювально інтенсивний.

Однак, якщо ви хочете дотримуватися простих рішень, хороший спосіб оцінки гнучкості моделі (особливо коли кількість параметрів однакова, а також AIC і BIC є непотрібними) робить параметричний Bootstrap, який досить легко здійснити. Ось посилання на статтю на ньому.

Деякі люди виступають за використання перехресної перевірки. Я особисто використовував його і не маю нічого проти цього, але проблема з ним полягає в тому, що вибір серед правил вирізання вибірки (випуск-один-вихід, K-складка тощо) - безпринципний.


7
Різницю можна розглядати виключно з математичної точки зору - BIC отримано як асимптотичне розширення журналу P (даних), де істинні параметри моделі відбираються відповідно до довільних ніде не зникаючих раніше, AIC аналогічно був отриманий із встановленими істинними параметрами
Ярослав Булатов,

4
Ви сказали, що "є багато дослідників, які кажуть, що BIC кращий, ніж AIC, використовуючи моделювання відновлення моделей як аргумент. Ці симуляції складаються з генерування даних з моделей A і B, а потім підключення обох наборів даних до двох моделей". Будьте ласкаві, щоб вказати на деякі посилання. Мені цікаво про них! :)
deps_stats

2
Я не вірю заявам у цій посаді.
user9352

16
(-1) Прекрасне пояснення, але я хотів би оскаржити твердження. @Dave Kellen Чи не могли б ви дати нам посилання на те, де ідея про те, що модель TRUE повинна бути в комплекті для BIC? Я хотів би дослідити це, оскільки в цій книзі автори дають переконливий доказ того, що це не так.
gui11aume

2
Чудова відповідь, але я категорично не згоден із твердженням, що "реальність ніколи не повинна мати низьку розмірність". Це залежить від того, до якої "науки" ви застосовуєте моделі йору
Девід

76

Хоча AIC і BIC є одночасно оціненими максимальною вірогідністю та штрафують вільні параметри, намагаючись боротися з надмірною обробкою, вони роблять це таким чином, що призводить до значно різної поведінки. Давайте розглянемо одну загально представлену версію методів (яка утворює результати, що передбачають нормально розподілені помилки та інші припущення, що добре поводяться):

  • AIC = -2 * ln (вірогідність) + 2 * k,

і

  • BIC = -2 * ln (вірогідність) + ln (N) * k,

де:

  • k = модель ступеня свободи
  • N = кількість спостережень

Найкраща модель у порівняній групі - це модель, яка мінімізує ці показники в обох випадках. Зрозуміло, що AIC безпосередньо не залежить від розміру вибірки. Більше того, загалом кажучи, АПК представляє небезпеку, що вона може перевищити, тоді як BIC представляє небезпеку, що вона може бути недостатньою, просто в силу того, як вони штрафують вільні параметри (2 * k в AIC; ln (N) * k в BIC). Діахронічно, коли дані вводяться і перерахунки балів, при відносно низькому N (7 і менше) BIC є більш толерантним до вільних параметрів, ніж AIC, але менш толерантним при більшій N (оскільки природний журнал N долає 2).

Крім того, AIC спрямована на пошук найкращої моделі наближення до невідомого процесу генерування даних (шляхом мінімізації очікуваного розрахованого розбіжності KL ). Як такий, він не зможе зблизитись вірогідно з істинною моделлю (якщо припустити, що така група присутня в оціненій групі), тоді як BIC дійсно сходиться, оскільки N має тенденцію до нескінченності.

Отже, як у багатьох методологічних питаннях, що слід віддати перевагу, залежить від того, що ви намагаєтеся зробити, які інші методи доступні та чи є будь-які окреслені функції (конвергенція, відносна толерантність до вільних параметрів, мінімізація очікуваної розбіжності KL ), розмовляйте зі своїми цілями.


8
приємна відповідь. Можлива альтернатива використання AIC та BIC полягає в тому, що AIC каже, що "помилкові ефекти" не стає легше виявити, коли розмір вибірки збільшується (або що нам не байдуже, якщо фальшиві ефекти входять у модель), BIC каже, що вони є. Як можна побачити з точки зору OLS, як у статті Рафтери 1994 року, ефект AIC стає приблизно "значущим" (тобто переважна більш велика модель), якщо його t-статистика перевищує , BIC, якщо його t-статистика перевищує| т| >|т|>2|т|>лог(н)
вірогідність

2
Приємна відповідь, +1. Особливо мені подобається застереження щодо того, чи справді модель присутня в оціненій групі. Я б заперечував, що "справжньої моделі" ніколи немає. (Box & Draper зазначає, що "всі моделі помилкові, але деякі корисні", і Бернхем та Андерсон називають це "розмірами звужувального ефекту". в найкращому наближенні серед моделей, які ми насправді дивимося.
Стефан Коласа

68

Моє швидке пояснення

  • AIC найкраще для прогнозування, оскільки він асимптотично еквівалентний перехресній валідації.
  • BIC найкраще для пояснення, оскільки дозволяє послідовно оцінювати основні процеси генерування даних.

AIC еквівалентний перехресній валідації K-кратного, BIC еквівалентний перехресній валідації вирівнювання-один-один. Але обидві теореми дотримуються лише у випадку лінійної регресії.

5
mbq, це AIC / LOO (не LKO або K-кратно), і я не думаю, що доказ у Stone 1977 спирався на лінійні моделі. Я не знаю деталей результату BIC.
ар

11
ars правильно. Це AIC = LOO і BIC = K-кратно, де K - складна функція розміру вибірки.
Роб Хайндман

Вітаю, ти мене отримав; Я поспішав це писати, і тому я допустив цю помилку, очевидно, так це написав Роб. Незважаючи на це, це Шао 1995 року, де було припущення, що модель лінійна. Я проаналізую Стоун, все-таки я думаю, що ви, ар, маєте рацію, оскільки ЛОО в моєму полі має однаково погану репутацію, як і різні * ІС.

Опис у Вікіпедії ( en.wikipedia.org/wiki/… ) робить схоже, що перехресне підтвердження K-кратного вигляду є подібним до повторного моделювання для оцінки стабільності параметрів. Я можу зрозуміти, чому слід очікувати, що AIC буде стабільним з LOO (оскільки LOO може бути проведено вичерпно), але я не розумію, чому BIC був би стабільним при K-кратному, якщо K також не є вичерпним. Чи робить складна формула, що лежить в основі значення для K, вичерпною? Або щось інше відбувається?
russellpierce

16

На мій досвід, BIC призводить до серйозного недобору, і АПК, як правило, справляється добре, коли мета - максимально передбачити дискримінацію.


1
Супер затриманий, але оскільки це все ще високо в рейтингу Google, ви не хочете детальніше розглянути, в якій області ви працюєте? Мені просто цікаво, чи є якийсь ефект домену, який ми повинні подивитися.
verybadatthis

@verybadatthis: клінічна біостатика (просто гугл "Френк Харрелл", він має присутність в Інтернеті)
Бен Болкер

13

Інформаційне та доступне "виведення" AIC та BIC Брайана Ріплі можна знайти тут: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ріплі надає деякі зауваження щодо припущень, що стоять за математичними результатами. Всупереч тому, що вказують деякі інші відповіді, Ріплі підкреслює, що AIC заснована на припущенні, що модель є правдивою. Якщо модель не відповідає дійсності, загальне обчислення виявить, що "кількість параметрів" має бути замінено на більш складну величину. Деякі посилання наведені в слайдах Ріплі. Однак зауважимо, що для лінійної регресії (строго кажучи з відомою дисперсією), загалом, більш складна величина спрощується дорівнює кількості параметрів.


3
(+1) Однак Ріплі помиляється в тому, що він говорить, що моделі повинні вкладатись. Не існує такого обмеження щодо оригінальної деривації Akaike або, якщо бути зрозумілішим, щодо деривації, використовуючи AIC як оцінювач розбіжності Куллбека-Лейблера. Насправді в роботі, над якою я працюю, я дещо «емпірично» показую, що АПК навіть можна використовувати для вибору моделі коваріаційних структур (різна кількість параметрів, явно не вкладені моделі). З тисяч симуляцій тимчасових рядів, які я проводив з різними структурами коваріації, ні в одній із них АПК не помиляється ...
Нестор

... якщо "правильна" модель насправді є на наборі моделей (це, однак, також означає, що для моделей, над якими я працюю, дисперсія оцінювача дуже мала ... але це лише технічна докладно).
Нестор

1
@ Néstor, я згоден. Суть щодо вкладених моделей дивна.
NRH

3
Підбираючи коваріаційні структури для поздовжніх даних (моделі змішаних ефектів або узагальнені найменші квадрати), AIC може легко знайти неправильну структуру, якщо існує більше 3-х кандидатних структур. Якщо їх більше ніж 3, вам доведеться скористатися завантажувальним інструментом або іншими засобами для коригування невизначеності моделі, викликаної використанням AIC для вибору структури.
Френк Харрелл

8

Дійсно, єдина відмінність полягає в тому, що BIC розширено AIC для врахування кількості об'єктів (зразків). Я б сказав, що хоча обидва досить слабкі (порівняно, наприклад, з перехресною валідацією), краще використовувати AIC, ніж більшість людей будуть знайомі з абревіатурою - адже я ніколи не бачив паперу чи програми, де BIC би бути використаним (все-таки я визнаю, що я упереджений проблемами, коли такі критерії просто не працюють).

Редагувати: AIC та BIC еквівалентні перехресній валідації за умови двох важливих припущень - коли вони визначені, коли модель є максимальною ймовірністю та коли вас цікавлять лише ефективність моделі на даних тренувань. У разі згортання деяких даних на якусь консенсус, вони цілком нормальні.
У випадку, якщо зробити передбачувальну машину для певної проблеми в реальному житті, перша помилка, оскільки ваш навчальний набір представляє лише частину інформації про проблему, з якою ви маєте справу, тому ви просто не можете оптимізувати свою модель; друге - помилково, оскільки ви очікуєте, що ваша модель буде обробляти нові дані, для яких ви навіть не можете розраховувати, що навчальний набір буде репрезентативним. І для цього було придумано резюме; моделювати поведінку моделі при зіткненні з незалежними даними. У разі вибору моделі CV дає вам не лише приблизний рівень якості, але і розподіл наближення якості, тому він має таку велику перевагу, що може сказати: «Я не знаю, що б нові дані не надійшли, будь-який з них може бути краще ».


Чи означає це, що для певних розмірів вибірки BIC може бути менш суворим, ніж AIC?
russellpierce

1
Стринг - це не найкраще слово, а більш терпимий до параметрів; все-таки, так, для загальних визначень (з природним журналом) це буває для 7 і менше об'єктів.

AIC асимптотично еквівалентний перехресній валідації.
Роб Хайндман

5
@mbq - Я не бачу, як перехресне підтвердження долає проблему "нерепрезентативності". Якщо ваші дані про навчання не є репрезентативними для даних, які ви отримаєте в майбутньому, ви можете пересвідчити все, що завгодно, але це буде непредставницькою "помилки узагальнення", з якою ви насправді зіткнетеся (як " вірно "нові дані не представлені немодельованою частиною навчальних даних). Отримати репрезентативний набір даних життєво важливо, якщо ви хочете зробити хороші прогнози.
ймовірністьлогічний

1
@mbq - моя думка полягає в тому, що ви, здається, "обережно відкидаєте" вибір на основі ІС на основі альтернативи, яка не вирішує проблему. Перехресне підтвердження добре (хоча обчислення того варте?), Але з нерепрезентативними даними не можна впоратися з використанням керованого даними процесу. Принаймні не надійно. Потрібно мати попередню інформацію, яка говорить про те, наскільки це нерепрезентативно (або загалом, які логічні зв’язки мають "нерепрезентативні" дані з реальними майбутніми даними, які ви будете спостерігати).
ймовірністьіслогічного

5

Як ви вже згадували, AIC та BIC - це методи покарання моделей, що мають більше змінних регресорів. У цих методах використовується функція штрафу, яка є функцією кількості параметрів у моделі.

  • При застосуванні AIC функція штрафу - z (p) = 2 p .

  • При застосуванні BIC функція штрафу - z (p) = p ln ( n ), яка ґрунтується на інтерпретації покарання як похідної від попередньої інформації (звідси назва Баєсівського критерію інформації).

Коли n великий, дві моделі дадуть зовсім різні результати. Тоді BIC застосовує набагато більший штраф до складних моделей, а отже, призведе до більш простих моделей, ніж AIC. Однак, як зазначено у Вікіпедії на BIC :

слід зауважити, що у багатьох програмах ... BIC просто зменшується до максимально можливого вибору, оскільки кількість параметрів дорівнює моделям, що цікавлять.


4
зауважте, що AIC також еквівалентний ML, коли розмірність не змінюється. З вашої відповіді здається, що це лише для BIC.
вірогідність

5

З того, що я можу сказати, між AIC та BIC немає великої різниці. Вони обидва математично зручні наближення можна зробити для ефективного порівняння моделей. Якщо вони дають вам різні «найкращі» моделі, це, ймовірно, означає, що у вас висока невизначеність моделі, про що важливіше хвилюватися, ніж використовувати AIC або BIC. Мені особисто більше подобається BIC, тому що він запитує більше (менше) моделі, якщо вона має більше (менше) даних, щоб відповідати її параметрам - на зразок вчителів, які просять про вищий (нижчий) рівень продуктивності, якщо їхній учень має більше (менше ) час дізнатися про предмет. Мені це просто здається інтуїтивно зрозумілим. Але я впевнений, що для AIC також існує однаково інтуїтивні та переконливі аргументи, враховуючи її просту форму.

Тепер, коли ви зробите наближення, напевно будуть певні умови, коли ці наближення є сміттям. Це, безумовно, можна побачити для AIC, де існує багато "коригувань" (AICc) для врахування певних умов, які роблять початкове наближення поганим. Це також існує для BIC, оскільки існують різні інші більш точні (але все-таки ефективні) методи, такі як наближення повністю Лапласа до сумішей g-пріорів Зельнера (BIC - це наближення до методу наближення Лапласа для інтегралів).

Одне місце, де вони обидва лайна, - це коли у вас є значна попередня інформація про параметри в будь-якій моделі. AIC та BIC надмірно штрафують моделі, де параметри частково відомі порівняно з моделями, які вимагають оцінювати параметри з даних.

П(D|М,А)П(М|D,А)ММА

Мi:i-та модель - найкращий опис данихА:з набору розглянутих моделей K одна з них є найкращою

А потім продовжую призначати ті самі моделі ймовірностей (ті ж параметри, ті ж дані, ті ж наближення тощо), я отримаю той самий набір значень BIC. Лише приєднуючи якесь унікальне значення до логічної літери "М", втягується у нерелевантні питання про "справжню модель" (відгомони "справжньої релігії"). Єдине, що "визначає" M - це математичні рівняння, які використовують його у своїх обчисленнях, - і це навряд чи виокремлює одне і лише одне визначення. Я міг би однаковою мірою висловити передбачення щодо М ("i-я модель дасть найкращі прогнози"). Я особисто не бачу, як це змінить будь-яку ймовірність, а отже, наскільки хорошим чи поганим буде BIC (АІК також з цього приводу - хоча АПК базується на іншому виведенні)

І , крім того, що трапилося з твердженням Якщо справжня модель в наборі я розглядаю, тобто 57% вірогідність того , що модель B . Мені здається досить розумним, або ви можете перейти на більш "м'яку" версію, існує 57% ймовірність того, що модель B найкраща з набору, що розглядається

Останній коментар: Я думаю, ви знайдете приблизно стільки ж думок про AIC / BIC, скільки людей, які знають про них.


4

AIC слід застосовувати рідко, оскільки він дійсно діє лише асимптотично. Майже завжди краще використовувати AICc (AIC з c- оррекцією для кінцевого розміру зразка). AIC, як правило, переосмислює: ця проблема значно зменшується при AICc. Основний виняток із використання AICc - це коли основні розподіли сильно лептокуртичні. Докладніше про це дивіться у книзі Вибір моделі : Бернхем та Андерсон.


1
Отже, те, що ви говорите, це те, що AIC недостатньо карає моделі за параметри, тому використання їх як критеріїв може призвести до надпараметризації. Ви рекомендуєте замість цього використовувати AICc. Щоб повернути це в контекст мого початкового запитання, оскільки BIC вже є більш жорстким, ніж AIC, чи є причина використовувати AICc над BIC?
russellpierce

1
Що ви маєте на увазі під AIC, діє асимптотично. Як вказував Джон Тейлор, AIC суперечить. Я думаю, що його композиції, що протиставляють AIC та BIC, - найкращі. Я не бачу, щоб вони були такими ж, як перехресне підтвердження. Всі вони мають приємне властивість: зазвичай вони досягають максимальної кількості змінних. Але всі вони можуть вибирати різні моделі.
Майкл Черник

4

AIC та BIC - це інформаційні критерії для порівняння моделей. Кожен намагається врівноважувати придатність моделі та посидючості, і кожен штрафує по-різному за кількістю параметрів.

AIC - інформаційний критерій Akaike, формула

AIC=2к-2ln(L)
кL2ln(L)-2к

BIC=кln(н)-2ln(L)

Я не чув про KIC.


Ви також не чули про KIC, але для AIC та BIC перегляньте пов'язане питання або шукайте AIC. stats.stackexchange.com/q/577/442
Генрік

1
(Цю відповідь було об'єднано з повторного запитання, яке також вимагало тлумачення "KIC".)
повторного вимагало

3
Моделі не потрібно вкладати, щоб порівнювати їх з AIC або BIC.
Макрос

1

Дуже коротко:

  • н
  • BIC - це наближення до інтегрованої граничної ймовірності П(D|М,А)(D=Dата,М=могел,А=ассумpтiонс)П(М|D,А)ннк=н[1-1/(лог(н)-1)]н=розмір вибірки (Шао, 1997). Існує багато різних версій програми BIC, які зводиться до того, щоб зробити різні наближення граничної ймовірності або припускати різні пріоритети. Наприклад, замість використання попередньої уніформи всіх можливих моделей, як в оригінальній BIC, EBIC використовує попередню уніформу моделей фіксованого розміру ( Chen & Chen 2008 ), тоді як BICq використовує розподіл Бернуї, вказуючи попередню ймовірність включення кожного параметра .

ламбга=2ламбга=лог(н), де за оптимізацією однієї цілі (регресія LASSO або еластична сітка) супроводжується налаштуванням параметрів регуляризації на основі якоїсь іншої мети (яка, наприклад, мінімізує помилку прогнозування перехресної перевірки, AIC або BIC).

н-1спостереження як стояння для наближеної моделі відносно єдиного спостереження, що представляє «реальність». Ми можемо вважати це як вивчення максимальної кількості інформації, яка може бути отримана з даних при оцінці збитків. Дано незалежні та однаково розподілені спостереження, виконуючи це надн

Зауважте, що помилка LOOCV також може бути обчислена аналітично із залишків та діагоналі капелюшкової матриці , не маючи фактичної перехресної перевірки. Це завжди було б альтернативою AIC як асимптотичного наближення помилки LOOCV.

Список літератури

Стоун М. (1977) Асимптотична еквівалентність вибору моделі за допомогою перехресної валідації та критерію Акайке. Журнал Королівського статистичного товариства, серія B. 39, 44–7.

Шао Дж. (1997) Асимптотична теорія вибору лінійної моделі. Statistica Sinica 7, 221-242.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.