Заходи складності моделі


19

Як можна порівняти складність двох моделей з однаковою кількістю параметрів?

Редагувати 19.09 : Для уточнення складність моделі - це міра того, наскільки важко вчитися з обмежених даних. Коли дві моделі однаково добре вписуються в існуючі дані, модель з меншою складністю дасть менші помилки на майбутні дані. Коли використовуються наближення, це технічно може не завжди бути правдою, але це нормально, якщо це, як правило, відповідає дійсності. Різні наближення дають різні міри складності


чи можете ви надати більше інформації про те, які атрибути доступні для моделей?
shabbychef

Це своєрідне відкрите запитання, тому моє запитання було б - які саме атрибути мені потрібні, щоб можна було виміряти складність? На самому базовому рівні ймовірнісна модель - це набір розподілів ймовірностей, і я підганяю модель до даних, вибравши найкращого члена
Ярослав Булатов,

3
У чому саме полягає "складність"? (Це не легковажне питання!) За відсутності формального визначення, ми не можемо сподіватися зробити дійсні порівняння чогось.
whuber

Це я прошу по суті
Ярослав Булатов,

2
Але чи не можете ви принаймні дати нам підказку щодо того, який аспект моделі ви намагаєтеся зафіксувати словом "складність"? Без цього це питання просто неоднозначне, щоб визнати одну розумну відповідь.
whuber

Відповіді:


12

Крім різних заходів мінімальної довжини опису (наприклад, нормалізована максимальна ймовірність, наближення інформації Фішера), варто згадати ще два методи:

  1. Параметрична завантажувальна . Це набагато простіше втілити в життя, ніж вимогливі заходи MDL. Приємний документ - Wagenmaker та його колеги:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Оцінка імітації моделі за допомогою параметричного завантажувального пристрою . Журнал математичної психології , 48, 28-50.
    Реферат:

    Ми представляємо загальну процедуру вибірки для кількісної оцінки імітації моделі, визначену як здатність моделі враховувати дані, згенеровані конкуруючою моделлю. Ця процедура відбору проб, яка називається параметричним методом перехресного завантаження (PBCM; пор. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), генерує розподіли відмінностей у корисності придатності. очікується під кожною з конкуруючих моделей. У інформаційній версії PBCM моделей, що генерують дані, мають конкретні значення параметрів, отримані при встановленні досліджуваних експериментальних даних. Розподіл різницевих даних, поінформованих за даними, можна порівняти із спостережуваною різницею корисності, щоб забезпечити кількісне визначення адекватності моделі. У неінформованій версії ПКБ даних, Моделі, що генерують, мають порівняно широкий діапазон значень параметрів на основі попередніх знань. Застосування як інформованих даних, так і неінформованих PBCM даних проілюстровано кількома прикладами.

    Оновлення: Оцінка імітації моделі простою англійською мовою. Ви берете одну з двох конкуруючих моделей і випадковим чином вибираєте набір параметрів для цієї моделі (будь-які дані або інформовані). Потім ви створюєте дані з цієї моделі з підібраним набором параметрів. Далі ви дозволяєте обом моделям відповідати отриманим даним і перевіряти, яка з двох кандидатних моделей дає кращу відповідність. Якщо обидві моделі однаково гнучкі або складні, модель, з якої ви отримали дані, повинна краще відповідати. Однак якщо інша модель є більш складною, вона могла б краще відповідати, хоча дані були отримані з іншої моделі. Ви повторюєте це кілька разів з обома моделями (тобто нехай обидві моделі дають дані і дивляться, яка з двох підходить краще). Модель, яка «перевершує» дані, отримані іншою моделлю, є більш складною.

  2. Перехресна перевірка : Це також досить просто здійснити. Дивіться відповіді на це питання . Однак зауважте, що проблема з цим полягає в тому, що вибір серед правил вирізання вибірки (випуск-один-вихід, K-складка тощо) є безпринциповим.


Я не дуже розумію "імітацію моделі", але перехресне підтвердження, здається, просто відкладає завдання оцінки складності. Якщо ви використовуєте дані для вибору параметрів та своєї моделі, як у перехресній валідації, відповідним питанням стає те, як оцінити кількість даних, необхідних для того, щоб цей "мета" -користувач працював добре
Ярослав Булатов

@Yaroslaw: Я не дуже розумію вашу проблему з перехресною валідацією, але якщо чесно, я там не експерт. Однак я дуже хотів би зробити точку для вимірювання імітації моделі. Тому дивіться мою оновлену відповідь.
Генрік

4

Я думаю, це залежатиме від фактичної процедури встановлення моделі. Ви можете врахувати загальноприйнятний захід Узагальнені ступені свободи», описані в 1998 році - по суті, чутливість зміни оцінок моделі до збурень спостережень - що досить добре працює як міра складності моделі.


Гм ... у статті йдеться про регресію, мені цікаво, чи можна це використовувати для дискретної оцінки ймовірності. Крім того, я не дуже розумію мотивацію, яку він дає для цього - gdf - це ступінь чутливості параметрів до невеликих змін у даних, але чому це важливо? Я міг би вибрати іншу параметризацію, коли невеликі зміни параметрів у вихідній параметризації відповідають великим змінам нової параметризації, тому вона буде здаватися більш чутливою до даних, але це та сама модель
Ярослав Булатов,

Ярослав:> * Я міг би вибрати іншу параметризацію, коли невеликі зміни параметрів у вихідній параметризації відповідають великим змінам нової параметризації, тому вона буде здаватися більш чутливою до даних * чи можете ви навести приклад (із залученням афінного еквівалентного оцінювача)? Дякую,
user603

1
DoF в лінійній регресії працює на сліді матриці капелюхів або суму чутливості - тому мотивація / концепція не все так далеко. Тібшірані і Найт запропонували критерій коваріації інфляції, який розглядає коваріації оцінок моделі замість чутливості. Здається, GDF застосовується в ряді модельних процедур, таких як порог кошика і вейвлет (у статті Є. про вибір адаптивного моделювання є детальніше), а також в ансамблевих методах контролю складності, але я не знаю жодних дискретних випадків оцінки. Може бути , варто спробувати ...
АРС

Не знаю про "афінні еквівалентні оцінки", але припустимо, що ми покладаємось на максимальну оцінку ймовірності. Нехай q = f (p), де f - деякий бієкція. Нехай p0, q0 представляють оцінку MLE у відповідній параметризації. p0, q0 матимуть різні асимптотичні дисперсії, але щодо даних моделювання вони рівноцінні. Тож виникає питання - в якій параметризації є чутливість параметрів, що репрезентує очікуваний ризик?
Ярослав Булатов

4

Мінімальна довжина опису (MDL) та мінімальна довжина повідомлення (MML), безумовно, варто перевірити.

Що стосується MDL, то простий документ, який ілюструє процедуру нормованої максимальної ймовірності (NML), а також асимптотичне наближення:

S. de Rooij & P. ​​Grünwald. Емпіричне дослідження вибору моделі мінімальної довжини опису з нескінченною параметричною складністю. Журнал математичної психології, 2006, 50, 180-192

Тут вони розглядають складність моделі розподілу Геометричний проти Пуассона. Чудовий (безкоштовний) підручник з MDL можна знайти тут .

В якості альтернативи можна знайти статтю про складність експоненціального розподілу, досліджувану як MML, так і MDL тут . На жаль, не існує сучасного підручника з MML, але книга є чудовою довідкою та настійно рекомендується.


1
Я прочитав цей папір і, схоже, стохастична складність вирішує проблему не в змозі розрізнити моделі однакових розмірів, але вводить проблему, коли іноді неможливо розрізнити моделі різних розмірів. Геометричному розподілу надається нескінченна складність, безумовно, не те, що ми очікували для такої простої моделі!
Ярослав Булатов

Дуже хороший пункт про нескінченну стохастичну складність (СК). Рішення проблеми нескінченного СК існують, але не є дуже елегантними; Ренормалізація Ріссанена добре працює в лінійних моделях, але це непросто зробити для проблеми Пуассона / Геометричної. MML (або SMML), що кодує дані Пуассона / Геометричні, чудово.
emakalic

3

Мінімальна довжина опису може бути дорогою, яку варто дотримуватися.


2
Просто коротке зауваження: мінімальна довжина опису дуже потужна і корисна, але це може зайняти віки, щоб отримати результати, особливо при використанні нормалізованої максимальної ймовірності з меншими масштабами більшої кількості наборів даних. Одного разу я взяв 10 днів за допомогою коду FORTRAN, щоб отримати його лише для однієї моделі
Дейв Келлен

2

Під "складністю моделі" зазвичай розуміють багатство простору моделі. Зауважте, що це визначення не залежить від даних. Для лінійних моделей багатство простору моделі тривіально вимірюється зі зменшенням простору. Це те, що деякі автори називають "ступенями свободи" (хоча історично ступеня свободи було зарезервовано для різниці між модельним простором та простором вибірки). Для нелінійних моделей кількісна оцінка багатства простору менш тривіальна. Така узагальнена ступінь свободи (див. Відповідь арс). Він дійсно дуже загальний і може використовуватися для будь-якого "дивного" простору моделі, такого як дерева, KNN тощо. TheРозмір VC є ще одним заходом.

Як було сказано вище, це визначення поняття "складність" не залежить від даних. Тож дві моделі з однаковою кількістю параметрів зазвичай матимуть однакову "складність".


1

Від коментарів Ярослава до відповіді Генріка:

але перехресне підтвердження, здається, просто відкладає завдання оцінки складності. Якщо ви використовуєте дані для вибору параметрів і вашої моделі, як при перехресній валідації, відповідним питанням стає те, як оцінити обсяг даних, необхідний для цього "мета" -виконання

Цікаво, чи це саме по собі не інформативно. Ви виконуєте кількак-складне резюме з різними к (скажімо уздовж сітки) і подивіться, яка модель працює краще кзбільшується. Більш конкретно: мені цікаво, чи існує якась диференціація між двома моделямиСV(к) продуктивність як функція к можна вважати доказом того, що ця модель (та, відносна продуктивність якої зменшується менше, коли к зростає) було б менш складним.

Ви можете навіть надати «значущості» присмаку цьому, оскільки результат процедури безпосередньо виражається в (одиницях) різниці в помилці прогнозування вибірки.


1
Я погодився б, що перехресне підтвердження вирішує проблему вимірювання складності моделі. Можливо, я задаю неправильне запитання, адже практичне запитання - це складність складної процедури підгонки. Перевірений студент спробував різні моделі та обрав би найменшу помилку перехресного підтвердження. Тепер питання - чи більша ймовірність цього учня перевищити, ніж той, який відповідає одній моделі за максимальною вірогідністю?
Ярослав Булатов

Ярослав Булатов:> так, але ви можете використовувати ML лише для порівняння вкладених моделей. Якщо ви вказали (у своєму запитанні) згадані моделі з однаковою кількістю параметрів, вони не можуть бути вкладеними.
user603

Інша проблема полягає в тому, що перехресне підтвердження не додає до нашого розуміння складності моделі. Такі заходи, як AIC / BIC, дають зрозуміти, що багато параметрів заохочують перевиконання. Тепер виникає питання - які аспекти моделі, крім розмірності, збільшують здатність до надмірного використання?
Ярослав Булатов

Ярослав:> Знову ж таки, дуже хороший момент.
user603

Якщо перевиконання - це схильність модельної процедури пристосування до розміщення шуму на додаток до сигналу, то ми можемо подивитися на дану процедуру, щоб побачити, де такі тенденції можуть виникнути. Можливо, через брак уяви чи знань, розглядаючи декілька різних процедур, я не міг звести це до того, що неможливо відновити як "кількість параметрів" (або "ефективна кількість параметрів"). Ми можемо перевернути це на голову і запитати: а все інше рівне, що відбувається, коли ми вводимо шум до наших даних? Тоді ми доходимо до таких заходів, як Ye GDF.
АРС

0

А як щодо інформаційного критерію для порівняння моделей? Див., Наприклад, http://en.wikipedia.org/wiki/Akaike_information_criterion

Складність моделі - це кількість параметрів моделі.


AIC не є показником складності моделі.
Свен Хогенштайн

@SvenHohenstein, з його останнього речення, я вважаю, що він не припускає, що AIC сам по собі є показником складності моделі. Brause42, зауважте, що питання спеціально задається щодо моделей із однаковою кількістю параметрів. Таким чином, AIC зменшиться до SSE або відхилення, або будь-чого іншого.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.