Вибір найкращої моделі серед різних «найкращих» моделей

28

Як ви вибираєте модель серед різних моделей, вибраних різними методами (наприклад, вибір назад або вперед)?

Також що таке парсимонійна модель?

regression model-selection

— Том
джерело

Я відредагував заголовок, щоб (сподіваюся) зробити вашу думку більш зрозумілою.

39

Парсимонійна модель - це модель, яка забезпечує бажаний рівень пояснення чи прогнозування з якомога менше змінних прогнозів.

Для оцінки моделі існують різні методи залежно від того, що ви хочете знати. Зазвичай існує два способи оцінювання моделі: на основі прогнозів та на основі відповідності поточним даним. У першому випадку ви хочете знати, чи адекватно передбачить ваша модель нові дані, у другому ви хочете знати, чи адекватно описує ваша модель відносини у ваших поточних даних. Це дві різні речі.

Оцінювання на основі прогнозів

Найкращий спосіб оцінити моделі, які використовуються для прогнозування, - це кросвалідація. Дуже коротко, ви вирізаєте свій набір даних, наприклад. 10 різних фрагментів, використовуйте 9 з них для побудови моделі та прогнозування результатів для десятого набору даних. Проста середня різниця у квадраті між спостережуваними та прогнозованими значеннями дає змогу визначити точність прогнозування. Повторюючи це десять разів, ви обчислюєте середню різницю у квадраті за всі десять ітерацій, щоб дійти до загального значення зі стандартним відхиленням. Це дозволяє знову порівняти дві моделі за їх точністю прогнозування, використовуючи стандартні статистичні методи (t-тест або ANOVA).

Варіант теми - критерій PRESS (сума прогнозування квадратів), визначений як

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Де - передбачуване значення для i-го спостереження, використовуючи модель, засновану на всіх спостереженнях за мінусом i-го значення. Цей критерій особливо корисний, якщо у вас не так багато даних. У такому випадку розбиття ваших даних, як у підході до кросвалідизації, може призвести до підмножини даних, які є занадто малими для стабільної установки. $\hat{Y}_{i(-i)}$

Оцінка на основі корисності придатності

Дозвольте спочатку зазначити, що це дійсно відрізняється залежно від модельної рамки, яку ви використовуєте. Наприклад, тест коефіцієнта ймовірності може працювати для узагальнених аддитивних змішаних моделей при використанні класичних гауссів для помилок, але безглуздий у випадку біноміального варіанту.

Спочатку у вас є більш інтуїтивні методи порівняння моделей. Ви можете використовувати інформаційний критерій Aikake (AIC) або байєсівський інформаційний критерій (BIC), щоб порівняти корисність для двох моделей. Але нічого не говорить про те, що обидві моделі дійсно відрізняються.

Ще один - критерій Маллоу Сп. Це по суті перевіряє можливі ухили у вашій моделі, порівнюючи модель з усіма можливими підмоделями (або ретельним підбором їх). Дивіться також http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Якщо моделі, які ви хочете порівняти, є вкладеними моделями (тобто всі предиктори та взаємодії більш парсимоніальної моделі трапляються також у більш повної моделі), ви можете використовувати формальне порівняння у вигляді тесту на коефіцієнт ймовірності (або Chi-квадрата) або тест F у відповідних випадках, наприклад, при порівнянні простих лінійних моделей, встановлених з використанням найменших квадратів). Цей тест по суті контролює, чи дійсно покращують модель додаткові прогнози чи взаємодії. Цей критерій часто використовується у ступінчастих методах вперед або назад.

Про автоматичний вибір моделі

У вас є захисники і у вас є вороги цього методу. Я особисто не прихильник автоматичного вибору моделі, особливо якщо це не стосується опису моделей, і це з ряду причин:

У кожній з моделей ви повинні перевірити, чи правильно справляєтесь з непорозумінням. Насправді, у багатьох наборах даних є змінні, які ніколи не повинні міститись у моделі одночасно. Часто люди забувають контролювати це.
Автоматичний вибір моделі - це спосіб створювати гіпотези, а не перевіряти їх. Усі умовиводи на основі моделей, що походять від автоматичного вибору моделі, недійсні. Ніякого способу це не змінити.
Я бачив багато випадків, коли починаючи з іншої початкової точки, поетапний вибір повертав зовсім іншу модель. Ці методи далеко не стійкі.
Також важко включити гідне правило, оскільки статистичні тести для порівняння двох моделей вимагають введення моделей. Якщо ви використовуєте, наприклад, AIC, BIC або PRESS, обріс, коли різниця дійсно важлива, вибирається довільним.

В основному я бачу більше порівняння вибраного набору моделей, попередньо вибраних. Якщо вам не байдуже статистичне оцінювання моделі та тестування гіпотез, ви можете скористатися перехресним перевіркою для порівняння точності прогнозування ваших моделей.

Але якщо ви дійсно після вибору змінних для прогнозованих цілей, вам варто поглянути на інші методи для варіативного вибору, наприклад, Підтримка векторних машин, Нейронні мережі, Випадкові ліси тощо. Вони набагато частіше використовуються, наприклад, в медицині, щоб з’ясувати, який з тисячі виміряних білків може адекватно передбачити, чи є у вас рак чи ні. Просто наведіть (відомий) приклад:

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Усі ці методи мають також регресійні варіанти для безперервних даних.

— Йоріс Мейс
джерело

Яку модель ви обрали б між Mallows Cp та зворотним вибором? Також хороші моделі з низьким SSE та значними коефіцієнтами?

— Том

2

@tom: ти порівнюєш яблука з апельсинами. зворотний вибір - це метод, Маллоуз Сп - критерій. Cp Маллоу може використовуватися як критерій відбору назад. І як ви можете прочитати, я не роблю відсталого відбору. Якщо мені потрібно вибрати змінні, я використовую для цього відповідні методи. Я не згадував про методи ЛАССО та ЛАР, про які Пітер Флом згадував, але вони, безумовно, варто також спробувати.

— Йоріс Майс

@ Джонс Мейс: Припустимо, я вибираю модель з найнижчим рівнем мальви Cp (який має змінних прогнозова). Тоді я використовую зворотний вибір, щоб отримати іншу модель (З змінними предиктора). Я б просто обрав той, з найменшими змінними, якщо метою є парсинг?

x

$x$

x - 1

$x-1$

— Том

2

@FrankHarrell невелике моделювання може довести, що кореляція між р-значеннями (припускаючи, що ви говорите про F-тест або еквівалент) та AIC не існує (0,01 в моєму моделюванні). Так що ні, немає значення P-значень та AIC. Те саме для BIC та Cp. Ще одне невелике моделювання також доведе, що ви отримуєте досить різні результати в покроковій процедурі залежно від критерію, який ви використовуєте. Тож ні: Cp, AIC, BIC - це жодним чином не лише перетворення P-значень. Насправді, дивлячись на формули, я жодним чином не можу вказувати на математичний зв’язок чи перетворення.

— Йоріс Майс

1

@FrankHarrell, це не означає, що я виступаю за поступово, навпаки. Але ваше твердження принаймні сформульовано трохи сильно.

— Йоріс Мейс

20

Помилування - ваш ворог. Природа не діє побічно, а набори даних не мають достатньої кількості інформації, щоб можна було вибрати "правильні" змінні. Не дуже важливо, який метод ви використовуєте або який індекс ви використовуєте як правило зупинки. Змінна селекція без усадки майже приречена. Однак іноді обмежене зменшення назад (з ) може бути корисним. Він працює просто тому, що не видалить багато змінних. $\alpha=0.50$

— Френк Харрелл
джерело

Питання не в поетапному, а в виборі найкращої моделі серед результатів різних підходів ...

— Joris Meys

4

Мені дуже подобається "парсинг - твій ворог".

— Пітер Флом - Відновити Моніку

1

Дякую Петру. Joris - вибір серед різних підходів дещо відрізняється від поетапного відбору, але не сильно.

— Френк Харрелл

16

Використання вибору назад або вперед - це загальна стратегія, але я не можу рекомендувати. Результати такої побудови моделі - все неправильно. Значення р занадто низькі, коефіцієнти відхилені від 0, і є інші пов'язані з цим проблеми.

Якщо вам потрібно зробити автоматичний вибір змінної, я б рекомендував використовувати більш сучасний метод, наприклад LASSO або LAR.

Про це я написав презентацію SAS під назвою "Зупинка покроково: Чому покрокові та подібні методи погані та що слід використовувати"

Але, якщо можливо, я б взагалі уникав цих автоматизованих методів і покладався на експертизу з предметів. Одна ідея полягає у створенні 10 або більше розумних моделей та порівнянні їх на основі інформаційного критерію. @Nick Sabbe перерахував декілька з них у своїй відповіді.

— Пітер Флом - Відновити Моніку
джерело

2

+1 для посилання на статтю. Хоча я не кодую в SAS, я прочитав його кілька місяців тому і виявив, що це хороша проблема на високому рівні.

— Джош Геманн

11

Відповідь на це значно залежатиме від вашої мети. Ви можете шукати статистично значущі коефіцієнти, або, можливо, вам не вдасться уникати якомога більше пропусків класифікації під час прогнозування результату для нових спостережень, або вас може просто зацікавити модель з найменшими помилковими позитивами; можливо, ви просто хочете криву, яка є "найближчою" до даних.

У будь-якому з наведених вище випадків вам потрібна якась міра того, що ви шукаєте. Деякі популярні заходи з різними додатками - AUC, BIC, AIC, залишкова помилка, ...

Ви обчислюєте міру, яка найкраще відповідає вашій меті для кожної моделі, а потім порівнюєте «бали» для кожної моделі. Це призводить до найкращої моделі для вашої мети.

Деякі з цих заходів (наприклад, AIC) створюють додатковий наголос на кількості ненульових коефіцієнтів у моделі, оскільки використання занадто багатьох може бути просто надмірним доповненням даних (так що модель буде марною, якщо використовувати її для нових даних, не кажучи вже про Населення). Можуть бути й інші причини, що вимагають, щоб модель містила «якомога менше» змінних, наприклад, якщо їх просто витратно вимірювати для прогнозування. "Простота" або "мала кількість змінних" в моделі, як правило, називається її посидючості.

Отже, коротко кажучи, простомовна модель - це «проста» модель, яка не містить занадто багато змінних.

Як і часто з подібними питаннями, я посилаюсь на чудову книгу « Елементи статистичного навчання» для отримання більш глибокої інформації про цю тему та пов'язані з нею питання.

— Нік Саббе
джерело

1

Приємна книга, яку ви рекомендуєте там. Ще один, який я міг би порекомендувати, - це " Прикладні лінійні статистичні моделі", які містять кілька розділів щодо критеріїв вибору, вибору моделі та порівняння моделей.

— Йоріс Мейс

-1

Я вважав дискусію тут цікавою, особливо дебати між Парсимоніумом та Моделем з більшою кількістю коефіцієнтів та змінних.

Мій проф. Пізній доктор Стів наголошував на парсимоніальній моделі з низьким R ^ 2 порівняно з іншою моделлю з кращими приляганнями / великими R ^ 2.

Дякую за всю рибу тут!

Акаш

— Акаш Сондхі - початківець модельєр
джерело