Коли можна використовувати критерії, засновані на даних, для визначення моделі регресії?


20

Я чув, що коли багато специфікацій регресійної моделі (скажімо, в OLS) розглядаються як можливості для набору даних, це спричиняє багаторазові проблеми порівняння, а значення p та значення інтервалів вже не є надійними. Одним з крайніх прикладів цього є покрокова регресія.

Коли я можу використовувати самі дані для уточнення моделі, а коли це не є правильним підходом? Чи завжди вам потрібно мати предметну теорію, щоб сформувати модель?

Відповіді:


9

Загальноприйнятні методи відбору (як поетапно, назад, вперед, усі підмножини, AIC тощо) використовують великі випадкові чи випадкові шаблони у вибіркових даних, які не існують у сукупності. Технічний термін для цього є занадто придатним, і це особливо проблематично для невеликих наборів даних, хоча це не є виключно для них. Використовуючи процедуру, яка вибирає змінні на основі найкращого підходу, всі випадкові зміни, схожі на відповідність у цьому конкретному зразку, сприяють оцінкам та стандартним помилкам. Це проблема як прогнозування, так і інтерпретації моделі.

Зокрема, r-квадрат занадто високий і оцінки параметрів упереджені (вони занадто далекі від 0), стандартні помилки для параметрів занадто малі (і, таким чином, p-значення та інтервали навколо параметрів занадто малі / вузькі).

Найкраща лінія захисту від цих проблем полягає в тому, щоб продумати моделі продумано та включити прогнози, які мають сенс, ґрунтуючись на теорії, логіці та попередніх знаннях. Якщо необхідна процедура вибору змінної, вам слід вибрати метод, який штрафує оцінки параметрів (методи усадки) шляхом коригування параметрів та стандартних помилок для врахування надмірного пристосування. Деякі поширені методи усадки - це регресія хребта, регресія з найменшим кутом або ласо. Крім того, перехресне підтвердження за допомогою навчального набору даних та тестового набору даних або усереднення моделі може бути корисним для тестування або зменшення наслідків надмірної підгонки.

Гаррелл - чудове джерело для детального обговорення цих проблем. Харрелл (2001). "Стратегії моделювання регресії".


Приймаю, довгий час! Дякую за детальний огляд технічних питань, і я погляну на книгу Гаррелла.
Statisfactions

7

У контексті суспільствознавства, звідки я родом, питання полягає в тому, чи цікавить ви (а) прогнозування чи (б) тестування зосередженого дослідницького питання. Якщо метою є прогнозування, то підходи, керовані даними, є відповідними. Якщо метою є вивчення цілеспрямованого дослідницького питання, то важливо врахувати, яка регресивна модель спеціально перевіряє ваше запитання.

Наприклад, якщо ваше завдання полягало у виборі набору тестів відбору для прогнозування ефективності роботи, мета може в певному сенсі розглядатися як одна з максимальних прогнозувань ефективності роботи. Таким чином, підходи, керовані даними, були б корисні.

На відміну від цього, якщо ви хотіли зрозуміти відносну роль змінних особистості та змінних можливостей у впливі на продуктивність, то конкретніший підхід порівняння моделі може бути більш підходящим.

Як правило, при дослідженні сфокусованих дослідницьких питань метою є з'ясування чогось про основні причинно-наслідкові процеси, що діють, на відміну від розробки моделі з оптимальним прогнозуванням.

Коли я розробляю моделі щодо процесу на основі даних поперечного перерізу, я б насторожено ставився до: (а) включаючи прогнози, які теоретично можна вважати наслідками змінної результату. Наприклад, віра людини в те, що вони є хорошим виконавцем, є хорошим прогнозувачем ефективності роботи, але, ймовірно, це хоча б частково викликано тим, що вони спостерігали за власним результатом роботи. (b) включаючи велику кількість предикторів, які відображають однакові основні явища. Наприклад, з 20 предметів, які по-різному вимірюють задоволеність життям.

Таким чином, цілеспрямовані дослідницькі питання набагато більше покладаються на знання, специфічні для домену. Це, мабуть, певним чином пояснює, чому підходи, керовані даними, рідше використовуються в соціальних науках.


4

Я не думаю, що неможливо зробити Bonferoni або подібні виправлення, щоб скоригуватися для вибору змінної в регресії, тому що всі тести та етапи, пов'язані з вибором моделі, не є незалежними.

Один із підходів полягає у формулюванні моделі, використовуючи один набір даних, і робити висновки для іншого набору даних. Це робиться для прогнозування весь час, коли у нас є навчальний набір і тестовий набір. Це не дуже часто зустрічається в інших сферах, ймовірно, тому, що дані настільки дорогоцінні, що ми хочемо використовувати кожне спостереження для вибору моделі та для висновку. Однак, як ви зазначаєте у своєму запитанні, мінусом є те, що висновок насправді вводить в оману.

Існує багато ситуацій, коли теоретичний підхід неможливий, оскільки немає добре розробленої теорії. Насправді, я думаю, це набагато частіше, ніж випадки, коли теорія пропонує модель.


4

Річард Берк має нещодавню статтю, де він демонструє за допомогою симуляції проблеми такого проходження даних та статистичного висновку. Як вважає Роб, це більш проблематично, ніж просто виправити тести на кілька гіпотез.

Статистичні умовиводи після вибору моделі : Річард Берк, Лоуренс Браун, Журнал кількісної кримінології Linda Zhao, Vol. 26, № 2. (1 червня 2010 р.), Стор 217-236.

Версія PDF тут


(+1) Дякуємо за посилання! Ви можете бути зацікавлені в цьому питанні, пов'язаної з stats.stackexchange.com/questions/3200 / ... . Не соромтеся робити внесок.
chl

@chl, я не думаю, що я можу щось додати до вже відмінних відповідей на це питання. Я фактично вважаю, що відповідь Брендана дуже пихата, тому що я підозрюю, що оригінальний плакат справді зацікавлений у причинному висновку, а не лише в прогнозі, що базується на контексті питання.
Енді Ш

Так, я думав над його відповіддю. Я ініціював рефлексию на питання драгування даних (не зовсім щодо питань вибору моделі / змінної або причинного висновку), але поки що отримую мало відповідей. Якщо ви хочете додати свої власні ідеї, було б цікаво: stats.stackexchange.com/questions/3252 / ...
хл

2

Якщо я правильно розумію ваше запитання, то відповідь на вашу проблему полягає в корекції р-значень відповідно до кількості гіпотез.

Наприклад, виправлення Холма-Бонфероні, де ви сортуєте гіпотезу (= ваші різні моделі) за їх p-значенням та відхиляєте ті, у яких ap samller ніж (бажане p-значення / індекс).

Детальніше про тему можна ознайомитись у Вікіпедії


1
Ви можете прочитати цю відповідь на окреме запитання і побачити, чому коригування p-значень таким чином може бути не найкращим рішенням, stats.stackexchange.com/questions/3200/…
Andy W
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.