Я студент економіки з певним досвідом роботи з економетрикою та Р. Я хотів би знати, чи є колись ситуація, коли ми повинні включати змінну в регресію, незважаючи на те, що вона не є статистично значимою?
Я студент економіки з певним досвідом роботи з економетрикою та Р. Я хотів би знати, чи є колись ситуація, коли ми повинні включати змінну в регресію, незважаючи на те, що вона не є статистично значимою?
Відповіді:
Так!
Те, що коефіцієнт статистично не відрізняється від нуля, не означає, що коефіцієнт насправді дорівнює нулю, що коефіцієнт не має значення. Те, що ефект не проходить деякого довільного відсічення за статистичною значимістю, не означає, що не слід намагатися контролювати його.
Взагалі кажучи, наявна проблема та ваша дослідницька конструкція повинні визначати, що потрібно включити до регресорів.
І не сприймайте це як вичерпний список. Складати тонни більше не важко ...
Ситуація, коли це часто виникає, - це регресія з фіксованими наслідками .
Скажімо, у вас є дані панелі і ви хочете оцінити у моделі:
Оцінка цієї моделі за допомогою звичайних найменших квадратів, де трактуються як фіксовані ефекти, еквівалентно виконанню звичайних найменших квадратів із змінною показника для кожного окремого i .
У будь-якому разі, справа в тому, що змінні (тобто коефіцієнти змінних індикаторів) часто погано оцінюються. Будь-який окремий фіксований ефект u i часто є статистично незначним. Але ви все-таки включаєте всі змінні індикатора в регресію, якщо враховуєте фіксовані ефекти.
(Далі зауважте, що більшість пакетів статистики навіть не дадуть вам стандартних помилок для окремих фіксованих ефектів при використанні вбудованих методів. Вам не дуже важливо значення окремих фіксованих ефектів. Ви, мабуть, дбаєте про їх колективне значення .)
Якщо ви підходите поліномій го ступеня до якоїсь кривої, ви майже завжди включаєте члени полінома нижчого порядку.
Наприклад, якщо вам підходив поліном другого порядку, ви запускаєте:
Зазвичай було б досить химерно змусити і замість цього запустити y i = b 0 + b 2 x 2 i + ϵ i
але студенти механіки Ньютона зможуть уявити винятки.
Скажімо, ви оцінювали модель AR (p), ви також включали умови нижчого порядку. Наприклад, для AR (2) ви запустили б:
Ви хочете включити змінні правої частини, коли для цього є вагомі теоретичні причини.
Оскільки інші відповіді тут і по всій StackExchange обговорюють, поетапний вибір змінних може створити численні статистичні проблеми.
Також важливо розрізняти:
В останньому випадку стверджувати, що коефіцієнт не має значення. Це може бути просто погано виміряно.
Так, є. Будь-яка змінна, яка могла б суттєво співвіднестись із змінною вашої відповіді, навіть на статистично незначному рівні, може заплутати вашу регресію, якщо вона не включена. Це відоме як недооцінка і призводить до оцінок параметрів, які не такі точні, як могли б бути в іншому випадку.
https://onlinecourses.science.psu.edu/stat501/node/328
З вищезазначеного:
Модель регресії не визначена (результат 2), якщо в рівнянні регресії відсутня одна чи кілька важливих змінних прогнозів. Ця ситуація, мабуть, є найгіршим сценарієм, тому що, якщо не визначена модель дає упереджені коефіцієнти регресії та упереджені прогнози реакції. Тобто, використовуючи модель, ми б послідовно недооцінювали або завищували схили населення та засоби населення. Щоб зробити вже погані питання ще гіршими, середня квадратна помилка MSE має тенденцію до завищення σ², тим самим даючи більші інтервали довіри, ніж слід.
Зазвичай ви не включаєте чи не виключаєте змінні для лінійної регресії через їх значення. Ви включаєте їх, оскільки ви припускаєте, що вибрані змінні є (хорошими) предикторами критеріїв регресії. Іншими словами, вибір предиктора заснований на теорії.
Статистична незначність в лінійній регресії може означати дві речі (про які я знаю):
Вагомою причиною виключення незначних прогнозів є те, що ви шукаєте найменший підмножина прогнозів, які пояснюють відхилення критеріїв або більшість його. Якщо ви знайшли це, перевірте свою теорію.
В економетрії це відбувається ліворуч і праворуч. Наприклад, якщо ви використовуєте щоквартальні муляжі сезонності Q2, Q3 та Q4, часто трапляється, що як група вони значущі, але деякі з них не мають значущого значення. У такому випадку ви зазвичай зберігаєте їх усі.
ОНОВЛЕННЯ: Ще один поширений приклад - прогнозування. Економетрію зазвичай викладають з точки зору висновку на економічних факультетах. У перспективі висновку велика увага приділяється p-значенням та значущості, тому що ви намагаєтесь зрозуміти, що викликає те, що і так далі. При прогнозуванні на цьому матеріалі не робиться особливого акценту, адже все, що вам важливо, - наскільки модель може спрогнозувати змінну, що цікавиться.
Це схоже на додатки машинного навчання, btw, які останнім часом пробиваються в економіку. Ви можете мати модель зі всіма значущими змінними, яка не добре прогнозує. У ML це часто асоціюється з так званими "over fitting". Очевидно, що така модель використовується в прогнозуванні дуже мало.
Ви задаєте два різні питання:
Редагувати: це стосувалося початкової публікації, але після змін не може бути істинним.
Щодо Q1, я вважаю, що це на кордоні, коли він занадто широкий. Є багато можливих відповідей, деякі вже надані. Ще один приклад - це побудова моделей для прогнозування (див. Джерело, яке цитується нижче, для пояснення).
Щодо Q2, статистична значимість не є надійним критерієм побудови моделі. Роб Дж. Хайндман пише у своєму блозі "Статистичні тести для варіативного вибору" наступного :
Статистична значимість, як правило, не є доброю основою для визначення того, чи слід змінну включати в модель, незважаючи на те, що багато людей, які повинні знати, краще використовувати їх саме для цієї мети. <...> Статистичні тести були розроблені для перевірки гіпотез, а не вибору змінних.
Також зауважте, що часто можна знайти деякі змінні, які є статистично значущими випадково (випадковість контролюється вибором рівня значущості). Спостереження про те, що змінна є статистично значущою, недостатньо для висновку, що змінна належить до моделі.
Додам ще «так». Мене завжди вчили - і я намагався передати це - що головний погляд при виборі коваріату - це знання домену, а не статистика. У біостатистиці, наприклад, якщо я моделювати деякі результати здоров'я на окремих особах, то незалежно від того , що говорить регресія, ви будете потребувати в деяких штопати хороші аргументи для мене не включати вік, расу і стать в моделі.
Це також залежить від мети вашої моделі. Якщо метою є краще розуміння того, які фактори найбільше пов'язані з вашим результатом, то побудова парсимоніальної моделі має деякі достоїнства. Якщо ви дбаєте про передбачення, а не стільки про розуміння, то усунення коваріатів може бути меншою проблемою.
(Нарешті, якщо ви плануєте використовувати статистику для вибору змінної, перевірте, що Френк Харрелл має сказати з цього приводу - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ і його книга " Стратегії моделювання регресії" . Коротше кажучи, до того часу, коли ви використовували поетапні або подібні статистично обґрунтовані стратегії для вибору найкращих прогнозів, то будь-які тести "чи ці хороші прогнози?" страшенно упереджені - звичайно, вони " повторно хороші прогнози, ви вибрали їх на цій основі, і тому значення p для цих прогнокторів помилково низьке.)
Єдине, про що справді говорять результати «статистичної незначущості» - це те, що на вибраному рівні помилки типу I ми навіть не можемо сказати, чи є вплив регресора на залежну змінну позитивним чи негативним (див. Цей пост).
Отже, якщо ми тримаємо цього регресора, будь-яке обговорення його власного впливу на залежну змінну не має статистичних доказів, щоб підтвердити це.
Але ця невдача оцінки не говорить про те, що регресор не належить до структурного відношення, він лише говорить про те, що за допомогою конкретного набору даних ми не змогли з певною визначеністю визначити знак його коефіцієнта.
Так що в принципі, якщо є теоретичні аргументи, які підтверджують його присутність, регресора слід зберігати.
Інші відповіді тут надавали конкретні моделі / ситуації, для яких такі регресори зберігаються в специфікації, наприклад відповідь, що згадує модель даних панелі з фіксованими ефектами.
Ви можете включити змінну, яка представляє особливий інтерес, якщо вона зосереджена на дослідженні, навіть якщо вона не є статистично значимою. Також у біостатистиці клінічне значення часто відрізняється від статистичного значення.