Чи придатні стандартні помилки та інтервали довіри при регресіях, де припущення гомоскедастичності порушено?


13

Якщо в стандартних регресіях OLS два припущення порушені (нормальний розподіл помилок, гомоскедастичність), чи є завантаження стандартних помилок та довірчих інтервалів підходящою альтернативою для досягнення значущих результатів щодо значущості коефіцієнтів регресору?

Чи все ще "працюють" тести на значущість із завантаженими стандартними помилками та довірчими інтервалами з гетероскедастичністю?

Якщо так, то які застосовні довірчі інтервали, які можна використовувати в цьому сценарії (перцентиль, BC, BCA)?

Нарешті, якщо завантажувальне завантаження є доречним у цьому сценарії, яка буде відповідна література, яку потрібно прочитати та цитувати, щоб дійти цього висновку? Будь-який натяк буде дуже вдячний!


1
Якщо є таке порушення, я не думаю, що завантажувальний процес виліковує це. Натомість, чому б не спробувати перетворити (увімкнути) дані, щоб наблизитись до нормальності та використати надійну стандартну помилку, наприклад, з пакету сендвіч у R?
B_Miner

Завантажувальна програма працює чудово, якщо ви адаптуєте схему
перекомпонування

Відповіді:


20

Існує щонайменше три (може бути більше) підходів для виконання завантажувальної програми для лінійної регресії з незалежними, але не однаково розподіленими даними. (Якщо у вас є інші порушення "стандартних" припущень, наприклад, через автокореляцію з даними часових рядів або кластеризацію через дизайн вибірки, все ускладнюється).

  1. Ви можете повторно проаналізувати спостереження в цілому, тобто взяти зразок із заміною з вихідних даних . Це буде асимптотично еквівалентно корекції гетероскедастичності Хубера-Білого .{ ( y i , x i ) }(yj,xj){(yi,xi)}
  2. Ви можете підходити до своєї моделі, отримувати залишки і перепропонувати самостійно та із заміною їх відповідних емпіричних розподілів, але це розбиває структури гетероскедастичності, якщо такі є, тому я сумніваюся, що цей завантажувальний пристрій є послідовним. х * J е * Jei=yixiβ^xjej
  3. Ви можете виконати дикий завантажувальний запуск, в якому ви переутворюєте знак залишку, який контролює умовний другий момент (і, з деякими додатковими налаштуваннями, і для умовного третього моменту теж). Це була б процедура, яку я б рекомендував (за умови, що ви можете зрозуміти це та захистити його перед іншими, коли запитають: "Що ви зробили, щоб контролювати гетерокедастичність? Як ви знаєте, що це працює?").

Кінцевою посиланням є Ву (1986) , але Аналі не є саме читанням картинок.

ОНОВЛЕННЯ на основі наступних питань ОП, заданих у коментарях:

Кількість повторень мені здалася великою; Єдине добре обговорення цього параметра завантажувальної програми, про який я знаю, - це книга "Вступ до завантаження" Efron & Tibshirani .

Я вважаю, що загалом подібні виправлення у зв'язку з відсутністю припущень щодо розподілу можна отримати за допомогою стандартних помилок Хубера / Білого. У підручнику Cameron & Triverdi обговорюється еквівалентність пари завантажувальної пари та корекція гетероскедастичності Уайта. Еквівалентність випливає із загальної теорії стійкості для оцінок: обидва виправлення спрямовані на виправлення припущень розподілу, якими б вони не були, з мінімальним припущенням кінцевих секунд залишків та незалежності між спостереженнями. Дивіться також Хаусмана та Палмера (2012) про більш конкретні порівняння в кінцевих зразках (версія цього документу доступна на одному з веб-сайтів авторівM) на порівняння між виправленнями завантаження та гетерокедастичністю.


Дякую за допомогу! Будь ласка, дозвольте мені одне наступне запитання: Єдині припущення, які я порушую, - це нормальний розподіл помилок та припущення про гомоскедастичність. Також мене цікавить лише те, чи є мої коефіцієнти регресії значними. у очікуваному напрямку чи ні. Величина ефекту не важлива. Я думаю, що я зробив поки що ваш варіант 1. Я завантажував стандартні помилки і створював додаткові інтервали довіри завантаження. Я робив це за допомогою Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. Чи це виліковує моє порушення припущення?
Девід

Я не займаюся діагностикою даних, що базуються лише на вашому синтаксисі, і ніхто не стане. Який розмір вашого набору даних? reps(2500)це, мабуть, надмірність, принаймні для стандартних помилок; Я думаю, що reps(500)це нормально для більшості практичних цілей. Вступна книга завантаження Efron & Tibshirani має розділ про кількість повторів. У них також є ціла глава про регресію, так що це може бути ще одним хорошим посиланням для вас.
Стаск

Дякую за швидку відповідь. Набір даних становить ~ 250. Питання щодо кількості реплікацій убік (дякую за посилання!) Чи погоджуєтесь ви, що стандартні помилки завантаження (шляхом переупорядкування спостережень в цілому) та / або довірені інтервали довіри (наприклад, виправлені відсотки або зміщення) будуть відповідний спосіб визначення значущості (або її відсутності) коефіцієнта регресії, враховуючи порушення гомоскедастичності та припущення нормального розподілу помилок? Дякую за ваш внесок!
Девід

Так, я б сказав, що це краще. Якщо ви використовуєте Stata, ви можете отримати дуже схожу відповідь, скориставшись robustваріантом регресії. est storeяк результати, так і est tab, seїх для порівняння.
Стаск

Дякую, Стаск. Я також бачив такий коментар, який ви зробили десь ще на цьому веб-сайті: "Простий завантажувальний інструмент з перестановкою ⇔ надійний оцінювач гетероскедастичності Білого". У контексті моїх питань, як було викладено вище: Чи є опубліковані статті журналів, які підкреслюють це?
Девід
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.