Що ви можете зробити, коли у вас є змінні прогнози, які базуються на групових середніх значеннях з різними розмірами вибірки?


14

Розглянемо класичну проблему аналізу даних, де ти маєш результат і як це пов’язано з низкою прогнозів . Основний тип застосування тут на увазі:YiXi1,...,Xip

  1. Yi - результат групового рівня, такий як рівень злочинності в місті .i

  2. Провідники - це характеристики групи, такі як демографічні особливості міста .i

Основна мета - підходити до регресійної моделі (можливо, з випадковими ефектами, але забудьте про це зараз):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Чи виникають якісь технічні труднощі, коли один (або більше) прогнозів є результатом опитування, яке має різні розміри вибірки для кожної одиниці? Наприклад, припустимо, що є підсумковою оцінкою для міста що є середньою оцінкою від вибірки осіб з міста але розміри вибірки, на яких ґрунтувалися ці середні показники, є різними:Xi1ii

CitySample size120210033004553

Оскільки змінні прогнозувальника не всі мають однакове значення, у певному сенсі для кожного міста, я боюся, що обумовлення цих змінних у регресійній моделі так, ніби всі вони "створені рівними", могло б викликати деякі оманливі умовиводи.

Чи існує назва цього типу проблем? Якщо так, чи є дослідження, як впоратися з цим?

Моя думка полягає в тому, щоб ставитись до цього як до змінної предиктора, вимірюваної помилкою, і робити щось за цими напрямками, але в помилках вимірювання є гетерокедастичність, тому це було б дуже складно. Я міг би думати про це неправильним способом або, можливо, ускладнювати це, ніж це є, але будь-яка дискусія тут буде корисною.


8
Це називається проблемою "гетероскедастичні помилки в змінних". (Ця фраза є хорошою ціллю для пошуку в Google.) Нещодавно (2007) Delaigle та Meister запропонували непараметричний оцінювач щільності ядра в статті JASA . Конспект про деякі параметричні методи (метод моментів та MLE) пропонує деякі додаткові підходи: sciencedirect.com/science/article/pii/S1572312709000045 . (Я недостатньо знайомий з дослідженнями, щоб дати тобі авторитетну відповідь про те, як обробляти конкретний набір даних.)
whuber

1
@whuber +1 для обох коментарів. Я думаю, що "помилки в змінних" було відсутнім ключовим словом, яке я шукав. Якщо внизу ніхто не дає сильної відповіді, яку я можу прийняти, то я загляну в літературу і повернусь до публікації, що я в кінцевому підсумку роблю як відповідь.
Макрос

Відповіді:


2

Документ "Модель гетероскедастичних структурних помилок у змінних з помилкою рівняння" можна завантажити на сторінці автора:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Опубліковані_шпалери

в основному ви повинні враховувати мінливість обох змінних, щоб уникнути суперечливих оцінок, ненадійних тестів гіпотез та довірчих інтервалів.


0

σ2Xiσ2/ninii


Це здається розумним, хоча я сподівався уникнути необхідності взагалі моделювати помилку вимірювання. Якби я пішов у цьому напрямку, що б ви використали для оцінки ефекту прогноктора, виміряного з помилкою? Я використовував один метод під назвою SIMEX, але це здається незвичним, і мені цікаво, чи є інші варіанти.
Макрос

@Macro Я не знайомий з конкретним програмним забезпеченням для моделювання регресії з дисперсійною функцією для оцінки.
Майкл Р. Черник

3
Макрос, як правило, при регресії гомосептичних помилок у змінних, якщо помилки в IV невеликі порівняно з помилками в DV, можна сміливо ігнорувати колишню і вдаватися до звичайної регресії. Це дає вам швидкий, простий спосіб вирішити проблему.
whuber

1
@whuber, дякую - це корисно. Здається, що якщо це правило має сенс, тоді в гетерокедастичному випадку має сенс використовувати "якщо найбільша дисперсія помилок у IV-х невелика порівняно з дисперсією помилок у DV, ви можете сміливо ігнорувати проблему" було б розумне правило, яке є умовою, яку фактично можна виконати в даних, які я переглядаю.
Макрос

1
σ211/n(.05,1)Yi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.