Розглянемо класичну проблему аналізу даних, де ти маєш результат і як це пов’язано з низкою прогнозів . Основний тип застосування тут на увазі:
- результат групового рівня, такий як рівень злочинності в місті .
Провідники - це характеристики групи, такі як демографічні особливості міста .
Основна мета - підходити до регресійної моделі (можливо, з випадковими ефектами, але забудьте про це зараз):
Чи виникають якісь технічні труднощі, коли один (або більше) прогнозів є результатом опитування, яке має різні розміри вибірки для кожної одиниці? Наприклад, припустимо, що є підсумковою оцінкою для міста що є середньою оцінкою від вибірки осіб з міста але розміри вибірки, на яких ґрунтувалися ці середні показники, є різними:
Оскільки змінні прогнозувальника не всі мають однакове значення, у певному сенсі для кожного міста, я боюся, що обумовлення цих змінних у регресійній моделі так, ніби всі вони "створені рівними", могло б викликати деякі оманливі умовиводи.
Чи існує назва цього типу проблем? Якщо так, чи є дослідження, як впоратися з цим?
Моя думка полягає в тому, щоб ставитись до цього як до змінної предиктора, вимірюваної помилкою, і робити щось за цими напрямками, але в помилках вимірювання є гетерокедастичність, тому це було б дуже складно. Я міг би думати про це неправильним способом або, можливо, ускладнювати це, ніж це є, але будь-яка дискусія тут буде корисною.