Регресія всього населення


10

Який сенс стандартної похибки коефіцієнта в регресії, коли включається все населення?

Мене настільки спантеличило це питання. Оскільки, як мені здається, стандартні помилки не мають сенсу, коли включається все населення - немає необхідності в статистичних висновках, оскільки у вас вже є все населення.

Але він настільки широко використовується навіть у багатьох статтях, опублікованих у найкращих журналах. Наприклад, якщо я вивчаю взаємозв'язок між темпами зростання ВВП країни та її щільністю, я запускаю регрес:

ГDПi=α+βПоpi+γХi+ϵi

з усіма 195 країнами світу. У випадку включаються всі країни (населення). Але вся література все ще говорить про статистичну значимість коефіцієнтів.

Чи може хтось пояснити, чи це зловживання статистичним висновком при регресуванні для всього населення?


На це питання відповіли в мережі статистики. Дивіться тут . В основному статистика не має жодної актуальності. "Регресія" - суто математичний пристрій.
luchonacho

@luchonacho Моя думка, що це питання є тематичним щодо вмісту, який ми, природно, перекриваємось статистикою.SE). Я згоден, що це по суті дублікат. Я обговорив, що робити з дублікатами між веб-сайтами тут: meta.stackexchange.com/questions/172307/…
jmbejara

@jmbejara Дякую за довідку. Добре знати.
luchonacho

Це здається ще одним відповідним посиланням. У ньому обговорюється споріднена техніка, яка називається виводом рандомізації, як обговорювалося в Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…
jmbejara

Відповіді:


4

Я спочатку позначив це питання модераторам, щоб перевірити, чи було б краще перейти на статистичний веб-сайт перехресної перевірки. Але оскільки ОП представила дуже конкретний приклад економетрики, я вважаю, що (дуже глибока) концепція "населення / вибірка" може бути корисно обговорена для цілей цього прикладу.

Перше питання , яке обговорюється у відповіді @AdamBailey: якщо вважати "всі країни світу" протягом певного року чи років, і вони позначають дані як "населення", то наступний рік повинен належати іншому населенню. Якщо воно належить до іншого населення, то як нам використовувати результати однієї сукупності, щоб зробити висновок для іншого населення? Так що, справді, наше "населення" є двовимірним , країною та часовим періодом, і в цьому сенсі з відкритим часом часовий горизонт у нас є лише зразок.

ГDПi,i=1,..н

Отже, наші дані - лише одна з можливих комбінованих реалізацій цих випадкових величин. Ці реалізації виникли не лише в результаті детермінованих / інженерних відносин / причинності (відображених у коефіцієнтах), але й під дією сутнісно випадкових факторів. У цьому сенсі дані не є "чистим / типовим" зображенням "населення" - містять шум, неструктурні порушення, разові удари тощо.

Тоді ця невизначеність перейде до оцінки коефіцієнтів, які ми намагаємося оцінити, оскільки ми припускаємо, що ці коефіцієнти описують причинність або спільний рух до випадкових елементів, що впливають на кінцеве значення залежної змінної.

Зважаючи на обидва аспекти вище, говорити про "стандартну помилку оцінок" цілком справедливо і в цьому випадку, а потім застосовувати статистичні тести, як зазвичай.


5

Важливо врахувати, що саме стосується населення, щодо якого робиться висновок. У цьому контексті легко не помітити часовий аспект.

Припустимо, наприклад, що метою є прогнозування ВВП на наступні два роки для кожної країни світу. Тоді зацікавлене населення - це сукупність пар форми "країна, рік". Це не просто "всі країни", і навіть якщо модель прогнозу була оцінена регресом за даними про поточні та минулі роки для кожної країни, це не означає, що було включено все зацікавлене населення.

Якщо дійсно починати з повного набору даних для всієї сукупності, що цікавить, то все, що можна зробити, - це підрахувати підсумкову статистику. Це може включати стандартні відхилення, але було б недоцільно називати ці стандартні помилки, оскільки цей термін стосується розподілу вибірки, тоді як єдиний "зразок" у цьому випадку - це ціла сукупність.


Дуже дякую. Для того, щоб зробити це більш зрозумілим, я оновив питання, чи вважаються в цьому випадку "всі країни" усім населенням? Якщо їх немає, це означає, що вони є "зразками" з якогось "надлюдського населення" - припустимо, що в "паралельному всесвіті" є мільйони країн, а 195 країн світу незалежно і однаково розподілені між ними і підлягають вибірковій вибірці. Чи не занадто надумане припущення?
Акіра Осава
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.