Як я можу моделювати мікродані перепису для невеликих районів, використовуючи 1% вибірку мікроданих у великому масштабі та сукупну статистику в масштабі малої площі?

Я хотів би провести багатоваріантний аналіз на індивідуальному рівні на невеликих рівнях географічної агрегації (австралійські райони збору переписів). Зрозуміло, що на цих малих рівнях сукупності з міркувань конфіденційності перепис не доступний, тому я розслідую інші варіанти. Майже всі змінні величини, що цікавлять, є категоричними. У мене є два набори даних:

Зразок перепису 1% доступний на значно більшому рівні просторової агрегації (територія з населенням ~ 190 000 та велика просторова сегрегація демографічних даних).
Таблиці частот змінних, які мене цікавлять на рівні невеликої площі (500 малих областей, середнє значення = 385, sd = 319, медіана = 355).

Як я можу використовувати ці два набори даних для імітації розподілу населення на рівні невеликої площі, максимально наближеної до реального населення невеликої площі?

Я розумію, що цілком можуть існувати рутинні методи для цього; якщо так, то вказівник на підручник чи відповідні статті журналів буде дуже вдячний.

— відмітка
джерело

можливо, пов'язані (у мене є аналогічна проблема): stats.stackexchange.com/questions/14399/… Вибірка Гіббса може бути тим, що потрібно тут.

— mzuba

Ви можете задати своє запитання у списку розсилки SRMSNET Американської статистичної асоціації. Якщо ви в Австралії, я підійшов би до Рей Чемберса - я думаю, ніхто не знає SAE краще, ніж він у Південній півкулі :).

— Стаск

Ця проблема тісно пов'язана з "дасиметричним картографуванням".

— whuber

Я погоджуюся з @whuber, і дасиметричне картографування може бути цікавим для позначення, враховуючи і предметний матеріал. На жаль, вона значною мірою відокремлена від екологічної літератури, яку я цитував у своїй відповіді (я не хочу більше купувати більше літератури!)

— Енді Ш

Деякі методи дазиметричного картографування почали використовувати допоміжні дані для спроби інтерполяції даних на менші площі. Цілі екологічного умовиводу та дасиметричного картографування дещо різні (дещо аналогічні різниці між прогнозуванням / прогнозуванням і умовиводом). Я напишу ще одне повідомлення з тих зібраних нами джерел, які, на мою думку, також зацікавлять. На жаль, я не можу дати набагато корисніших порад, ніж навести багато літератури. Це популярна сучасна тема, і, сподіваємось, ви можете внести свій внесок у неї!

— Енді Ш

Відповіді:

Дасиметричне відображення в основному орієнтоване на інтерполяцію оцінок населення на менші площі, ніж це доступно в розповсюджених в даний час даних (див. Це питання для безлічі корисних посилань на цю тему). Часто це робилося шляхом простого визначення територій (на основі характеристик земель), в яких, очевидно, немає населення, а потім переоцінки щільності населення (опускання цих районів). Прикладом може бути, якщо в місті є водойма, інший може бути, якщо ви визначите земельні ділянки промислових земель, в яких не може жити населення. Більш сучасні підходи до дасиметричного відображення включають інші допоміжні дані у вірогідні рамки для розподілу оцінок населення (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Зараз легко помітити відношення до вашого питання. Ви хочете оцінити чисельність населення невеликих районів. Але також повинно бути зрозуміло, як це може бути невдалим вашим цілям. Ви хочете не тільки дані про населення, але й характеристики цих груп населення. Одним із термінів, що використовуються для опису цієї ситуації, є зміна проблеми підтримки (Cressie, 1996; Gotway & Young, 2002). Позитившись з геостатистичної літератури, в якій намагаються зробити прогнози певної характеристики на широкій території з точкових зразків, нещодавні роботи намагаються інтерполювати ареальні дані в різні цільові зони. Значна частина роботи П'єра Говарца присвячена саме таким методам кріґінгу в районі, в останній статті в журналі " Географічний аналіз" є кілька прикладів методу, що застосовується до різних предметів (Haining et al., 2010), і одне з моїх улюблених застосувань - саме в цій статті (Young et al., 2009).

Те, що я цитую, навряд чи слід розглядати як панацею від проблеми. Зрештою, багато тих же питань, що стосуються екологічного зміщення та агрегації, стосуються також цілей ареальної інтерполяції. Як правило, багато зв'язків між даними на мікрорівні просто втрачаються в процесі агрегації, і такі методи інтерполяції не зможуть відновити їх. Крім того, процес, за допомогою якого емпірично інтерполюються дані (шляхом оцінки варіограм із сукупних даних рівня), часто є досить повним спеціальних кроків, які повинні зробити процес сумнівним (Goovaerts, 2008).

На жаль, я публікую це в окремій відповіді, оскільки література з екологічних висновків та література з дасиметричного картографування та кригінг з точки зору не перетинаються. Хоча література про екологічні умовиводи має багато наслідків для цих методів. Не тільки методи інтерполяції підлягають агрегаційному зміщенню, але й інтелектуальні дасиметричні методи (які використовують узагальнені дані для підгонки моделей для прогнозування менших площ), ймовірно, можуть підозрювати ухил агрегації. Знання ситуацій, в яких відбувається зміщення агрегації, повинно бути просвітливим щодо ситуацій, в яких ареальна інтерполяція та дасиметричне відображення значною мірою не вдасться (особливо, що стосується виявлення кореляцій між різними змінними на дезагрегованому рівні).

Цитати

— Енді У.
джерело

Дякую за корисну вихідну точку в сучасній літературі - я не знав дазиметричних методів, які забезпечували більшу щільність населення, тому я з нетерпінням розглядаю це.

— fmark

Робота Гері Кінг, зокрема , його книга «Рішення екологічної проблеми Inference» (перші два розділи доступні тут ), буде представляти інтерес (а також супутнє програмне забезпечення , він використовує для екологічних висновків). Кінг показує у своїй книзі, як оцінки регресійних моделей за допомогою сукупних даних можна вдосконалити, вивчаючи потенційні межі групувань нижчого рівня на основі наявних сукупних даних. Той факт, що ваші дані є переважно категоричними угрупованнями, робить їх підданими цій методиці. (Хоча не обманюйте, це не настільки всебічне рішення, як ви можете сподіватися, з огляду на назву!) Більш поточна робота існує, але книга Кінга - ІМО найкраще місце для початку.

Іншою можливістю було б просто представити потенційні межі самих даних (у картах чи графіках). Так, наприклад, ви можете повідомити про розподіл статі на сукупному рівні (скажімо, 5000 чоловіків і 5000 жінок), і ви знаєте, що цей сукупний рівень охоплює 2 різних невеликих одиниць популяції, 9000 і 1000 особин. Потім ви могли б представити це як таблицю дій на випадок;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000

Хоча у вас немає інформації в клітинках для агрегації нижчого рівня, з граничних підсумків ми можемо побудувати мінімальні або максимальні значення потенціалу для кожної комірки. Отже, у цьому прикладі Men X Unit1комірка може приймати значення лише між 4000 і 5000 (У будь-який час граничні розподіли будуть нерівномірнішими, тим менший інтервал можливих значень, які приймають комірки). Мабуть, отримати межі таблиці складніше, ніж я очікував ( Dobra & Fienberg, 2000 ), але, здається, функція є в eiPackбібліотеці в R ( Lau et al., 2007, p. 43 ).

Багатоваріантний аналіз із сукупними даними рівня важко, тому що з цим типом даних неминуче відбувається зміщення агрегації. (Коротше кажучи, я би просто описав зміщення агрегації, оскільки багато різних процесів генерування даних на індивідуальному рівні можуть призвести до об'єднання сукупного рівня.) Серія статей в Американському соціологічному оглядів 1970-х - це кілька моїх улюблених посилань на теми (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), хоча канонічними джерелами з цієї теми можуть бути (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Я думаю, що представлення потенційних меж, які можуть взяти дані, потенційно може бути спонукальним, хоча ви насправді перешкоджаєте обмеженням сукупних даних для проведення багатофакторного аналізу. Це нікого не заважає робити це, хоча в соціальних науках (хоча б на краще або на гірше!)

Зауважимо, (як Чарлі сказав у коментарях), що «рішення Кінга» отримало неабияку кількість критики (Anselin & Cho, 2002; Freedman et al., 1998). Хоча ці критичні норми не говорять про математику методу Кінга, тим більше, що стосується ситуацій, в яких метод Кінга все ще не враховує упередженість агрегації (і я погоджуюся як з Фрідманом, так і з Анселіним у тих ситуаціях, у яких дані для суспільні науки, як і раніше, підозрюються, є набагато більш поширеними, ніж ті, що відповідають припущенням Короля). Частково це є причиною, чому я пропоную просто вивчити межі (у цьому нічого поганого), але робити висновки щодо кореляції індивідуальних рівнів за такими даними потрібно набагато більше стрибків віри, які, зрештою, у більшості ситуацій невиправдані.

Цитати

— Енді У.
джерело

Зауважте, що інші критикують підхід Кінга до проблеми екологічної помилки; Девід Фрідман - помітний приклад. Ось відповідь, яку Фрідман та його співавтори дають до цитованої вище книги Кінга: citeseerx.ist.psu.edu/viewdoc/… Звичайно, Кінг відповів і Freedman et al. є відповідь на відповідь на відповідь ... Я не можу повністю зрозуміти, що ви намагаєтеся зробити і які дані у вас є, але я, як правило, дуже скептично ставляться до екологічних аналізів виводів.

— Чарлі

Так @Charlie я згоден (і мені особливо подобається взагалі сприймати питання Фрідмена). Частково це є причиною того, що я вказую на загальну літературу про зміщення узагальнення наприкінці своєї посади. Я не зовсім впевнений, що ви маєте на увазі під твердженням "Я не можу точно зрозуміти, що ви намагаєтеся зробити, і які дані у вас є, але я, як правило, дуже скептично ставляться до екологічних аналізів виводів", це в з повагою до Короля та Фрідмана, які скаржаться на те, що вони не обмінюються даними?

— Енді Ш

@Andy, Чи є ця методика тією, що економісти знають як частково визначені розподіли ( springer.com/statistics/statistic+theory+and+methods/book/… )?

— Стаск

@Andy, Ні, вибачте за неоднозначність. Я фактично виступав з ОП. Якщо у нього є частотні таблиці на невеликій площі та хоче отримати статистику на рівні невеликої площі, чого не вистачає? Я здогадуюсь, що він повинен мати лише поля, але не вміст комірок, як ви пропонуєте у своєму дописі.

— Чарлі

@StasK, я не знаю. Я перевіряю, чи Кінг звертається до Манського пізніше цього тижня, коли у мене є доступ до книги. Ймовірно, деяке перекриття з урахуванням екологічних висновків згадується в рефераті. Іншим потенційним (безкоштовним) джерелом для вивчення зв’язку між цими може бути читач Кінг, відредагований у розділі "Нові методи екологічного висновку" ( розміщений повністю на його веб-сайті)

— Енді Ш

Я не впевнений, що в цій літературі існує чітко визначена відповідь, враховуючи, що пошук Google дає в основному три корисні посилання на багатовимірну оцінку малої площі. Pfeffermann (2002) обговорює дискретні змінні відповіді у розділі 4 статті, але це будуть універсальні моделі. Звичайно, за допомогою ієрархічних байєсівських методів ( Рао 2003, гл. 10 ) ви можете робити будь-які чудеса, але якщо врешті-решт ви опинитесь лише тиражуючи своїх пріорів (бо у вас так мало даних), це було б жахливо результат вашої імітаційної вправи. Крім того, Рао розглядає лише постійні змінні.

Я думаю, що найбільшим викликом буде розкладання матриці коваріації на компоненти між і в межах малої площі. З 1% вибірки у вас буде лише 3 спостереження від вашого SAE, тому може бути важко отримати стабільну оцінку всередині компонента.

Якби я був у вашому взутті, я б спробував багатоваріантне розширення моделі Pfeffermann з багатоваріантним випадковим ефектом невеликої площі. Ви можете, дійсно, закінчити ієрархічну байєсівську модель для цього, якщо нічого не базується на дизайні.

ОНОВЛЕННЯ (щоб вирішити коментар Енді до цієї відповіді): методи завантаження для оцінки невеликих площ ( Lahiri 2003 ) спеціально відтворюють правдоподібне населення з дослідження. Хоча основна увага в процесі завантаження полягає в оцінці відхилень малих оцінок площі, процедури повинні представляти інтерес і стосунки до розміщеної проблеми.

— СтасК
джерело

Я б не оцінював статус літератури на основі пошуку в Google. Я не зовсім впевнений, що невелика оцінка площі - це те, що автор шукав би в цьому випадку. Наскільки я розумію, ця література зосереджена або на прогнозуванні характеристик на малих площах ( Kriegler & Berk, 2010 ), або на оцінці параметрів у багаторівневих моделях на основі розрідженої кількості зразків на агрегатну одиницю.

— Енді Ш

Я не впевнений, що оцінка невеликої площі - це те, що я хочу зробити. Як я розумію, оцінка малої площі має на меті перейти від декількох вибірок на невеликій території, щоб зібрати зведені статистичні дані. Я шукаю протилежне (перейти від великого розподілу чисельності населення та невеликої сукупної підсумкової статистики до модельованого невеликого населення). Lahiri 2003 виглядає як хороший вихідний пункт тут.

— fmark