Робота Гері Кінг, зокрема , його книга «Рішення екологічної проблеми Inference» (перші два розділи доступні тут ), буде представляти інтерес (а також супутнє програмне забезпечення , він використовує для екологічних висновків). Кінг показує у своїй книзі, як оцінки регресійних моделей за допомогою сукупних даних можна вдосконалити, вивчаючи потенційні межі групувань нижчого рівня на основі наявних сукупних даних. Той факт, що ваші дані є переважно категоричними угрупованнями, робить їх підданими цій методиці. (Хоча не обманюйте, це не настільки всебічне рішення, як ви можете сподіватися, з огляду на назву!) Більш поточна робота існує, але книга Кінга - ІМО найкраще місце для початку.
Іншою можливістю було б просто представити потенційні межі самих даних (у картах чи графіках). Так, наприклад, ви можете повідомити про розподіл статі на сукупному рівні (скажімо, 5000 чоловіків і 5000 жінок), і ви знаєте, що цей сукупний рівень охоплює 2 різних невеликих одиниць популяції, 9000 і 1000 особин. Потім ви могли б представити це як таблицю дій на випадок;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Хоча у вас немає інформації в клітинках для агрегації нижчого рівня, з граничних підсумків ми можемо побудувати мінімальні або максимальні значення потенціалу для кожної комірки. Отже, у цьому прикладі Men X Unit1
комірка може приймати значення лише між 4000 і 5000 (У будь-який час граничні розподіли будуть нерівномірнішими, тим менший інтервал можливих значень, які приймають комірки). Мабуть, отримати межі таблиці складніше, ніж я очікував ( Dobra & Fienberg, 2000 ), але, здається, функція є в eiPack
бібліотеці в R ( Lau et al., 2007, p. 43 ).
Багатоваріантний аналіз із сукупними даними рівня важко, тому що з цим типом даних неминуче відбувається зміщення агрегації. (Коротше кажучи, я би просто описав зміщення агрегації, оскільки багато різних процесів генерування даних на індивідуальному рівні можуть призвести до об'єднання сукупного рівня.) Серія статей в Американському соціологічному оглядів 1970-х - це кілька моїх улюблених посилань на теми (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), хоча канонічними джерелами з цієї теми можуть бути (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Я думаю, що представлення потенційних меж, які можуть взяти дані, потенційно може бути спонукальним, хоча ви насправді перешкоджаєте обмеженням сукупних даних для проведення багатофакторного аналізу. Це нікого не заважає робити це, хоча в соціальних науках (хоча б на краще або на гірше!)
Зауважимо, (як Чарлі сказав у коментарях), що «рішення Кінга» отримало неабияку кількість критики (Anselin & Cho, 2002; Freedman et al., 1998). Хоча ці критичні норми не говорять про математику методу Кінга, тим більше, що стосується ситуацій, в яких метод Кінга все ще не враховує упередженість агрегації (і я погоджуюся як з Фрідманом, так і з Анселіним у тих ситуаціях, у яких дані для суспільні науки, як і раніше, підозрюються, є набагато більш поширеними, ніж ті, що відповідають припущенням Короля). Частково це є причиною, чому я пропоную просто вивчити межі (у цьому нічого поганого), але робити висновки щодо кореляції індивідуальних рівнів за такими даними потрібно набагато більше стрибків віри, які, зрештою, у більшості ситуацій невиправдані.
Цитати
- Анселін, L. & WKT Cho (2002). Просторові ефекти та екологічні умовиводи. Політичний аналіз 10 (3): 276-297.
- Dobra A. & SE Fienberg (2000). Межі для записів клітинок у таблицях на випадок надзвичайних ситуацій із граничними підсумками та графіками, що розкладаються. Праці Національної академії наук 97 (22): 11885-11892
- Firebaugh, G. (1978). Правило для виведення індивідуальних зв’язків із сукупних даних. Американський соціологічний огляд 43 (4): 557-572
- Fotheringham, AS & DW Wong (1991). Задача, що може бути змінена на ареалі в багатовимірному статистичному аналізі. Навколишнє середовище та планування A 23 (7): 1025-1044
- Фрідман, Д.А., К.П. Клайн, М. Остланд та М.Р. Робертс (1998). Рецензовані твори: Рішення проблеми екологічного умовиводу Г. Кінга. Журнал Американської статистичної асоціації 93 (444): 1518-1522. (PDF тут )
- Hammond, JL (1973) Два джерела помилок в екологічних кореляціях. Американський соціологічний огляд 38 (6): 764-777
- Hannan, MT та L. Burstein (1974). Оцінка за згрупованими спостереженнями. Американський соціологічний огляд 39 (3): 374-392
- Король Г. (1997). Розв’язання проблеми екологічного виведення: реконструкція поведінки людей за допомогою сукупних даних . Прінстон: Прінстонський університетський прес.
- Лау О., RT Moore & M. Kellerman (2007). eiPack: RXC Екологічні умовиводи та управління даними з вищими розмірами. R Новини 7 (2): 43-47
- Оппеншо, С. (1984). Проблема підрозділу, що може змінюватися . Норвіч: Геокниги. ( PDF тут )
- Робінсон, штат Вірджинія (1950). Екологічні кореляції та поведінка індивідів. Американський соціологічний огляд 15 (3): 351-357. ( PDF тут )