Як би повторне зважування даних різноманітності опитування американської спільноти впливало на межі помилок?


10

Передумови: Моя організація в даний час порівнює статистику різноманітності робочої сили (колишні% людей з обмеженими можливостями,% жінок,% ветеранів) із загальною наявністю робочої сили для цих груп на основі Американського опитування громад (опитування проекту Бюро перепису населення США). Це неточний орієнтир, тому що у нас є дуже специфічний набір робочих місць, які мають різну демографічну характеристику, ніж робоча сила в цілому. Скажіть, наприклад, що моя організація - це переважно інженери. У моєму штаті лише близько 20% жінок. Якщо ми порівняємо себе із загальним показником робочої сили, який більше схожий на 50% жінок, то це призводить до паніки, що "у нас є лише 20% жінок, це катастрофа!" насправді, 20% - це те, чого ми повинні очікувати, тому що таким виглядає трудовий пейзаж.

Моя мета: що я хотів би зробити, це взяти дані про опитування американської спільноти (за категорією різноманітності) та переоцінити їх на основі складу робочих місць у моєму бізнесі. Ось набір тестових даних для соціальних і суспільно корисних працівників . Я хочу додати ці коди вакансій, перелічені разом (оскільки наш пішохідний перехід призначений для груп робочих місць, а не до конкретних кодів робочих місць), тоді я хочу зважити цей показник, виходячи з кількості людей у ​​цій категорії (наприклад, 3 000 наших соціальних та Працівники громадських служб), то я хочу зробити те ж саме для всіх інших груп робочих місць, додати ці числа разом і розділити на загальну кількість працівників. Це дасть мені новий переважений рівень різноманітності (наприклад, від 6% осіб з інвалідністю до 2% осіб з інвалідністю).

Мої запитання: Як я можу підігнати похибки до цього остаточного згорнутого еталону? У мене немає набору необроблених даних перепису (очевидно), але ви можете переглянути похибки для кожного номера за посиланням, яке я надав, перемістивши поле "Оцінка" на "Похибка" у верхній частині таблиці. Інші мої співробітники, які працюють з цими даними, цілком мають намір ігнорувати похибки, але я переживаю, що ми створюємо для себе статистично безглуздий орієнтир. Чи ці дані є ще корисними після описаних вище маніпуляцій?


3
Не перевантажуйте АСУ - це делікатний, дуже складний продукт, і з усією повагою я не думаю, що ви такий хороший статистик, як колективно Бюро перепису. Якщо ви можете отримати визначення робочих місць, що відповідають вашим завданням в ACS або CPS для порівняння по всій країні, то порівняння яблук до яблук було б обчислити очікувану кількість категорій "різноманітність" на основі ACS, щоб ваш бізнес виступав як розумне розмаїття. цілі.
Стаск

2
Стас, я згоден з вами, але, як я зазначаю нижче, це насправді не є перенавантаженням АСУ.
Стів Самуельс

У статистиці опитування "повторне зважування" означатиме перетворення вихідних вагових обстежень. Прикладом цього може бути постстратифікація, пробка зразків або калібрування, щоб певні граничні розподіли для зваженого зразка збігалися з розподілами, відомими зовні, скажімо, переписом чи ACS. Процедура, яку згадує Даніка, не торкається ваг ACS.
Стів Самуельс

Що може допомогти - це записати кінцеву кількість населення, яку ви хочете знати. Також у АСУ є повторювані ваги? Вони можуть допомогти в оцінці дисперсії.
ймовірністьлогічного

Відповіді:


8

Оновлення 2014-01-15

Я усвідомлюю, що не відповів на початкове запитання Даніки про те, чи буде похибка для непрямо скоригованої пропорції вимкнена, буде більшою чи меншою, ніж похибка для тієї ж швидкості в ACS. Відповідь: якщо пропорції категорії компанії не різко відрізняються від державних пропорцій ACS, похибка, наведена нижче, буде меншою, ніж розмір похибки ACS. Причина: непряма ставка розглядає категорію робочих місць організації, яка зараховується (або відносні пропорції) як фіксовану кількість. Фактично, оцінка ACS пропорції непрацездатних вимагає, фактично, оцінки цих пропорцій, і похибка збільшуватиметься для цього.

Для ілюстрації напишіть відключену ставку як:

P^adj=ninpi^

де - розрахунковий коефіцієнт непрацездатності в категорії в ACS.p^ii

З іншого боку, розрахунковий показник АСУ фактично:

P^acs=(NiN)^pi^

де та - відповідно категорія населення та загальна кількість, а - частка населення в категорії .NiNNi/Ni

Таким чином, стандартна похибка для швидкості ACS буде більшою через необхідність оцінки на додаток до .Ni/Npi

Якщо пропорції категорії організації та розрахункові пропорції населення сильно різняться, то, можливо, . У прикладі, який я сконструював, категорії були представлені у пропорціях та . Стандартна помилка для розрахункової пропорції відключеної становила .SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

Якщо я вважав 0,7345 та 0,2655 фіксованими значеннями та (підхід непрямого регулювання), , набагато меншими. Якщо замість цього, і , , приблизно те саме, що На крайньому і , . Я був би здивований, якщо пропорції організації та категорії населення настільки різко різняться. Якщо вони цього не роблять, я вважаю, що безпечно використовувати похибку ACS як консервативну, можливо, дуже консервативну оцінку справжньої похибки.n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001S Е ( Р д J ) = 0,079n2/n=0.999SE(P^adj)=0.079

Оновлення 2014-01-14

Коротка відповідь

На мою думку, було б безвідповідально представляти таку статистику без CI або помилки (половина довжини CI). Для їх обчислення вам потрібно буде завантажити та проаналізувати зразок мікроданих ACS для загального користування (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Довга відповідь

Це насправді не повторне зважування АСУ. Це версія непрямої стандартизації, стандартної процедури в епідеміології (google або переглянути будь-який текст епі). У цьому випадку показники працездатності за категоріями працездатності, що відповідають статусу праці, визначаються залежно від кількості працівників. Це дозволить обчислити очікувану кількість інвалідів в організації E, яку можна порівняти із спостережуваною кількістю O. Звичайна метрика для порівняння - це стандартизоване співвідношення R= (O/E). (Звичайний термін "SMR" для "стандартизованого коефіцієнта смертності", але тут "результат" - інвалідність.) R- це також співвідношення спостережуваного рівня втрати працездатності (O/n)та опосередкованого нормованого показника (E/n), де nкількість працівників організації.

У цьому випадку виявляється, що потрібен лише CI для Eабо E/nзнадобиться, тож я розпочну з цього:

Якщо

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Тоді

 E = sum (n_i p_i)

Варіантність E:

 var(E) = nn' V nn

де nnстовпець вектора категорій організаційних підрахунків та Vє матрицею оціночної дисперсії-коеваріації коефіцієнта інвалідності категорії ACS.

Також тривіально, se(E) = sqrt(var(E))і se(E/n) = se(E)/n.

і 90% ІС для Е є

  E ± 1.645 SE(E)

Розділіть на, nщоб отримати CI для E/n.

Для оцінки var(E)вам потрібно буде завантажити та проаналізувати дані зразка мікроданих ACS для загального користування (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Я можу говорити лише про процес обчислення var(E)в Stata. Оскільки я не знаю, чи це доступно для вас, я відкладу деталі. Однак хтось, хто знає про можливості опитування R або (можливо) SAS, також може надати код з рівнянь, наведених вище.

Інтервал довіри для співвідношення R

Інтервали довіри для Rзвичайно базуються на припущенні Пуассона O, але це припущення може бути невірним.

Ми можемо вважати Oі Eбути незалежними, так

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))може бути обчислений як ще один крок Stata після обчислення var(E).

За припущенням про незалежність Пуассона:

 var(log O) ~ 1/E(O).

Така програма, як Stata, може вмістити, скажімо, негативну біноміальну модель або узагальнену лінійну модель і дати точніший варіант варіації.

Приблизна 90% ДІ для log RIS

 log R ± 1.645 sqrt(var(log R))

і кінцеві точки можна експонувати, щоб отримати CI для R.


Це гарна дискусія. Зрештою, однак, ваша рекомендація експоненцііруются в CI для може привести до дійсно поганий CI для самого. Rlog(R)R
whuber

Це не здавалося мені випадком, коли мазання було доречним, але я можу помилитися. Що б ти запропонував?
Стів Самуельс

Деякі методи, згадані в CV, включають прискорення ІС, дельта-метод і профайл функції ймовірності.
whuber

Дякую за вашу відповідь. Чи можна витягувати дані PUMS за допомогою R? У мене немає SAS. Я витягнув дані PUMS, перш ніж використовувати інструмент DataFerret, наданий переписом, але я не впевнений, що це дає мені все, що я міг би корисно маніпулювати в Excel, що я маю. Я можу встановити R, очевидно, але я не маю жодного досвіду з цим.
DanicaE

1
Вас вітає, Даніка. Якщо ця відповідь корисна, натисніть прапорець, щоб прийняти її офіційно. Зауважте, що я оновив відповідь. Я рекомендую представити межі помилок ACS як консервативні замінники належних.
Стів Самуельс

4

FWIW є хороші ресурси для АСУ та доступу до PUMS тут ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Також є пакет для обробки даних ACS на CRAN - це, природно, ACS - який я вважаю дуже корисним для того, щоб робити нетипові речі з даними ACS. Це хороший крок за кроком для пакета (на жаль, документація не надто інтуїтивно зрозуміла) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

додавши посилання http://asdfree.com у відповідь @ pricele2. Щоб вирішити цю проблему за допомогою вільного програмного забезпечення, я б радив вам виконати наступні кроки:

(1) ( дві години наполегливої ​​роботи ) знайомтесь з мовою r. дивіться перші 50 відео по дві хвилини

http://twotorials.com/

(2) ( одна година простого виконання інструкцій ) встановіть monetdb на комп’ютер

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( тридцять хвилин слідування інструкцій + завантаження протягом ночі ) завантажте AC-помпи на свій комп’ютер. отримуйте лише потрібні вам роки.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( чотири години навчання та програмування та перевірки вашої роботи ) перекодуйте змінні, які вам потрібно перекодувати, відповідно до будь-яких специфікацій, які вам потрібні

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( дві години фактичного аналізу ) запустіть точну команду, яку ви шукаєте, зафіксуйте стандартну помилку та обчисліть довірчий інтервал.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( чотири години програмування ), якщо вам потрібен оцінювач коефіцієнта, дотримуйтесь прикладу оцінки коефіцієнта (з коректною помилкою, скоригованої на опитування) тут:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


Дякую, це прекрасні ресурси. Якщо хтось ще приходить сюди, шукаючи цю інформацію, навчальні посібники, якими я користувався, - це datacamp.com та coursera.org/course/rprog . Data Camp - це фантастичний інтерактивний підручник. Курс Coursera важчий для теорії / структури / назви речей.
DanicaE
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.