Азіатський випадок дискримінації Палантіра: як обчислювались ймовірності?


14

Я читав цю статтю про випадок Палантіра, коли Департамент праці звинувачує їх у дискримінації азіатів. Хтось знає, звідки вони взяли ці оцінки ймовірності?

Я не отримую 1/741 в пункті (а).

(a) На посаду інженера з QA-інженеру, з групи, що містить понад 730 кваліфікованих претендентів (приблизно 77% з яких були азіатцями), Палантір найняв шістьох азіатських претендентів та лише одного азіатського заявника. Несприятливий вплив, обчислений OFCCP, перевищує три стандартних відхилення. Ймовірність того, що цей результат стався випадково, приблизно одна з 741.

(b) Що стосується посади інженера, що займається програмним забезпеченням, з групи понад 1160 кваліфікованих претендентів (приблизно 85% з яких були азіатськими), Палантір найняв 14 заявників, які не є азіатськими, і лише 11 азіатських заявників. Несприятливий вплив, обчислений OFCCP, перевищує п'ять стандартних відхилень. Ймовірність того, що цей результат стався випадково, приблизно одна з 3,4 мільйонів.

(c) На посаду інженера з якості інженера з якості, з групи, що включає понад 130 кваліфікованих претендентів (приблизно 73% з яких були азіатцями), Палантір найняв 17 заявників, які не є азіатськими, і лише чотирьох азіатських претендентів. Несприятливий вплив, обчислений OFCCP, перевищує шість стандартних відхилень. Ймовірність того, що цей результат стався випадково, приблизно одна на мільярд.


чи можете ви показати розрахунок, який ви зробили, щоб отримати щось інше, ніж 1/741?
Бен Болкер

1
Моя оцінка була однобічною - якщо подвоїти її, щоб зробити це як тест двосторонньої гіпотези, ви наблизитесь до того 1/741 числа.
Грегор - відновити Моніку

3
Я погоджуюся, що подвоєння не має сенсу в цьому випадку, я просто намагався вгадати, що могло бути зроблено. Питання не в тому, що є правильною відповіддю, а в тому, як вони дійшли цієї оцінки .
Грегор - відновлення Моніки

1
Було б чудово, якби хтось перетворив знімок екрана PDF у текстову цитату ...
amoeba каже Відновити Моніку

1
Мені вдалося зафіксувати ваш знімок екрана за допомогою finereaderonline.com .
амеба каже: Відновити Моніку

Відповіді:


20

Я збираюся переконатись у цьому на досвіді випадків дискримінації. Я точно можу встановити, звідки беруться значення "один на 741" тощо . Однак у перекладі було втрачено стільки інформації, що решта моєї реконструкції спирається на те, що я бачив, як люди ведуть статистику в установах судових залів. Я можу лише здогадуватися про деякі деталі.


0.050.01

Експерти статистики для позивачів часто намагаються сформулювати свої результати в цих звичних термінах. Деякі з експертів проводять статистичний тест, в якому нульова гіпотеза виражає "відсутність негативного впливу", припускаючи, що рішення про працевлаштування були чисто випадковими і не підлягали будь-яким іншим характеристикам працівників. (Будь то альтернатива з однохвостим або двохвостим, може залежати від експерта та обставин.) Потім вони перетворюють значення p цього тесту в ряд "стандартних відхилень", відсилаючи його до стандартного нормального розподілу, - навіть коли стандарт Normal не має значення для оригінального тесту. Таким чином, вони сподіваються чітко донести свої висновки до судді.

Вигідний тест даних, які можна узагальнити в таблицях на випадок надзвичайних ситуацій, - це точний тест Фішера. Поява "Точного" в його назві особливо сподобається позивачам, оскільки воно конотує статистичне визначення, яке було зроблено без помилок (що б це не було!).

Ось тоді моя (спекулятивна реконструкція) розрахунків Департаменту праці.

  1. χ2

  2. Вони перетворили його p-значення в нормальний показник Z ("кількість стандартних відхилень").

  3. Вони округлили бал Z до найближчого цілого числа: "перевищує три стандартних відхилення", "перевищує п'ять стандартних відхилень" і "перевищує шість стандартних відхилень". (Оскільки деякі з цих Z-балів обігнули до до більш стандартних відхилень, я не можу виправдати «перевершує», все , що я можу зробити , це процитувати.)

  4. У скарзі ці інтегральні показники Z були перетворені назад у p-значення! Знову використовувався стандартний нормальний розподіл.

  5. Ці p-значення описуються (імовірно, в оману) як "ймовірність того, що цей результат стався випадково".

1/12801/5650001/58000000730116013073011601303.164.645.521/7411/35000001/1000000000


Ось Rкод, який використовується для виконання цих обчислень.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
Нічого собі, я не міг здогадатися, що це можна зробити. Це страшно.
Аксакал

7
(+1) CSI: статистика.
Firebug

5

Як правильно обчислити pvals за допомогою гіпергеометричного розподілу:

knKN загальних елементів буде слідувати гіпергеометричному розподілу .

Для одностороннього тестування в MATLAB ви можете зателефонувати pval = hygecdf(k, N, K, n);або в цьому випадку pval = hygecdf(1, 730, 562, 7)приблизно близько .0007839.

Середнє та стандартне відхилення задаються:

μ=nKNs=nKNNKNNnN1
Таким чином, ми -3,957 стандартних відхилень поза середнім значенням.

χ2

Шукаючи формули, які OFCCP може використовувати, цей веб-сайт, який я бачив, може бути корисним: http://www.hr-software.net/EcurityStatistics/DisparateImpact.htm

Короткий зміст деяких розрахунків:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
Я отримав такий же результат, але інакше. Це не близько 1/741
Аксакал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.