Упередженість у виборі журі?


14

Друг представляє клієнта в апеляційному порядку після кримінального судового розгляду, в якому виявляється, що вибір присяжних був расовим упередженням.

Публічний склад журі складався з 30 осіб у 4 расових групах. Обвинувачення застосувало необов'язкові виклики, щоб усунути 10 людей із пулу. Кількість людей та кількість актуальних проблем у кожній расовій групі складали відповідно:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

Підсудний був з расової групи C, а жертви - з расових груп A і D, тому a priori викликає занепокоєння , чи є група C надмірно викликана, а групи A і D недостатньо сприйняті. Законодавчо (IIUC; IANAL) захист не повинен доводити расові упередження, а лише показувати, що дані, схоже, вказують на упередженість, що потім накладає тягар на прокуратуру для пояснення кожного виклику не расово.

Чи правильний наступний аналіз у своєму підході? (Я думаю, що розрахунки чудові.):

Існує nCr (30,10) = 30,045,015 різних наборів з 10 членів пулу. З цих різних наборів я вважаю, що 433 377 наборів включають як (не більше 2 членів групи A і D разом), так і (не менше 4 членів групи C).

Таким чином, шанс досягти спостережуваного рівня явної упередженості, що надає перевагу групам A і D над групою C (де надавати перевагу засобам, що не включають у 10 викликів), буде співвідношенням цих, 433/30045 = 1,44%.

Таким чином, нульова гіпотеза (такої упередженості немає) відхиляється на рівні 5% значущості.

Якщо цей аналіз є методологічно правильним, який би був найскладніший спосіб описати його до суду, включаючи академічну / професійну довідку (тобто не Вікіпедію)? Хоча аргумент здається простим, як можна найбільш чітко і лаконічно продемонструвати суду, що це правильно, а не шенанігани?


Оновлення: це питання розглядалося як третій аргумент у запиті про апеляцію. Враховуючи технічну складність (з точки зору адвоката) обговорень тут та очевидну відсутність юридичного прецеденту, адвокат вирішив не ставити його, тому на даний момент питання здебільшого є теоретичним / навчальним.

Щоб відповісти на одну деталь: я вважаю, що кількість викликів, 10, було встановлено заздалегідь.

Вивчивши продумані та складні відповіді та коментарі (спасибі, всі!), Здається, тут є 4 окремих питання. Принаймні, для мене було б найбільш корисно розглянути їх окремо (або почути аргументи, чому вони не відокремлюються.)

1) Чи розгляд перегонів як підсудного, так і потерпілих, у складі викликів присяжних, є пріоритетним ? Метою апеляційного аргументу було б просто викликати обгрунтовану стурбованість, яка могла б призвести до судового наказу, за яким обвинувачення зазначає причину кожного окремого оскарження. Мені здається, це не статистичне питання, а скоріше соціальне / правове, яке, на розсуд адвоката, потрібно піднімати чи ні.

2) Якщо припустити (1), чи є мій вибір альтернативної гіпотези (якісно: упередженість проти присяжних, які поділяють гонку підсудного, на користь тих, хто поділяє гонки жертв), чи це неприпустимо пост-хок ? З моєї точки зору, це найбільш хвилююче питання - так, звичайно, його б не ставити, якби його не спостерігали! Як я розумію, проблема полягає в упередженості відбору: тести повинні враховувати не лише цей пул присяжних, а всесвіт усіх таких пулів присяжних, у тому числі всіх тих, де захист не спостерігав розбіжності, і тому вони не спокусилися порушити питання. . Як можна вирішити це? (Наприклад, як це стосується тестування Енді?) Здається, хоча я можу помилятися з цього приводу, що більшість респондентів не турбуються потенційно пост-хокТести на 1-х хвостах на упередженість виключно щодо групи відповідача. Чим методологічно було б одночасно перевіряти упередженість груп жертв, якщо вважати (1)?

3) Якщо мій вибір якісної альтернативної гіпотези, як зазначено в (2), то яка підходить статистика для її тестування? Саме тут мене найбільше спантеличують відповіді, тому що пропоноване, що я пропоную, здається, є дещо консервативнішим аналогом тесту Енді для простішої альтернативної гіпотези «упередження проти С» (більш консервативної, оскільки мій тест також враховує всі випадки далі в хвіст, а не тільки точне спостереження.)

Обидва тести є простими тестами підрахунку, з однаковим знаменником (однаковий всесвіт зразків) та з чисельниками, що відповідають точно частоті тих вибірок, які відповідають відповідним альтернативним гіпотезам. Так @whuber, чому це не однаково істинно як для мого тесту підрахунку, як для Енді, що він "може ґрунтуватися на обумовленій нульовій [тій самій] та альтернативній [як описано] гіпотезі та виправданий з використанням леми Неймана-Пірсона"?

4) Якщо передбачено (2) та (3), чи існують посилання в прецедентній практиці, які б переконали скептичний апеляційний суд? З доказів на сьогодні, мабуть, ні. Також на даному етапі оскарження немає можливості для жодного "експертного свідка", тому посилання є все.


Питання оновлено (додається до) після вивчення відповідей та коментарів.
JD березня

Дякую за чудове резюме! Щоб відповісти на пункт 3, я занепокоєний тим, що ваш тест (якщо я правильно його розумію) приймає альтернативну гіпотезу, мотивовану самими даними. Тому, здається, було побудовано астерорі, щоб зробити результати максимально сильними. Тест, який базується на найширшому передбачуваному, відповідному класі альтернатив, апріорі і проводиться з регіоном відхилення Неймана-Пірсона, має більш сильну логічну основу і менше піддається критиці, що він все-таки був запропонований після перегляду даних.
whuber

Дякую, @whuber, це правдоподібна та корисна критика - дуже багато про що я просив із самого початку. Але хіба це не спричинить збій мого (2), навіть раніше (3)? Якщо так, то, моє (3), здавалося б, все ще не відповідає, тобто, чи буде це хороша статистика, якби це було передбачено (2)?
JD березня

Відповіді:


7

Ось як я можу підійти до відповіді на ваше запитання за допомогою стандартних статистичних інструментів.

Нижче наведено результати пробіт-аналізу щодо ймовірності відхилення з огляду на членство в групі присяжних.

По-перше, ось як виглядають дані. У мене 30 спостережень групи та бінарного відхиленого показника:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Ось окремі граничні ефекти, а також спільний тест:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Тут ми перевіряємо окремі гіпотези, що різниці у ймовірності відхилення для груп A, C та D порівняно з групою B дорівнюють нулю. Якби всі були так само відхилені, як група B, це було б нульовим. Останній фрагмент результату говорить про те, що присяжні групи групи А та Д мають менше шансів бути відхиленими, тоді як присяжні засідання групи С скоріше будуть відхилені. Ці відмінності не є статистично значущими індивідуально, хоча ознаки узгоджуються з вашою думкою про упередженість.

p=0,0436


Додаток:

Якщо я поєднаю групи A і D в одну, оскільки вони діляться гонками жертв, результати пробіту посилюються і мають гарну симетрію:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Це також дозволяє Точному Фішеру дати суперечливі результати (хоча все ще не на рівні 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

Дякую, дуже вдячний! Чи можете ви допомогти мені зрозуміти методичні питання тут? Зокрема, (1) тести непрямого порівняння (IIUC), незважаючи на особливості апріорного питання, та (2) причини використання тесту, який робить припущення щодо розподілу, а не просто комбінаторні аргументи?
JD березня

Я не впевнений, що розумію (1). Для (2) я отримую дуже схожі результати з моделлю logit, яка робить різні припущення щодо розподілу, тому є деяка надійність. Немає достатньо даних, щоб зробити щось менш параметричне, хоча це може бути моїм власним невіглаством у цій галузі.
Мастеров Димитрій Вікторович

1
Re (1). Що я маю на увазі - здається, що ваш тест має 2 хвости, тоді як апріорне питання може дозволити 1 хвіст?
JD березня

1
Аспект цього аналізу, який викликає занепокоєння, полягає в тому, що його очевидна значимість (все-таки на рівні 5%) обумовлена ​​не тільки проблемами, що виникають у групі С, але й відносною нестабільністю проблем у групі А. Останнє, здавалося б, не має значення: це було б підозрювано апріорі ? Вигідна роль групи С є очевидною (у відповідності групі відповідача), але переважна роль для будь-якої іншої групи - або навіть (гіпотетично) очевидних нерівностей між іншими групами - здавалося б, не має жодного стосунку до вимоги відповідача про дискримінація щодо них за ознакою групи .
whuber

До речі, здається, ви провели аналіз групи B, а не групи C.
whuber

3

Я думаю, що запровадження спеціальної статистичної методики не буде справою із судом. Краще використовувати методи, які є «стандартною практикою». В іншому випадку, ймовірно, ви зможете довести свою кваліфікацію для розробки нових методів.

Якщо бути більш чітким, я не думаю, що ваш метод відповідав би стандарту Даберта. Я також дуже сумніваюся, що ваш метод має самі по собі академічні орієнтири. Ймовірно, вам доведеться пройти маршрут найму статистичного експерта для його впровадження. Думати було б легко, я б подумав.

Тут, ймовірно, основне питання: "Чи був виклик присяжних незалежним від расової групування?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

Використання точного тесту Фішера дає схожі результати:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

Примітка про двосторонність гіпотези застосовується до випадку a 2×2

Моє тлумачення полягає в тому, що існує не так багато доказів, щоб аргументувати расові упередження.


1
χ2

Дякую, @jvbraun, ваша думка про відсутність спеціальних методів здається переконливою; хоча підрахунок та ділення не здаються мені особливо ексцентричними, явно інші не вважають це переконливим!
JD березня

Це насправді один із випадків, коли маргінали фіксуються, тому точний тест Фішера для багатьох повинен бути приємнішим. У вашому обговоренні Даберта ви маєте це трохи назад, як тільки ви телефонуєте експерту, вони підлягають руху Дауберта. (За іронією долі, деякі миряни, які представляють статистику, не підлягають такому оцінці, продиктованому правилом 702.) IMO всі аргументи, запропоновані тут, добре сформульовані і навряд чи будуть визнані неприйнятними. Я сумніваюся, що будь-яка з цих статистичних методик має юриспруденцію в цих конкретних обставинах.
Енді Ш

χ2

χ22/24/6

3

Я задавав подібне питання раніше (для довідки тут конкретний випадок, який я обговорюю). Потреби оборони просто показати прима Перехідної випадок дискримінації в Батсон проблемах (передбачається , що кримінальне законодавство США) - так гіпотеза тести, ймовірно, більше навантаження , ніж необхідно.

Так для:

  • n=30 людей на панелі венери
  • p=6 осіб расового класу C на панелі
  • k=4 присяжних за расовою групою C, ліквідовані з попередніх викликів
  • d=10 викликів

Попередня відповідь Вюбера дає ймовірність того, що цей конкретний результат буде продиктований гіпергеометричним розподілом :

(pk)(npdk)(nd)

Що говорить Вольфрам-Альфа в цьому випадку дорівнює:

(64)(306104)(3010)=7611310.07

На жаль, окрім посилань, які я надав, у мене немає посилання - я думаю, ви можете викопати відповідне посилання для гіпергеометричного розподілу зі сторінки Вікіпедії.

Це ігнорує питання про те, чи є "расові групи A і D" недооціненими ". Я скептично налаштований на те, щоб ви могли зробити юридичний аргумент для цього - це було б дивно закрутити положення про рівний захист. Ця конкретна група занадто захищена! , що я не думаю, що полетів би. (Хоча я не юрист - тому візьміть із собою зерно солі.)

(3010)χ2


Деякі свої думки я оновив у публікації в блозі . Моя публікація стосується викликів Batson, тому незрозуміло, чи шукаєте ви іншої ситуації (ваші оновлення для 1 і 2 не мають сенсу в контексті Batson Challenges.)

Мені вдалося знайти одну пов’язану статтю (доступна повністю за посиланням):

Gastwirth, JL (2005). Коментар справи: статистичні тести для аналізу даних про першочергові виклики: уточнення стандарту доказування, необхідного для встановлення факту дискримінації у фаховому порядку у справі Джонсон проти Каліфорнії. Закон, ймовірність та ризик , 4 (3), 179-185.

Це дало таку ж пропозицію щодо використання гіпергеометричного розподілу. У своєму дописі в блозі я показую, як якщо ви зведете категорії на дві групи, це рівнозначно тесту Фішера.

kk=5k=6nnd

Якщо хтось дізнається про прецедентне право, яке фактично використовує це (або що-небудь крім фракцій), мені було б цікаво.


1
Дякую, Енді. (1) Мій друг юриста вважає цілком прийнятним / корисним стверджувати, що С був надмірно оскаржений, а А - недостатньо оскаржений. (2) Ви кажете "яка тестова статистика". Я вважаю це заплутаним - яку тестову статистику ви використовуєте, коли обчислюєте 0,07, використовуючи гіпергеометричну? Для цього потрібно обчислити ймовірність як відношення підозрюваних справ до загальної кількості справ. Точно саме це робить мій аналіз, за ​​винятком того, щоб визначити підозрювані справи більш вузькими, ніж ви.
JD березня

@JonathanMarch - я не використовую тестову статистику. Це ймовірність того, що 4 з 6 класу С будуть обрані (з урахуванням інших умов) випадковим чином за гіпергеометричним розподілом. Я розумію мотивацію направлених тестів, але це не звичайний тестовий випадок. У такому випадку у вас є безперервний нульовий розподіл, тому для надання p-значення потрібно визначити альтернативу як область. Немає явної необхідності робити це з розподілом PMF, як тут.
Andy W

1
k=5k=60.07 вважаю інтуїтивним, але тимчасовим, я не бачу підстав трактувати це як імовірність у будь-якому сенсі.
Andy W

1
86/11317.6%

1
Джонатане, для вашої користі я вам затрудняюсь (як би зробив опозиційний експерт). Я вважаю, що ваш підхід недійсний, оскільки ви використовуєте спеціальну статистику без теоретичного обґрунтування; здається, побудований виключно для отримання невеликого p-значення. Статистику Енді можна базувати на визначених нульових та альтернативних гіпотезах і обґрунтувати, використовуючи лемму Неймана-Пірсона. Здається, ваша статистика базується на пост-спеціальному дослідженні результатів і, схоже, не відповідає жодній альтернативній гіпотезі, яка була б затверджена до (тобто незалежно) від воір директора .
качан

0

Не будемо забувати про тестування декількох питань. Уявіть, що 100 захисників шукають підстав для апеляції. Усі відхилення присяжних були здійснені гортанням монет або прокатки кісток для кожного майбутнього присяжних. Тому жодне з відхилень не було расовим упередженням.

Кожен із 100 юристів зараз робить будь-який статистичний тест, з яким ви погодилися. Приблизно п'ять із цих 100 відкинуть нульову гіпотезу про "неупередженість" та матимуть підстави для апеляції.


IIUC, вони шукають підстав для того, щоб суддя призначив перевірку причин кожного відхилення. Чи насправді це буде проблемою, якби така експертиза відбулася у 5 із цих 100 випадків?
JD березня
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.