Далі йде питання про безліч візуалізацій, пропонованих як «доказ за картиною» існування парадоксу Сімпсона, і, можливо, питання про термінологію.
Парадокс Сімпсона - досить просте явище для опису та надання чисельних прикладів (причина, чому це може статися, є глибокою та цікавою). Парадокс полягає в тому, що існують таблиці на випадок 2–2x2 («Анасті», категоричний аналіз даних), де гранична асоціація має інший напрямок від кожної умовної асоціації.
Тобто порівняння співвідношень у двох підгрупах може йти і в одному напрямку, але порівняння в об'єднаній сукупності йде в інший бік. У символах:
Є такі, що a + b
але і
Це точно представлено у наступній візуалізації (з Вікіпедії ):
Фракція - це просто нахил відповідних векторів, і на прикладі легко помітити, що короткі В-вектори мають більший нахил, ніж відповідні L-вектори, але комбінований В-вектор має менший нахил, ніж комбінований L-вектор.
Існує дуже поширена візуалізація в багатьох формах, зокрема, на передній частині посилання на вікіпедію про Сімпсона:
Це чудовий приклад збивання з пантелику, як прихована змінна (яка розділяє дві підгрупи) може показувати інший малюнок.
Однак математично подібне зображення жодним чином не відповідає відображенню таблиць на випадок надзвичайних ситуацій, які лежать в основі явища, відомого як парадокс Сімпсона . По-перше, лінії регресії перебувають над даними набору реальних значень точок, не враховуючи даних таблиці непередбачених ситуацій.
Також можна створювати набори даних з довільним відношенням нахилів у регресійних лініях, але в таблицях на випадок надзвичайних ситуацій існує обмеження, наскільки різні схили можуть бути. Тобто лінія регресії популяції може бути ортогональною для всіх регресій даних субпопуляцій. Але в Парадоксі Сімпсона співвідношення субпопуляцій, хоч і не є регресійним ухилом, не може відійти занадто далеко від об'єднаної сукупності, навіть якщо в іншому напрямку (ще раз див. Зображення порівняння з Вікіпедії).
Для мене цього достатньо здивуватися щоразу, коли я бачу останнє зображення як візуалізацію парадоксу Сімпсона. Але оскільки я бачу (що я називаю неправильні) приклади всюди, мені цікаво знати:
- Чи пропускаю я тонке перетворення з оригінальних прикладів Сімпсона / Юля таблиць на випадок надзвичайних ситуацій у реальні значення, які виправдовують візуалізацію лінії регресії?
- Безумовно, що Сімпсон є особливим випадком помилкової помилки. Чи тепер термін "Парадокс Сімпсона" прирівнюється до хибної помилки, так що незалежно від математики, будь-яка зміна напрямку через приховану змінну можна назвати Парадокс Сімпсона?
Додаток: Ось приклад узагальнення до 2xmxn (або 2 на m безперервним) таблицею:
Якщо об'єднати постріл, схожий на те, що гравець робить більше пострілів, коли захисники ближче. Згруповані за типом пострілу (відстань від кошика дійсно), чим інтуїтивніше очікувана ситуація, що більше ударів буде зроблено, тим далі віддаляються захисники.
Цей образ я вважаю узагальненням Сімпсона до більш безперервної ситуації (відстань захисників). Але я все ще не бачу, як приклад лінії регресії є прикладом Сімпсона.