Парадокс Сімпсона - це класична головоломка, яку обговорюють на вступних курсах статистики по всьому світу. Однак мій курс був задоволений, щоб просто зазначити, що проблема існує і не дає рішення. Мені хотілося б знати, як вирішити парадокс. Тобто, стикаючись з парадоксом Сімпсона, де два різних варіанти, схоже, змагаються за те, що вони є найкращим вибором залежно від того, як розподіляються дані, який вибір слід вибрати?
Щоб зробити проблему конкретною, розглянемо перший приклад, наведений у відповідній статті Вікіпедії . Він заснований на реальному дослідженні про лікування каменів у нирках.
Припустимо, я лікар, і тест виявляє, що у пацієнта є камені в нирках. Використовуючи лише інформацію, представлену в таблиці, я хотів би визначити, чи слід приймати лікування А чи лікування Б. Здається, що якщо я знаю розмір каменю, то ми повинні віддавати перевагу лікуванню А. Але якщо ми цього не зробимо, ми повинні віддавати перевагу лікуванню B.
Але розглянемо інший правдоподібний спосіб дійти відповіді. Якщо камінь великий, ми повинні вибрати A, а якщо він малий, ми повинні знову вибрати А. Отже, навіть якщо ми не знаємо розміру каменю, методом випадків ми бачимо, що нам слід віддати перевагу А. Це суперечить нашим попереднім міркуванням.
Отже: Пацієнт заходить у мій кабінет. Тест виявляє, що у них є камені в нирках, але не дає мені інформації про їх розмір. Яке лікування я рекомендую? Чи є прийняте рішення цієї проблеми?
Вікіпедія натякає на резолюцію, використовуючи "причинно-наслідкові байєсівські мережі" та "тестування", але я не маю поняття, що це таке.