Я хочу передбачити проблеми зі здоров’ям. У мене є 3 категорії результатів, які впорядковані: "нормальний", "легкий" та "важкий". Я хочу передбачити це з двох змінних прогнозів, результату тесту (безперервне, інтервальне коваріат) та сімейної історії з цією проблемою (так чи ні). У моїй вибірці ймовірність становить 55% (нормальна), 35% (легка) та 10% (важка). У цьому сенсі я завжди міг просто передбачити «нормальне» і бути правильним 55% часу, хоча це не дасть мені ніякої інформації про окремих пацієнтів. Я підходить до наступної моделі:
Припустимо, немає взаємодії, і все в порядку з моделлю. Відповідність, с, становить 60,5%, що, наскільки я розумію, є максимальною точністю прогнозування, яку надає модель.
Я зустрічаю двох нових пацієнтів із такими даними: 1. тест = 3,26, сім'я = 0; 2. тест = 2,85, сім'я = 1. Я хочу передбачити їх прогноз. Використовуючи формулу: (а потім беручи відмінності між кумулятивні ймовірності), я можу обчислити розподіл ймовірностей за категоріями відповідей, що залежать від моделі. R код (nb, через проблеми з округленням, вихід не відповідає ідеально):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
А саме: 1. 0 = 55,1%, 1 = 35,8%, 2 = 9,1%; і 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Моє запитання: як я перейду від розподілу ймовірностей до передбачуваної категорії відповідей?
Я спробував кілька можливостей, використовуючи вибіркові дані, де результат відомий. Якщо я просто підберу max (ймовірності), точність становить 57%, незначне поліпшення в порівнянні з нулем, але нижче відповідності. Більше того, у вибірці цей підхід ніколи не вибирає "суворого", що я дійсно хочу знати. Я спробував байєсівський підхід, перетворивши нульові й модельні ймовірності в коефіцієнти, а потім вибрати макс (коефіцієнт шансів). Іноді вибирають "суворі", але отримують гіршу точність на 49,5%. Я також спробував суму категорій, зважених на ймовірності та округлення. Це, знову ж таки, ніколи не вибирає "суворого", і має низьку точність 51,5%.
Що таке рівняння, яке бере інформацію вище та дає оптимальну точність (60,5%)?