Як ви прогнозуєте категорію відповідей за порядковою логістичною регресійною моделлю?


13

Я хочу передбачити проблеми зі здоров’ям. У мене є 3 категорії результатів, які впорядковані: "нормальний", "легкий" та "важкий". Я хочу передбачити це з двох змінних прогнозів, результату тесту (безперервне, інтервальне коваріат) та сімейної історії з цією проблемою (так чи ні). У моїй вибірці ймовірність становить 55% (нормальна), 35% (легка) та 10% (важка). У цьому сенсі я завжди міг просто передбачити «нормальне» і бути правильним 55% часу, хоча це не дасть мені ніякої інформації про окремих пацієнтів. Я підходить до наступної моделі:

the cut point for (y1)^=2.18the cut point for (y2)^=4.27β^test=0.60β^family history=1.05

Припустимо, немає взаємодії, і все в порядку з моделлю. Відповідність, с, становить 60,5%, що, наскільки я розумію, є максимальною точністю прогнозування, яку надає модель.

Я зустрічаю двох нових пацієнтів із такими даними: 1. тест = 3,26, сім'я = 0; 2. тест = 2,85, сім'я = 1. Я хочу передбачити їх прогноз. Використовуючи формулу: (а потім беручи відмінності між кумулятивні ймовірності), я можу обчислити розподіл ймовірностей за категоріями відповідей, що залежать від моделі. R код (nb, через проблеми з округленням, вихід не відповідає ідеально):

exp(XβcutPoint)(1+exp(XβcutPoint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

А саме: 1. 0 = 55,1%, 1 = 35,8%, 2 = 9,1%; і 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Моє запитання: як я перейду від розподілу ймовірностей до передбачуваної категорії відповідей?

Я спробував кілька можливостей, використовуючи вибіркові дані, де результат відомий. Якщо я просто підберу max (ймовірності), точність становить 57%, незначне поліпшення в порівнянні з нулем, але нижче відповідності. Більше того, у вибірці цей підхід ніколи не вибирає "суворого", що я дійсно хочу знати. Я спробував байєсівський підхід, перетворивши нульові й модельні ймовірності в коефіцієнти, а потім вибрати макс (коефіцієнт шансів). Іноді вибирають "суворі", але отримують гіршу точність на 49,5%. Я також спробував суму категорій, зважених на ймовірності та округлення. Це, знову ж таки, ніколи не вибирає "суворого", і має низьку точність 51,5%.

Що таке рівняння, яке бере інформацію вище та дає оптимальну точність (60,5%)?

Відповіді:


11

Ви робите стрибок, який вам потрібен для класифікації прогнозованих значень. Той факт, що ваш метод ніколи не вибирає категорію "суворої", є наслідком дискретного характеру проблеми, і що "важкий" нечастий. У моделях порядкового реагування ви можете просто використовувати ймовірності перевищення самостійно (для всіх, крім однієї категорії) або просто цитувати окремі ймовірності. Якщо приблизно масштаб інтервалу, ви також можете використовувати передбачуване середнє значення. Вони доступні в пакеті R та пов'язаній з ними функції . Багато людей вважають, що класифікація є ціллю, коли насправді передбачення ризику є основною метою.Yrmslrmpredict.lrm


1
Спасибі за вашу допомогу. Я підозрював, що низька частота важких є частиною цього питання. Я думаю, що моя сира Y, 0 1 2, є недостатньо рівним інтервалом. Я вважаю, що моя мета помилкова. На жаль, я думаю, я хочу знати, до якої категорії потрапить / не повністю розуміє, якою має бути моя мета . Чи можна дати трохи більше розуміння? (Насправді, я підозрюю, що CV не є форумом для повного уроку; як альтернатива, чи знаєте ви, де я міг би дізнатися про цю проблему? Я прочитав розділи з логістики Intro & Hosmer & Lemeshow від Contrasti, але безрезультатно.)
gung - Відновити Моніку

1
Мета визначається необхідним рішенням або предметом. Якщо ви заявите про кінцеву мету, я можу прокоментувати.
Френк Харрелл

Вибачте за мою недостатню ясність, здається, це була і проблема вище. В даний час я хочу мати можливість передбачити результат нових випадків. Зрештою, я хочу краще зрозуміти, що таке reg reg, наприклад, як отримати залишки, якщо у вас немає передбачених категорій? Я набираю трохи кращої точності, але я не знаю, як це отримати. Я впевнений, що у вас немає часу пояснити все, але ні Agresti, ні H&L нічого не говорять про прогнози чи залишки, і т. Д., І я не зміг знайти нічого з Google. Таким чином, я попросив резюме. Я ціную вашу постійну допомогу.
gung - Відновіть Моніку

Поясніть, будь ласка, вашу потребу в залишках. Вони не є внутрішньою частиною моделі. З точки зору того, як заявляти прогнози, забезпечуючи прогнозовану ймовірність того, що для різних є хорошим способом, і не вимагає довільних рішень. Дивлячись на гістограму передбачуваних ймовірностей, ви можете судити, наскільки корисна модель, тобто, наскільки часто вона забезпечує більш визначені ймовірності, ближчі до 0 або 1, ніж до 0,5. jYjj
Френк Харрелл

-1

Узгодження визначається шляхом перевірки середнього балу, а не максимального балу.

Отже, для ваших прикладів середній бал за 1 дорівнює 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, а 2 становить (за аналогічними розрахунками) 0,826.

Саме це значення слід порівняти, щоб отримати статистику узгодження чи будь-яку іншу статистику асоціацій.

Ref - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm


3
Ні, узгодженість обчислюється за допомогою змінної вихідного результату та лінійного предиктора або будь-якої з передбачуваних ймовірностей (оскільки всі вони монотонно пов'язані один з одним, тобто просто зміщені в перехопі перед обчисленням виходу). Сомерс коефіцієнт кореляції рангів використовує цей конкорданс міру. X β D x yYXβDxy
Френк Харрелл

2
PS Зауважте, що документація SAS, яка є переписом моєї оригінальної документації для попередника, про який SAS PROC LOGISTя писав багато років тому, зараз неправильна, і її формула для середнього значення є неправильною, якщо складається з послідовних цілих чисел. Y
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.