Я б запропонував вам переглянути книги з категоричного аналізу даних (пор. Alan Agresti «Категоричний аналіз даних», 2002) для кращого пояснення та розуміння впорядкованої логістичної регресії . На всі запитання, які ви задаєте, в основному відповідають кілька глав таких книг. Якщо вас цікавлять лише R
споріднені приклади, розширення лінійних моделей в R від Джуліана Фаравея (CRC Press, 2008) є чудовим посиланням.
Перш ніж відповісти на ваші запитання, впорядкована логістична регресія - це випадок багаточленних моделей logit, в яких впорядковані категорії. Припустимо , що ми маємо замовив категорії і що для індивідуального I , з порядковим відгуку Y я ,
р я J = P ( Y я = J ) для J = 1 , . . . , J . З упорядкованою відповіддю часто простіше працювати з кумулятивними ймовірностями γ i j = PJiYipi j= Р( Yi = j )j = 1 , . . . , J . Кумулятивні ймовірності зростають та інваріантні для поєднання суміжних категорій. Крім того, γ i J = 1 , тому нам потрібна лишеймовірність.γi j= Р( Yi≤ j )γi J= 1J- 1
Тепер ми хочемо зв’язати s з covariates . У вашому випадку, має 3 впорядковані рівні: , , . Це має сенс ставитися до них як до впорядкованих, а не до невпорядкованих. Решта змінних - ваші коваріати. Конкретна модель, яку ви розглядаєте, - пропорційна модель шансів і математично еквівалентна: xγi jхSat
low
medium
high
де γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj( хi) = θj- βТхi, j = 1 … J- 1
де γj( хi) = Р( Yi≤ j | хi)
Його називають, оскільки відносні шанси для порівнянні та :x 1 x 2Y≤ jх1х2
( γj( х1)1 - γj( х1)) / ( γj( х2)1 - γj( х2)) =Досвід( - βТ( х1- х2) )
Зауважте, наведений вираз не залежить від . Звичайно, припущення про пропорційні шанси потрібно перевірити для даного набору даних.j
Зараз я відповім на деякі (1, 2, 4) запитання.
Як можна зрозуміти, чи вдала модель добре підходить? резюме (house.plr) показує Залишкове відхилення 3479.149 та AIC (Akaike Information Criterion?) 3495.149. Чи це добре? У випадку, якщо вони корисні лише як відносні заходи (тобто для порівняння з іншою моделлю, що підходить), що таке хороша абсолютна міра? Чи розподілено залишкове відхилення приблизно в квадраті? Чи можна використовувати "% правильно прогнозовано" на вихідних даних або перехресну перевірку? Який найпростіший спосіб зробити це?
Модель, яка підходить, polr
є особливою glm
, тому всі припущення, які стосуються традиційного дотримання glm
тут. Якщо ви правильно подбаєте про параметри, ви можете розібратися в розподілі. Зокрема, щоб перевірити, чи модель хороша чи ні , можливо, ви захочете зробити тест на придатність , який перевіряє наступну нуль (зауважте, що це тонко, в основному ви хочете відхилити нуль, але тут ви не хочете відхиліть його, щоб отримати гарну форму):
Но: поточна модель досить хороша
Для цього ви використовуєте тест-квадрат . Значення р отримують у вигляді:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Більшу частину часу ви сподіваєтесь отримати значення p, яке перевищує 0,05, щоб не відкидати нуль, щоб зробити висновок про те, що модель добре підходить (філософська правильність тут ігнорується).
AIC повинен бути високим, щоб добре підходити, в той же час ви не хочете мати велику кількість параметрів. stepAIC
це хороший спосіб перевірити це.
Так, ви можете точно використовувати перехресну перевірку, щоб побачити, чи відповідають прогнози. Дивіться predict
функцію (опція:) type = "probs"
в ?polr
. Все, що вам потрібно подбати - це коваріати.
Яку інформацію містить PR? Сторінка довідки в профілі є загальною і не дає вказівки щодо polr
Як вказують @chl та інші, pr
містить всю інформацію, необхідну для отримання ІС та іншої інформації, пов'язаної з імовірністю polr fit
. Усі glm
s підходять за допомогою ітераційно зваженого методу оцінки найменших квадратів для вірогідності журналу. У цій оптимізації ви отримуєте багато інформації (див. Посилання), яка буде потрібна для обчислення матриці варіації коваріації, CI, t-значення тощо. Вона включає в себе всю її інформацію.
Як можна інтерпретувати значення t для кожного коефіцієнта? На відміну від деяких моделей> підходить, тут немає значення P.
На відміну від звичайної лінійної моделі (спеціальної glm
) інші glm
s не мають приємного t-розподілу для коефіцієнтів регресії. Отже, все, що ви можете отримати, - це оцінка параметрів та їх асимптотична матриця коваріації дисперсії, використовуючи теорію максимальної ймовірності. Тому:
Варіантність ( β^) = ( XТWХ)- 1ϕ^
Оцінка, поділена на її стандартну похибку, - це те, що BDR і WV називають t-значенням (я припускаю MASS
тут умовність). Він еквівалентний t-значенню від звичайної лінійної регресії, але не відповідає t-розподілу. Використовуючи CLT, він асимптотично нормально розподілений. Але вони вважають за краще не використовувати це прибл (я думаю), отже, ніяких p-значень. (Я сподіваюся, що я не помиляюся, і якщо я є, я сподіваюся, що БДР не на цьому форумі. Я ще більше сподіваюся, хтось виправить мене, якщо я помиляюся.)
methods("profile")
ви дасте (S3 в даному випадку) методи, пов’язані з R-profile
об'єктом, тоді ви побачите, ніж є виділений метод дляpolr
результатів, який ви можете переглядати. он-лайн, набравшиgetAnywhere("profile.polr")
підказку R.