Тест на придатність у логістичній регресії; яку "форму" ми хочемо протестувати?


12

Я маю на увазі питання та його відповіді: Як порівняти (ймовірність) прогнозованої здатності моделей, розроблених за допомогою логістичної регресії? автор @Clark Chong та відповіді / коментарі від @Frank Harrell. і до питання Ступені свободи у тесті Хосмера-Лемешоуχ2 та коментарі.

Я прочитав статті Д. В. Хосмера, Т. Хосмера, С. Ле Чессі, С. Лемешоу, "Порівняння випробувань на корисність для моделі логістичної регресії", "Статистика в медицині", Vol. 16, 965–980 (1997) .

Після прочитання я розгубився, тому що питання, на яке я посилався, чітко задає "(ймовірність) спрогнозуючої здатності", що, на мій погляд, не те саме , на що спрямовані тести на корисність придатності в статті Supra:

Як більшість із нас знає, логістична регресія передбачає S-подібний зв'язок між пояснювальними змінними та ймовірністю успіху, функціональна форма для S-форми є

P(y=1|xi)=11+e(β0+iβixi)

Не претендуючи на те, що в тесті Хосмера – Лемешоу немає недоліків, я думаю, що нам доведеться розрізняти тести на (а) «(ймовірність) прогностичної здатності » та (б) на « корисність придатності ».

Мета першої - перевірити, чи добре прогнозовані ймовірності, тоді як тести на корисність перевіряють, чи є S-подібна функція вище "правильною" функцією. Більш офіційно:

  1. тести на "тести на здатність прогнозування ймовірності" мають вказуючи на те, що ймовірність успіху добре прогнозується моделлю;H0
  2. H0

H0

Перше зауваження

H0

Перше питання

H0

Друге питання

Крім того, я хочу вказати на висновки Hosmer et. al; (Цитую з реферату):

'' Експертиза ефективності тестів, коли правильна модель має квадратичний додаток, але модель, що містить лише лінійний член, відповідає, що квадрат квадратів Пірсона, невагома сума квадратів, дециль Хосмера-Лемешоу ризику, згладжена залишкова сума квадратів та тест Стукеля мають потужність понад 50 відсотків для виявлення помірних відступів від лінійності, коли розмір вибірки становить 100 і мають потужність понад 90 відсотків для цих же альтернатив для зразків розміром 500 Усі тести не мали сили, коли правильна модель мала взаємодію між дихотомічним та безперервним коваріатом, але підходила лише модель безперервного коваріату. Потужність для виявлення неправильно вказаного посилання була недостатньою для зразків розміром 100. Для зразків розміром 500 Stukel ' s тест балів мав найкращу потужність, але він перевищував лише 50 відсотків для виявлення функції асиметричного зв'язку. Потужність незваженого тесту на суму квадратів для виявлення неправильно заданої функції зв’язку була трохи меншою, ніж тест Стукеля за балами ''

Чи можу я зробити з цього висновок, який тест має більше потужності, або що Хосмер – Лемешоу має меншу потужність (для виявлення цих специфічних аномалій)?

Друге зауваження

H1H1

Відповіді:


5

R2

Тести на відповідність придатності повинні мати розумну силу проти різних альтернатив, а не високу потужність проти конкретної альтернативи; тому люди, які порівнюють потужність різних тестів, прагнуть скористатися прагматичним підходом до вибору декількох альтернатив, які, як вважають, представляють особливий інтерес для потенційних користувачів (див., наприклад, часто цитований Стівенс (1974), "статистика EDF для корисності придатності & деякі порівняння ", JASA, 69 , 347 ). Ви не можете зробити висновок, що один тест є більш потужним, ніж інший проти всіх можливих альтернатив, оскільки він є більш потужним проти деяких.


1
У деяких випадках може бути показано, що тест є «рівномірно більш потужним», а це означає, що він є більш потужним для всіх можливих альтернатив (див. Теорему Карліна / Рубіна). Але ви маєте рацію, що це лише у виняткових випадках і, безумовно, не встановлено для тесту Хосмера-Лемешоу.

4
Взагалі "доброті пристосування" надається занадто великий акцент ІМХО. Краща альтернатива - зробити модель підганяючою спереду. Це робиться за допомогою регресійних сплайнів для послаблення припущень щодо лінійності та включення взаємодій, які мали б сенс.
Френк Харрелл

2
@fcoppens: Добрий момент! Ви отримуєте лише тести UMP, суворо обмежуючи розглянуті альтернативи значенням скалярного параметра, і навіть тоді не завжди. Навіть якщо врахувати, чи неприпустимий тест - принаймні один інший тест, який має більшу потужність за будь-яких альтернатив, - зажадає занадто сильного обмеження альтернатив для загального цільового випробування GOF.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.