Порівняння вкладених моделей бінарної логістичної регресії, коли велике


10

Щоб краще задати своє запитання, я надав деякі результати як з 16 змінної моделі ( fit), так і з 17 змінною моделлю ( fit2) нижче (всі змінні прогнозувальника в цих моделях є безперервними, де єдиною відмінністю між цими моделями є те, fitщо не містять змінну 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Я використовував rmsпакет Френка Харрелла для створення цих lrmмоделей. Як бачимо, ці моделі, як правило, не сильно різняться в різних показниках дискримінації та рейтинговій дискримінації. Індекси ; однак, використовуючи lrtest(fit,fit2), мені було надано такі результати:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Як такий, ми би відкинули нульову гіпотезу цього тесту на коефіцієнт ймовірності; однак я б припустив, що це, ймовірно, пов'язано з великим розміром вибірки ( n = 102849), оскільки ці моделі, схоже, виконують аналогічно. Крім того, мені цікаво знайти кращий спосіб формального порівняння вкладених моделей бінарної логістичної регресії, коли n великий.

Я дуже вдячний за будь-який зворотний зв’язок, сценарії R або документацію, які можуть направити мене в правильному напрямку з точки зору порівняння цих типів вкладених моделей! Дякую!


Яка мета видалення змінної 17?
Майкл М

Це іграшковий приклад; однак, як правило, мене просять створити моделі з 8-12 змінними, і видалення змінних, які не сприяють розвитку моделі, для мене є головним інтересом. Змінна 17, як видається, означає дуже мало для моделі в цілому (з точки зору передбачуваності), проте тест коефіцієнта ймовірності говорить про те, що між двома моделями існує значна різниця (швидше за все, велика n, а не фактична різниця в цих моделях дві моделі). Як такий, я сподіваюсь знайти спосіб порівняння цих двох моделей (знайти метод, який не вказує на різницю між цими двома моделями)
Метт Рейхенбах

(1) не впевнений, що я цілком розумію, що ти шукаєш. Але в медицині проблема з використанням дискримінації, як c-статистика, добре встановлена, c-статистика може бути незмінною навіть із додаванням значної змінної та призвела до розробки індексів перекласифікації ( circ.ahajournals.org/content/121/15/ 1768.повні ) (2) Чи схожі AIC / BIC? низка змінних критеріїв отримання інформації може бути кориснішою, ніж критерії дискримінації.
Чарльз

1
Я думаю, у вашому 1-му абзаці є помилка друку. Зазначено, що fit2це 17 мінлива модель, але вона також не відповідає V17. Можливо, ви захочете це змінити.
tomka

1
@tomka, я змінив , fit2щоб fitв наведеному вище прикладі відповідно з вашою корекцією. Дякую!
Метт Райхенбах

Відповіді:


6

(1) Існує велика література про те, чому слід віддавати перевагу повним моделям обмеженим / парсимоніальним моделям. Наскільки я розумію, є кілька причин віддавати перевагу парсимоніальній моделі. Однак більші моделі можуть бути недосяжними для багатьох клінічних застосувань.

(2) Наскільки мені відомо, індекси дискримінації / дискримінації не використовуються (? Не повинні) використовуватись як параметр моделі / змінної вибору. Вони не призначені для цього використання, і, як результат, може бути не багато літератури про те, чому їх не слід використовувати для побудови моделей.

(3) Парсимоніальні моделі можуть мати обмеження, які не є очевидними. Вони можуть бути менш каліброваними, ніж більш великі моделі, зовнішня / внутрішня дійсність може бути знижена.

(4) Статистика статистики може бути не оптимальною при оцінці моделей, які прогнозують майбутній ризик або розшаровують людей на категорії ризику. У цьому режимі калібрування так само важливо для точної оцінки ризику. Наприклад, біомаркер із коефіцієнтом шансу 3 може мати незначний вплив на статистичний, але підвищений рівень може змістити оціночний 10-річний серцево-судинний ризик для окремого пацієнта з 8% до 24%

Кухар НР; Використання та неправильне використання кривої ROC у медичній літературі. Тираж. 115 2007: 928-935.

(5) Відомо, що AUC / c-статистика / дискримінація є нечутливою до значних змінних прогнозів. Про це йдеться у посиланні Кука вище та мотивуючої сили, що стоїть за розробкою чистого індексу перекласифікації. Також обговорювалося в Куку вище.

(6) Великі набори даних все ще можуть призвести до більш великих моделей, ніж бажано, якщо застосовуються стандартні методи вибору змінних. У процедурах поетапного відбору часто застосовується граничне значення p-0,05. Але в цьому значенні немає нічого суттєвого, що означає, що ви повинні вибрати це значення. Що стосується менших наборів даних, то більша величина р (0,2) може бути більш доречною, у більших наборах даних менша р-величина може бути доречною (з цієї причини для цього набору даних GUSTO I використовується 0,01).

(7) Хоча AIC часто використовується для вибору моделі і краще підтримується літературою, BIC може бути вагомою альтернативою для більших наборів даних. Для вибору моделі BIC чи-квадрат повинен перевищувати log (n), таким чином, це призведе до менших моделей у більших наборах даних. (Мальви можуть мати схожі характеристики)

(8) Але якщо ви просто хочете максимум 10 або 12 змінних, простішим рішенням є щось на зразок bestglmабо leapsпакетів, якщо ви просто встановили максимальну кількість змінних, які ви хочете врахувати.

(9) Якщо ви просто хочете випробувати тест, який зробить дві моделі однаковими, і ви не надто переживаєте за деталі, ви, швидше за все, зможете порівняти AUC двох моделей. Деякі пакети навіть дадуть значення p для порівняння. Це не здається доцільним.

Ambler G (2002) Спрощення прогностичної моделі: імітаційне дослідження на основі клінічних даних
Cook NR; Використання та неправильне використання кривої ROC у медичній літературі. Тираж. 115 2007: 928-935.
Гейл MH, Pfeiffer RM; Про критерії оцінки моделей абсолютного ризику. Біостат. 6 2005: 227-239.

(10) Після побудови моделі індекси c-статистики / децимації можуть бути не найкращим підходом до порівняння моделей і мають добре задокументовані обмеження. Порівняння, ймовірно, повинні також мінімум включати калібрування, індекс перекласифікації.

Steyerber (2010) Оцінка ефективності моделей прогнозування: основа для деяких традиційних та нових заходів

(11) Може бути хорошою ідеєю вийти за межі вище та застосувати аналітичні заходи щодо прийняття рішень.

Vickers AJ, Elkin EB. Аналіз кривих рішень: новий метод оцінки моделей прогнозування. Мед Децис Прийняття 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Використання відносних кривих корисності для оцінки прогнозування ризику. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Оцінка маркерів та моделей прогнозування ризиків: огляд взаємозв'язків між НРЗ та аналітичними заходами щодо прийняття рішень. Мед Децис Прийняття 2013; 33: 490-501

--- Оновлення --- Я вважаю статтю Вікерса найцікавішою. Але це все ще не прийнято широко, незважаючи на багато редакційних публікацій. Тож практична користь може не бути. Статті про Кука та Стейєрберга набагато практичніші.

Ніхто не любить поетапний відбір. Я, звичайно, не буду виступати за це. Я можу підкреслити, що більшість закидів поетапно передбачає EPV <50 та вибір між повною або попередньо заданою моделлю та зменшеною моделлю. Якщо EPV> 50 і є зобов'язання щодо зменшення моделі, аналіз витрат і вигод може бути різним.

Слабка думка порівняння c-статистики полягає в тому, що вони можуть не відрізнятися, і я, мабуть, пам’ятаю, що цей тест значно недооцінений. Але зараз я не можу знайти посилання, тому це може бути відхиленням від цього.


(1) Я знаю, що переважні повні моделі, але у мене є на вибір більше 1 тис. Варіантів, і мені потрібно створити ці менші моделі завдяки специфічним вимогам галузі. (2) Це має сенс! (3) Погоджено! (4) Правда (5) Цікаво
Метт Райхенбах

(6) Погоджено; однак, поетапні процедури є дуже сумнівними, і чим нижче відсічення значення p , тим більш упередженими стають ці типи моделей, незалежно від розміру вибірки. (7) "Для вибору моделі BIC чи-квадрат повинен перевищувати log (n)", це здається дуже корисним. Дякую! (8) bestglmі leapsпакунки дуже дорого обчислюються і потребують днів для роботи з наборами даних, як ті, з якими я працюю, але дякую за потенційні ідеї.
Метт Райхенбах

(9) Ці р -значення були б вагомими, навіть якби моделі були майже однаковими лише через великий розмір вибірки. (10) Мені потрібно більше вивчити показник калібрування та перекласифікації, дякую! (11) Мені дуже цікаво читати ці статті, чи рекомендуєте ви почати з Віккерса? Дякую!
Метт Райхенбах

5

Один із варіантів - використовувати псевдомережі R-квадрат для обох моделей. Значна різниця в псевдо R-квадраті дозволить припустити, що примірка моделі сильно зменшується, опускаючи V17.

Доступні різні види Псевдо R-квадратів. Огляд можна знайти тут, наприклад:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Популярний захід - Nagelkerke R-квадрат. Вона коливається в межах від 0 до 1 і, з обережністю, може бути інтерпретована як R-квадрат від простої моделі лінійної регресії. Він заснований на перетвореному співвідношенні оцінених ймовірностей повної моделі до моделі, що перехоплює лише перехоплення.

Ви можете оцінити його fitі fit2, відповідно, і порівняти відносний розмір, щоб отримати вказівку на вашу проблему. Значно більший R-квадрат Nagelkerke fitприпускає, що він fit2втрачає велику силу прогнозування, опускаючи V17.

В lrmна statsзначенні забезпечує R-квадрат Nagelkerke в. Тож давання fit$statsмає дати вам оцінку. Дивіться також ?lrm.


Я знайомий з R-квадратом Нагелкера; однак, моє питання полягає в тому, що таке "значно вища площа R-Nagelkerke fit"? У наведеному вище прикладі є різниця 0,001, оскільки у нас R-квадрат Нагелкерке 0,173 і 0,174 для fitі fit2, відповідно. Чи є у вас якісь посилання на те, що таке "значно вища R-площа Nagelkerke"? Дякую!
Метт Райхенбах

@Matt: Я думаю, що немає узагальнених вказівок щодо тлумачення R² Нагелкера або інших заходів псевдо R². Однак зауважте, що це трансформована міра "зменшення ймовірності" шляхом включення коваріатів до моделі перехоплення, що робить його подібним до "поясненої дисперсії", зазначеної стандартом R² в лінійній регресії. У цьому сенсі я б інтерпретував різницю .173 / .174 як дуже малу. Сильнішою різницею буде що-небудь. мостики децилів. Однак я пропоную оцінити інші заходи псевдо R², наприклад, Макфадден або Кокс / Снелл, щоб перевірити надійність цього висновку.
tomka

Я погоджуюсь, що різниця дуже мала, але я б хотів, щоб я міг знайти посилання, яке говорить про те, що таке "невелика" різниця ... Я дійсно ціную ваші думки. Знову дякую!
Метт Райхенбах

1
нема проблем! вибачте за те, що не звернулися до вас швидше! Я відправлю ще раз, якщо знайду відповідь, що таке "невелика" різниця в плані pseduo R-квадрата! Дякую!
Метт Райхенбах

-1

Я просто читав про це. Правильний спосіб зробити це - використовувати кінцевий модельний модуль glm R та шукати «Залишкове відхилення:» та вивести дельту між двома моделями та використовувати це значення у тесті чи-квадрата, використовуючи df, рівний # термінам прогнозованого падіння. І це ваше значення p.

Прикладне регресійне моделювання Iaian Pardoe 2-е видання 2012 pg 270

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.