Як зробити перехресну перевірку за пропорційною моделлю небезпеки Кокса?


15

Припустимо, я побудував модель прогнозування виникнення певної хвороби в одному наборі даних (набір даних щодо побудови моделі) і тепер хочу перевірити, наскільки добре працює модель у новому наборі даних (валідація даних). Для моделі, побудованої з логістичною регресією, я обчислював би прогнозовану ймовірність для кожної людини в наборі даних перевірки на основі модельних коефіцієнтів, отриманих із набору даних про побудову моделі, а потім, після дихотомізації цих ймовірностей за деяким значенням відсікання, я можу побудувати таблицю 2x2 що дозволяє мені обчислити справжню позитивну швидкість (чутливість) та справжню негативну швидкість (специфічність). Більше того, я можу побудувати всю криву ROC, змінюючи обріз, а потім отримати AUC для графіка ROC.

Тепер припустимо, що я фактично маю дані про виживання. Отже, я використав модель пропорційної небезпеки Кокса в наборі даних про створення моделі і тепер хочу перевірити, наскільки добре працює модель у наборі даних перевірки. Оскільки базовий ризик не є параметричною функцією в моделях Кокса, я не бачу, як я можу отримати прогнозовану ймовірність виживання для кожної людини в наборі даних перевірки на основі модельних коефіцієнтів, отриманих у наборі даних про побудову моделі. Отже, як я можу перевірити, наскільки добре працює модель у наборі даних перевірки? Чи існують усталені методи для цього? І якщо так, чи реалізовані вони в будь-якому програмному забезпеченні? Заздалегідь дякую за будь-які пропозиції!

Відповіді:


9

Крива ROC не корисна в цьому налаштуванні, хоча узагальнена область ROC (c-індекс, який взагалі не потребує дихотомізації). Пакет R rmsбуде обчислювати c-індекс і перехрещені або перехрещені версії завантаження з надмірним виправленням його версій. Ви можете це зробити, не стримуючи жодних даних, якщо повністю заздалегідь вказати модель або повторити алгоритм відхилення назад у кожному повторному вибірці. Якщо ви дійсно хочете зробити зовнішню перевірку, тобто якщо ваш зразок перевірки величезний, ви можете скористатися такими rmsфункціями: rcorr.cens, val.surv.


Дякую за відповідь. Чи можете ви пояснити, чому крива ROC не корисна в цьому налаштуванні? Я бачив кілька відомих застосувань, де застосовувався такий підхід (наприклад, Hippisley-Cox et al. (2007). Виведення та валідація QRISK, новий показник ризику серцево-судинних захворювань для Сполученого Королівства: перспективне відкрите когортне дослідження. British Medical Journal , 335 (7611): 136), тому зараз я цікавлюсь їх методами.
Вольфганг

1
Ось аналогія. Припустимо, хтось зацікавлений у оцінці того, як старіння стосується бігової здатності. Підхід РПЦ задасть питання, враховуючи чиюсь здатність людини, яка ймовірність, що вони перевищують певний (довільний) вік? У когортному дослідженні це лише додає плутанини, щоб змінити ролі незалежних та залежних змінних, а криві ROC також спокушають робити обмеження на прогноз , що, як відомо, є поганою статистичною практикою - див. Biostat.mc.vanderbilt.edu/ CatContinuous . Окрім створення перешкод, точки вирізування фактично повинні бути функціями всіх інших прогнозів.
Френк Харрелл

Ще раз дякую за відповідь. Я не зовсім впевнений. Я повністю погоджуюся з тим, що довільна категоризація суцільної змінної є поганою практикою, але підхід ROC класифікує всі можливі обмеження та узагальнює цю інформацію через AUC. Тож довільності в цьому немає. Це також здається загальноприйнятою та прийнятою практикою для логістичних регресійних моделей. Отже, ви проти використання кривих ROC взагалі чи просто в контексті моделей виживання?
Вольфганг

2
Х=хХ>c

Мій досвід говорить мені, що багато дослідників / практиків дійсно хочуть дихотомічних правил прийняття рішень (залишаючи осторонь, корисно це чи ні). У будь-якому випадку я буду перевіряти деякі з цих функцій R і побачу, куди це мене дістає. Дякую за обговорення
Вольфганг

0

Я знаю, що це питання досить давнє, але те, що я робив, коли зіткнувся з тією ж проблемою, було використовувати функцію передбачення, щоб отримати "бал" для кожного предмета в наборі перевірки. Після цього було розбито випробовуваних відповідно до того, чи був показник вищим або нижчим, ніж середній, та побудувати графік кривої Каплана-Мейє. Це повинно показати розмежування предметів, якщо ваша модель є передбачуваною. Я також перевірив співвідношення балу (фактично його ln [для нормального розподілу]) з виживаністю, використовуючи функцію coxph з пакету виживання в Р.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.