Чи коли-небудь гарна ідея надати «частковий кредит» (постійний результат) у навчанні логістичної регресії?

Я треную логістичну регресію, щоб передбачити, які бігуни, швидше за все, закінчать виснажливу гонку на витривалість.

Дуже мало бігунів завершують цю гонку, тому у мене важкий класовий дисбаланс і невеликий зразок успіхів (можливо, кілька десятків). Я відчуваю, що міг би отримати якийсь гарний "сигнал" від десятків бігунів, які ледь не встигли. (Мої дані тренінгу мають не лише завершення, але і те, наскільки ті, хто не закінчив насправді, зробили це.) Тож мені цікаво, страшна ідея чи не включати якийсь "частковий кредит". Я придумав пару функцій для часткового кредитування, рампи та логістичної кривої, яким можна задати різні параметри.

Єдина відмінність від регресії полягала б у тому, що я використовував би дані тренувань, щоб передбачити змінений безперервний результат замість бінарного результату. Порівнюючи їх прогнози на тестовому наборі (використовуючи двійковий відповідь), я мав досить непереконливі результати - логічний частковий кредит здавався незначним покращенням R-квадрата, AUC, P / R, але це була лише одна спроба одного випадку використання за допомогою невеликий зразок.

Мені не байдуже, як прогнози будуть рівномірно упереджені до завершення - те, що мені байдуже, - це правильне класифікація учасників за їх вірогідністю фінішу, або, можливо, навіть оцінка їх відносної ймовірності фінішу.

Я розумію, що логістична регресія передбачає лінійну залежність між прогнозаторами та коефіцієнтом коефіцієнтів шансів, і очевидно, що це співвідношення не має реальної інтерпретації, якщо я почну псуватися з результатами. Я впевнений, що це не розумно з теоретичної точки зору, але це може допомогти отримати додатковий сигнал і запобігти надмірному розміщенню. (У мене майже стільки ж прогнозів, скільки успіхів, тому може бути корисним використання відносин з частковим завершенням як перевірка стосунків з повним завершенням).

Чи застосовується такий підхід у відповідальній практиці?

Так чи інакше, чи існують інші типи моделей (можливо, щось, що явно моделює ступінь небезпеки, застосований на відстань замість часу), які можуть бути краще підходять для такого типу аналізу?

logistic binary-data continuous-data

— C8H10N4O2
джерело

Це здається роботою для аналізу виживання, як аналіз пропорційного ризику Кокса або, можливо, параметрична модель виживання.

Подумайте про цю проблему навпаки від того, як ви її пояснюєте: які змінні передбачувача пов'язані з попередніми відстанями до виходу ?

Вихід - це подія. Пройдена відстань може вважатися еквівалентною часу до події в стандартному аналізі виживання. Потім у вас відбудеться кількість подій, що дорівнює кількості людей, які виходять з ладу, тож ваша проблема з обмеженою кількістю прогнозів зменшиться. Усі, хто вийшов, надають інформацію.

Модель Кокса, якщо вона працює на ваших даних, надасть лінійний прогноктор на основі всіх значень змінних прогнозів, класифікуючи учасників у порядку передбачуваних відстаней до виходу.

— EdM
джерело

Дякую за це Здається, ви говорите, що використовуючи модель Кокса, бігуни з найдовшою прогнозованою дистанцією до виходу також мають найменшу ймовірність вийти до фінішної дистанції, через пропорційну конструкцію небезпеки. Це точно? Крім того, оскільки ви це рекомендуєте, здогадуючись, що ідея часткового кредитування не вразила вас як обґрунтовану?

— C8H10N4O2

Це по суті правильно. Я бачу включення дистанції до відмови у моделі виживання як спосіб надання «часткового кредиту» таким чином, що має чітко встановлене теоретичне та практичне обгрунтування. Не розробив деталі, але я підозрюю, що це саме те, що ви задумали, як висловлено у вашому графіку.

— EdM