Я треную логістичну регресію, щоб передбачити, які бігуни, швидше за все, закінчать виснажливу гонку на витривалість.
Дуже мало бігунів завершують цю гонку, тому у мене важкий класовий дисбаланс і невеликий зразок успіхів (можливо, кілька десятків). Я відчуваю, що міг би отримати якийсь гарний "сигнал" від десятків бігунів, які ледь не встигли. (Мої дані тренінгу мають не лише завершення, але і те, наскільки ті, хто не закінчив насправді, зробили це.) Тож мені цікаво, страшна ідея чи не включати якийсь "частковий кредит". Я придумав пару функцій для часткового кредитування, рампи та логістичної кривої, яким можна задати різні параметри.
Єдина відмінність від регресії полягала б у тому, що я використовував би дані тренувань, щоб передбачити змінений безперервний результат замість бінарного результату. Порівнюючи їх прогнози на тестовому наборі (використовуючи двійковий відповідь), я мав досить непереконливі результати - логічний частковий кредит здавався незначним покращенням R-квадрата, AUC, P / R, але це була лише одна спроба одного випадку використання за допомогою невеликий зразок.
Мені не байдуже, як прогнози будуть рівномірно упереджені до завершення - те, що мені байдуже, - це правильне класифікація учасників за їх вірогідністю фінішу, або, можливо, навіть оцінка їх відносної ймовірності фінішу.
Я розумію, що логістична регресія передбачає лінійну залежність між прогнозаторами та коефіцієнтом коефіцієнтів шансів, і очевидно, що це співвідношення не має реальної інтерпретації, якщо я почну псуватися з результатами. Я впевнений, що це не розумно з теоретичної точки зору, але це може допомогти отримати додатковий сигнал і запобігти надмірному розміщенню. (У мене майже стільки ж прогнозів, скільки успіхів, тому може бути корисним використання відносин з частковим завершенням як перевірка стосунків з повним завершенням).
Чи застосовується такий підхід у відповідальній практиці?
Так чи інакше, чи існують інші типи моделей (можливо, щось, що явно моделює ступінь небезпеки, застосований на відстань замість часу), які можуть бути краще підходять для такого типу аналізу?