Оновлення ймовірності класифікації при логістичній регресії через час

19

Я будую прогностичну модель, яка прогнозує ймовірність успіху студента в кінці курсу. Мене конкретно цікавить, чи успіх студента чи невдача, коли успіх зазвичай визначається як закінчення курсу та досягнення 70% або більше балів із загальної кількості балів.

Коли я розгортаю модель, оцінку ймовірності успіху потрібно оновлювати протягом часу, оскільки з'являється більше інформації - в ідеалі відразу після того, як щось відбувається, наприклад, коли студент подає завдання або отримує оцінку. Це оновлення звучить для мене якось байєсівською, але з огляду на мою підготовку до навчальної статистики, це трохи поза моєю зоною комфорту.

Я до сих пір використовував логістичну регресію (фактично ласо) з набором історичних даних, що містить знімки на тижні. Цей набір даних співвідносив спостереження, оскільки кожен студент має спостережень; спостереження за одним учнем співвідносяться. Я конкретно не моделюю співвідношення в рамках тижневих спостережень конкретного студента. Я вважаю, що мені потрібно було б врахувати це лише в умовах зараження, оскільки стандартних помилок було б занадто мало. Я думаю - але не впевнений у цьому - що єдиною проблемою, що виникає у зв'язку зі спостережуваними спостереженнями, є те, що мені потрібно бути обережним, коли я перехресно підтверджую, щоб зберігати кластерні спостереження в одній підмножині даних, щоб я не отримував штучно низькі показники помилок у вибірці, що базуються на прогнозах щодо людини, яку модель вже бачила. $TermLength/7$

Я використовую пакет glmnet R для того, щоб зробити ласо з логістичною моделлю, щоб генерувати ймовірність успіху / невдачі та автоматично підбирати прогнози для певного курсу. Я використовую змінну тижня як фактор, взаємодію з усіма іншими прогнозами. Я не думаю, що це взагалі відрізняється від просто оцінки окремих моделей на основі тижня, за винятком того, що це дає деяке уявлення про те, як може існувати якась загальна модель, яка дотримується протягом усього терміну, яка коригується за допомогою різних факторів коригування ризику на різних тижнях.

Моє головне питання таке: чи існує кращий спосіб оновлення ймовірностей класифікації за часом, а не просто розділення набору даних на тижневі (або інші інтервальні) знімки, введення змінної фактора періоду часу, взаємодіючої з усіма іншими ознаками, та використовуючи сукупні функції (сукупні зароблені бали, сукупні дні в класі тощо)?

Друге моє запитання : чи я пропускаю щось критичне щодо прогнозування моделювання з корельованими спостереженнями?

Моє третє запитання : як я можу узагальнити це до оновлення в режимі реального часу, якщо я роблю щотижневі знімки? Я планую просто підключити змінні для поточного тижневого інтервалу, але це здається мені незручним.

FYI, я навчаюсь у прикладній навчальній статистиці, але давно маю досвід математичної статистики. Я можу зробити щось більш складне, якщо це має сенс, але мені потрібно, щоб це було пояснено відносно доступними термінами.

time-series machine-learning logistic

— Енн З.
джерело

4

$t_0, t_1, \ldots, t_n$ $t_i$ $(Z_i,S_i)$ $Z_i$ $S_i$ $(1,0)$ $Prob(z_i=0|s_{i-1})$ $S_i$

Ймовірності випадання не є стаціонарними, оскільки ви отримаєте заподіяння випадок незадовго до остаточної дати випадання без штрафних санкцій. Але ви можете оцінити їх за попередніми даними. Ви також можете оцінити ймовірність випадання як функцію поточної (похмурої) продуктивності.

$S$ $n$

$Z$ $S$

$S$

На початковому рівні ймовірність пропуску студента - це просто швидкість проходження попереднього класу.

$S_1$ $70-S_1$

Як бонус, ви можете обчислити діапазон ймовірностей, який повинен звужуватися в міру просування терміну. Насправді, сильні студенти перетнуть позначку 70% до закінчення терміну, і їх успіх буде певним в той момент. Для слабких студентів невдача також стане певною до кінця.

RE: питання 3. Чи варто переходити до постійного часу? Я б не став, тому що це вкладає в сферу безперервних стохастичних процесів часу, а математика, що займається, перевищує мій рівень оплати. Мало того, що ви навряд чи отримаєте істотно інший результат.

Найкращий спосіб оновити модель, яку я окреслив, - це не переходити до постійного часу, а коригувати ймовірності переходу на основі попереднього досвіду. Можливо, слабкі студенти відстають далі, ніж передбачає модель незалежності. Включення неоднорідності дозволило б вдосконалити модель більше, ніж переходити від дискретного до безперервного часу.

— Плацидії
джерело

0

Коли я треную прогнозні моделі для подібного типу розгортання, я переконуюсь, що в моїх наборах даних є якийсь термін_End_Date, щоб я міг вивести тривалий час, що залишився до закінчення терміну. Це, ймовірно, стане вагомим провісником вашої моделі.

Щодо питання співвіднесених спостережень, я вважаю, що це важливо, наскільки великий у вас сховище даних. Якщо можливо, я випадковим чином обрав би 1 спостереження для кожного учня, розшароване на [# тижнів до закінчення терміну]. Я б також захопив із старих термінів, якщо це можливо. Якщо у вас недостатньо даних для цього, можливо, ви можете спробувати метод повторної вибірки, як завантажувальний.

Я вважаю, що найважливіше, якщо у вас є невеликий набір даних, - це збереження достатньої кількості даних як обміну, щоб забезпечити стабільність остаточної моделі.

Я думаю, що коли ви все закінчите, і у вас буде формула оцінки, це буде досить просто здійснити. Але так, вам все одно слід підключати щомісячні х змінних, які вам знадобляться для підрахунку балу, але це більше нагадує проблему збору даних, а менше - про реалізацію моделі.

— Джош
джерело