Я будую прогностичну модель, яка прогнозує ймовірність успіху студента в кінці курсу. Мене конкретно цікавить, чи успіх студента чи невдача, коли успіх зазвичай визначається як закінчення курсу та досягнення 70% або більше балів із загальної кількості балів.
Коли я розгортаю модель, оцінку ймовірності успіху потрібно оновлювати протягом часу, оскільки з'являється більше інформації - в ідеалі відразу після того, як щось відбувається, наприклад, коли студент подає завдання або отримує оцінку. Це оновлення звучить для мене якось байєсівською, але з огляду на мою підготовку до навчальної статистики, це трохи поза моєю зоною комфорту.
Я до сих пір використовував логістичну регресію (фактично ласо) з набором історичних даних, що містить знімки на тижні. Цей набір даних співвідносив спостереження, оскільки кожен студент має спостережень; спостереження за одним учнем співвідносяться. Я конкретно не моделюю співвідношення в рамках тижневих спостережень конкретного студента. Я вважаю, що мені потрібно було б врахувати це лише в умовах зараження, оскільки стандартних помилок було б занадто мало. Я думаю - але не впевнений у цьому - що єдиною проблемою, що виникає у зв'язку зі спостережуваними спостереженнями, є те, що мені потрібно бути обережним, коли я перехресно підтверджую, щоб зберігати кластерні спостереження в одній підмножині даних, щоб я не отримував штучно низькі показники помилок у вибірці, що базуються на прогнозах щодо людини, яку модель вже бачила.
Я використовую пакет glmnet R для того, щоб зробити ласо з логістичною моделлю, щоб генерувати ймовірність успіху / невдачі та автоматично підбирати прогнози для певного курсу. Я використовую змінну тижня як фактор, взаємодію з усіма іншими прогнозами. Я не думаю, що це взагалі відрізняється від просто оцінки окремих моделей на основі тижня, за винятком того, що це дає деяке уявлення про те, як може існувати якась загальна модель, яка дотримується протягом усього терміну, яка коригується за допомогою різних факторів коригування ризику на різних тижнях.
Моє головне питання таке: чи існує кращий спосіб оновлення ймовірностей класифікації за часом, а не просто розділення набору даних на тижневі (або інші інтервальні) знімки, введення змінної фактора періоду часу, взаємодіючої з усіма іншими ознаками, та використовуючи сукупні функції (сукупні зароблені бали, сукупні дні в класі тощо)?
Друге моє запитання : чи я пропускаю щось критичне щодо прогнозування моделювання з корельованими спостереженнями?
Моє третє запитання : як я можу узагальнити це до оновлення в режимі реального часу, якщо я роблю щотижневі знімки? Я планую просто підключити змінні для поточного тижневого інтервалу, але це здається мені незручним.
FYI, я навчаюсь у прикладній навчальній статистиці, але давно маю досвід математичної статистики. Я можу зробити щось більш складне, якщо це має сенс, але мені потрібно, щоб це було пояснено відносно доступними термінами.