Я намагаюся передбачити успіх чи невдачу студентів на основі деяких особливостей з логістичною регресійною моделлю. Щоб покращити ефективність моделі, я вже думав про розподіл учнів на різні групи на основі очевидних відмінностей та побудови окремих моделей для кожної групи. Але я думаю, що може бути складно визначити ці групи за допомогою іспиту, тому я подумав розділити учнів шляхом кластеризації їхніх особливостей. Це звичайна практика побудови таких моделей? Ви б запропонували мені розбити його на очевидні групи (наприклад, студенти першого курсу проти студентів, що повертаються), а потім виконувати кластеризацію на цих групах або кластер з самого початку?
Щоб спробувати уточнити:Я маю на увазі те, що я розглядаю можливість використовувати алгоритм кластеризації для розбиття мого навчального набору для логістичної регресії на групи. Тоді я б робив окремі логістичні регресії для кожної з цих груп. Тоді, використовуючи логістичну регресію для прогнозування результату для студента, я вибрав би, яку модель використовувати, виходячи з того, до якої групи вони найкраще вписуються.
Можливо, я міг би зробити те саме, включивши груповий ідентифікатор, наприклад, 1, якщо студент повертається, і 0, якщо ні.
Тепер ви подумали про те, чи може бути вигідним кластеризувати набір даних про навчання та використовувати їх кластерну мітку як особливість логістичної регресії, а не будувати окремі моделі логістичної регресії для кожної групи населення.
Якщо корисно включити ідентифікатор групи для тих, хто повертає студентів порівняно з новими учнями, може бути корисним також розширити список груп? Кластеризація здається природним способом цього зробити.
Сподіваюся, це зрозуміло ...