Я треную класифікаційну модель із випадковим лісом для розмежування між 6 категоріями. Мої трансакційні дані мають приблизно 60 К + спостережень та 35 змінних. Ось приклад того, як це приблизно виглядає.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Після створення моделі я хотів би оцінити спостереження за останні кілька тижнів. Оскільки в системі відбулися зміни, більш новітні спостереження будуть більше нагадувати середовище поточних спостережень, які я хотів би передбачити. Отже, я хочу створити змінну ваги, щоб випадковий ліс надавав більше значення останнім спостереженням.
Хтось знає, чи здатний пакет randomForest в R обробляти ваги за спостереженням?
Також, чи можете ви підказати, що є хорошим методом створення вагової змінної? Наприклад, оскільки мої дані з 2013 року, я думав, що я можу прийняти число місяця від дати як вагу. Хтось бачить проблему з цим методом?
Заздалегідь дякую!