Традиційно ми використовуємо змішану модель для моделювання поздовжніх даних, тобто таких даних, як:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
ми можемо припустити випадковий перехоплення або нахил для різних осіб. Однак питання, яке я намагаюся вирішити, стосуватиметься величезних наборів даних (мільйони осіб, щомісячне спостереження щомісяця, тобто у кожної людини буде 30 спостережень), на даний момент я не знаю, чи є пакети, здатні робити цей рівень даних.
У мене є доступ до spark / mahout, але вони не пропонують змішаних моделей, моє запитання: чи все-таки я можу змінити свої дані, щоб я міг використовувати RandomForest або SVM для моделювання цього набору даних?
Будь-яку техніку інженерних можливостей я можу використовувати на тому, щоб вона могла допомогти RF / SVM враховувати автоматичну кореляцію?
Велике дякую!
Деякі потенційні методи, але я не міг дозволити собі час написати їх іскрою