Я намагаюся робити прогнози, використовуючи випадкову лісову модель у Р.
Однак я отримую помилки, оскільки деякі фактори мають різні значення в тестовому наборі, ніж у навчальному наборі. Наприклад, коефіцієнт Cat_2
має значення 34, 68, 76
тощо у тестовому наборі, які не відображаються у навчальному наборі. На жаль, я не маю контролю над тестовим набором ... я повинен використовувати його як є.
Моє єдине вирішення - перетворити проблемні фактори на числові значення, використовуючи as.numeric()
. Це працює, але я не дуже задоволений, оскільки ці значення - це коди, що не мають числового сенсу ...
Як ви думаєте, знайдеться інше рішення, щоб викинути нові значення з тестового набору? Але без вилучення всіх інших значень фактора (скажімо, значення 1, 2, 14, 32
тощо), які є як у навчанні, так і в тесті, і містять інформацію, потенційно корисну для прогнозів.