Я використовую пакет randomForest в R, щоб розробити випадкову лісову модель, щоб спробувати пояснити безперервний результат у "широкому" наборі даних з більшою кількістю предикторів, ніж зразків.
Зокрема, я підхоплюю одну модель РФ, яка дозволяє процедурі вибирати з набору змінних ~ 75 прогнозів, які я вважаю важливими.
Я перевіряю, наскільки добре ця модель прогнозує фактичний результат для зарезервованого набору тестування, використовуючи підхід, розміщений тут раніше , а саме:
... або в R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Але тепер у мене є додаткові ~ 25 змінних предиктора, які я можу додати. При використанні набору ~ 100 прогнокторів R² вище. Я хочу перевірити це статистично, інакше кажучи, чи використовує набір ~ 100 предикторів, чи тестує модель значно краще при тестуванні даних, ніж модель, що використовує ~ 75 предикторів. Тобто, R2 від тестування моделі RF підходить для повного набору даних, значно вище, ніж R² від тестування моделі RF на зменшеному наборі даних.
Для мене це важливо для тестування, оскільки це пілотні дані, і отримання цих додаткових 25 прогнозів було дорогим, і мені потрібно знати, чи варто платити за вимірювання цих прогнозів у більшому подальшому дослідженні.
Я намагаюся придумати якийсь підхід перестановки / перестановки, але нічого не спадає на думку.