Прогнозування даних підрахунку з випадковим лісом


12

Чи можна навчитись випадковому лісу для відповідного прогнозування даних підрахунку? Як би це діяло? У мене досить широкий діапазон значень, тому класифікація насправді не має сенсу. Якби я застосував регресію, я б просто врізав результати? Я тут зовсім загубився. Будь-які ідеї?


1
ти не можеш використовувати пуассонову регресію?
RJ-

Я хотів використати щось непараметричне. Я не пам’ятаю припущень щодо регресій Пуассона, але я впевнений, що одне з них полягає в тому, що спостереження не є незалежними, і це глибоко не виконується тут. Чи могло це сильно вплинути на мене?
JEquihua

2
Ви просто спробували зробити регрес РФ (можливо, також увійти)? Це може просто працювати досить добре.

1
Немає. Але це був мій перший інстикт. Перетворення журналу або квадратного кореня. Але я хотів побачити, чи є хтось із цього досвіду.
JEquihua

Я намагався просто робити регресію на відповідь, журнал (відповідь) і sqrt (відповідь), і нічого доброго не було. Я думаю, проблема полягає в тому, що мої незалежні змінні пояснюють відповідь. Що ж, добре.
JEquihua

Відповіді:


8

Існує пакет R, який називається mobForestсправжнім випадковим лісом для даних лічильника. Він заснований на mod()(модельованому рекурсивному розподілі) в partyпакеті. Він виконує регресію Пуассона, якщо familyаргумент вказано як poisson(). Пакет більше не знаходиться у сховищі CRAN, але раніше доступні версії можна отримати з архіву.

Якщо ви не обмежені випадковим лісом / забоями, для підрахунку даних також доступна розширювальна версія. Тобто gbm(узагальнені прискорені регресійні моделі). Він також може підходити до моделі Пуассона.


5

Я бачу кілька можливостей.

  • Ви можете поділити відповідь на кілька довільних категорій і використовувати дерево класифікації
  • Якщо підрахунок, як правило, дуже низький, 0, 0, 0, 1, 0, 3, 0, 2, ви можете трактувати кожне ціле число як клас та знову використовувати дерево класифікації (можливо, це не ваш випадок). У цих випадках буде важче отримати метрику пояснюваного типу з великою дисперсією на відміну від постійної регресії.
  • Якщо відліки НЕ зазвичай низькі , і є багато варіацій, я б просто піти на це з деревом регресії. Наприклад, використання пуассонової регресії над лінійною регресією, наприклад, є лише підтяжкою, коли мова йде про отримання хорошого лінійного прогноктора. Якщо ви не бачите хорошої прогнозованої сили з випадковим лісом, то я сумніваюся, що більш приваблива модель, яка спеціально вміщує дані про кількість, зробить багато для вас.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.