Використання стандартних інструментів машинного навчання на даних, що цензуруються ліворуч


11

Я розробляю програму прогнозування, мета якої - дозволити імпортеру прогнозувати попит на свою продукцію із своєї мережі клієнтів дистриб'юторів. Показники продажів є досить хорошим показником попиту, якщо існує достатня кількість запасів, щоб заповнити попит. Однак, коли товарний запас знижується до нуля (ситуація, яку ми прагнемо допомогти нашому клієнту уникнути), ми не знаємо, наскільки ми пропустили ціль. Скільки продажів заробив би замовник, якби вони мали достатню пропозицію? Стандартні підходи на основі регресії на основі регресії, які використовують продаж як просту цільову змінну, дадуть суперечливі оцінки взаємозв'язку між часом, моїми описовими змінними та попитом.

Тобітне моделювання є найбільш очевидним способом підходу до проблеми: http://en.wikipedia.org/wiki/Tobit_model . Мене цікавить адаптація ML для випадкових лісів, GBMS, SVM та нейронних мереж, які також враховують лівоцензуровану структуру даних.

Коротше кажучи, як я можу застосувати інструменти машинного навчання до лівоцензурованих регресійних даних, щоб отримати послідовну оцінку взаємозв'язків між моїми залежними та незалежними змінними? Перша перевага надаватиметься рішенням, доступним в R, а потім Python.

Ура,

Аарон


3
Хочеться побачити відповідь wrt scikit-learn.
tobip

У R ви можете використовувати cran.r-project.org/web/packages/censReg/censReg.pdf . Я другий @tobip про scikit-learn на Python
Адріан

Відповіді:


1

Коротше кажучи, як я можу застосувати інструменти машинного навчання до лівоцензурованих регресійних даних, щоб отримати послідовну оцінку взаємозв'язків між моїми залежними та незалежними змінними?

Якщо ви можете записати ймовірність і перевернути знак на мінус, то у вас є функція втрати самостійно, яка може бути використана для багатьох моделей машинного навчання. У градієнтному збільшенні це зазвичай називають збільшенням моделі . Див. Наприклад, Підвищення алгоритмів: регуляризація, прогнозування та встановлення моделей .

Як приклад з моделлю Tobit див. Моделі Tobit з посиленим деревом градієнта для паперу передбачення за замовчуванням . Метод повинен бути доступний з галуззю scikit-learn, згаданою у статті.

Ця ж ідея використовується для даних, що цензуруються в праві, наприклад, gbmі mboostпакетів в R для даних, які цензуруються вправо.

Вищенаведена ідея може бути застосована і з іншими методами (наприклад, нейронна мережа). Однак з програмою Gradient прискорення роботи особливо легко, оскільки вам просто потрібно мати можливість обчислити градієнт функції втрат (негативна ймовірність журналу). Тоді ви можете застосувати будь-який метод, який ви віддаєте перевагу, щоб відповідати негативному градієнту зі втратою .L2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.