У мене є дуже упереджений бінарний набір даних - у мене на 1000 разів більше прикладів негативного класу, ніж позитивного класу. Я хотів би тренувати ансамбль дерев (наприклад, додаткові випадкові дерева або випадковий ліс) за цими даними, але важко створити набори навчальних наборів, які містять достатньо прикладів позитивного класу.
Якими будуть наслідки застосування стратифікованого підбору вибірки для нормалізації кількості позитивних та негативних прикладів? Іншими словами, чи погана ідея, наприклад, штучно завищувати (шляхом перекомпонування) кількість позитивних прикладів класу у навчальному наборі?