Я використовую Python для запуску випадкової лісової моделі на моєму незбалансованому наборі даних (цільовою змінною був двійковий клас). Розбиваючи навчальний і тестуючий набір даних, я намагався використати стратифіковану вибірку (наприклад, показаний код) чи ні. Поки я в своєму проекті зауважував, що стратифікований випадок призведе до більш високої продуктивності моделі. Але я думаю, якщо я буду використовувати свою модель, щоб передбачити нові випадки, які б, напевно, відрізнялися в розподілі цільового класу з моїм поточним набором даних. Тому я схилявся послабити це обмеження і використати нестримований розкол. Хтось може порадити уточнити цей момент?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)