Це взагалі питання, не характерне для будь-якого методу чи набору даних. Як ми маємо справу з проблемою дисбалансу класу в контрольованому машинному навчанні, де число 0 становить близько 90%, а число 1 - близько 10% у вашому наборі даних. Як ми оптимально навчаємо класифікатор.
Один із способів, за якими я слідую, - це вибірка, щоб зробити набір даних збалансованим, а потім навчити класифікатор і повторити це для кількох зразків.
Я вважаю, що це випадково. Чи є рамки для підходу до подібних проблем.