Я аналізував набір даних ~ 400k записів і 9 змінних Залежна змінна є двійковою. Я встановив логістичну регресію, дерево регресії, випадковий ліс і дерево, підсилене градієнтом. Усі вони надають віртуальну ідентичну корисність підходящих номерів, коли я перевіряю їх в іншому наборі даних.
Чому це так? Я здогадуюсь, що це тому, що відношення моїх спостережень до змінних настільки велике. Якщо це правильно, при якому співвідношенні спостереження до змінної різні моделі почнуть давати різні результати?