Моє запитання: чи потрібно нам стандартизувати набір даних, щоб переконатися, що всі змінні мають однакову шкалу між [0,1], перш ніж підходити до логістичної регресії. Формула така:
У моєму наборі даних є дві змінні, вони описують одне і те ж для двох каналів, але гучність різна. Скажіть, це кількість відвідувань покупців у двох магазинах, y ось чи купує клієнт. Оскільки клієнт може відвідати обидва магазини або двічі перший магазин, один раз другий магазин, перш ніж здійснити покупку. але загальна кількість відвідувань покупців для першого магазину в 10 разів більша, ніж для другого магазину. Коли я підходив до цієї логістичної регресії, без стандартизації coef(store1)=37, coef(store2)=13
; якщо я стандартизувати дані, а потім coef(store1)=133, coef(store2)=11
. Щось на зразок цього. Який підхід має більше сенсу?
Що робити, якщо я підходить до моделі дерева рішень? Я знаю, що моделі структури дерев не потребують стандартизації, оскільки сама модель якось коригуватиме її. Але перевірити з усіма вами.
C
змінення оптимального коефіцієнта регуляризації . Тому потрібно вибирати C
після стандартизації даних.