Чи потрібна стандартизація перед відповідним логістичним регресом?


39

Моє запитання: чи потрібно нам стандартизувати набір даних, щоб переконатися, що всі змінні мають однакову шкалу між [0,1], перш ніж підходити до логістичної регресії. Формула така:

ximin(xi)max(xi)min(xi)

У моєму наборі даних є дві змінні, вони описують одне і те ж для двох каналів, але гучність різна. Скажіть, це кількість відвідувань покупців у двох магазинах, y ось чи купує клієнт. Оскільки клієнт може відвідати обидва магазини або двічі перший магазин, один раз другий магазин, перш ніж здійснити покупку. але загальна кількість відвідувань покупців для першого магазину в 10 разів більша, ніж для другого магазину. Коли я підходив до цієї логістичної регресії, без стандартизації coef(store1)=37, coef(store2)=13; якщо я стандартизувати дані, а потім coef(store1)=133, coef(store2)=11. Щось на зразок цього. Який підхід має більше сенсу?

Що робити, якщо я підходить до моделі дерева рішень? Я знаю, що моделі структури дерев не потребують стандартизації, оскільки сама модель якось коригуватиме її. Але перевірити з усіма вами.


10
Вам не потрібно стандартизувати, якщо ваш регрес не регулюється. Однак іноді це допомагає інтерпретувати та рідко шкодить.
alex

3
Чи не звичайний спосіб стандартизації xix¯sd(x) ?
Пітер Флом - Відновити Моніку

1
@ Петер, про це я і думав раніше, але я знайшов статтю benetzkorn.com/2011/11/data-normalization-and-standardization/… >, здається, нормалізація та стандартизація - це різні речі. Одне полягає в тому, щоб зробити середню 0 відхилення 1, а інша - змінити масштаб кожної змінної. Ось де я плутаюсь. Дякуємо за Ваш відповідь.
користувач1946504

7
Для мене стандартизація значно ускладнює інтерпретацію.
Френк Харрелл

2
Щоб уточнити, що сказав @alex, масштабування ваших даних означає Cзмінення оптимального коефіцієнта регуляризації . Тому потрібно вибирати Cпісля стандартизації даних.
akxlr

Відповіді:


37

Для логістичної регресії стандартизація не потрібна. Основна мета стандартизації функцій - сприяти зближенню методики, що використовується для оптимізації. Наприклад, якщо ви використовуєте Ньютона-Рафсона для збільшення ймовірності, стандартизація функцій робить конвергенцію швидшою. В іншому випадку ви можете запустити свою логістичну регресію без будь-якої стандартизації обробки функцій.


Дякуємо за Ваш відповідь. Чи означає це перевагу стандартизації? Оскільки ми, безумовно, хочемо, щоб модель збігалася, і коли у нас є мільйони змінних, просто легше реалізувати логіку стандартизації в трубопроводі моделювання, ніж налаштування змінних по черзі за потребою. Я правильно розумію?
користувач1946504

4
це залежить від мети аналізу. Сучасне програмне забезпечення може обробляти досить екстремальні дані без стандартизації. Якщо для кожної змінної є натуральна одиниця (роки, євро, кг тощо), я б вагався зі стандартизацією, хоча я вільно міняти одиницю з кг на, наприклад, тонну або грам, коли це має більше сенсу.
Маартен Буїс

19

@Aymen має рацію, вам не потрібно нормалізувати свої дані для логістичної регресії. (Для отримання більш загальної інформації це може допомогти прочитати цю нитку CV: Коли слід зосереджувати свої дані та коли слід стандартизувати?; Ви також можете відзначити, що ваше перетворення частіше називається «нормалізацією», див.: Як перевірити розподіл нормалізується? ) Дозвольте звернутись до деяких інших питань у питанні.

Тут варто зауважити, що при логістичній регресії ваші коефіцієнти вказують на вплив зміни однієї одиниці вашої змінної передбачувача на шанси «успіху». Ефект трансформації змінної (наприклад, шляхом стандартизації або нормалізації) полягає в тому, щоб змінити те, що ми називаємо "одиницею" в контексті нашої моделі. Ваші вихідні дані відрізнялися від деякої кількості одиниць у вихідному показнику. Після нормалізації даних ваші дані склали від до . Тобто, зміна однієї одиниці тепер означає перехід від спостереження з найнижчою ціною до спостереження з найвищим значенням. Сума збільшення коефіцієнта успіху в журналі не змінилася. З цих фактів я підозрюю, що ваша перша змінна ( ) охоплювала0 1 133 / 37 3,6 11 / 13 0,85x01store1133/373.6оригінальних одиниць, а ваша друга змінна ( store2) охоплювала лише оригінальних одиниць. 11/130,85


17

Якщо ви використовуєте логістичну регресію з LASSO або гребінну регресію (як це робить клас Weka Logistic ). Як зазначають Хасті, Тібшірані та Фрідман (сторінка 82 pdf або на сторінці 63 книги):

Різні гребні рішення не є еквівалентними при масштабуванні входів, і тому, як правило, стандартизовані входи перед рішенням.

Також ця нитка робить.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.