Чи потрібно масштабувати цільове значення на додаток до масштабування для регресійного аналізу?

52

Я будую регресійні моделі. Як крок попередньої обробки, я масштабую свої функції, щоб вони мали середнє значення 0 і стандартне відхилення 1. Чи потрібно також нормалізувати цільові значення?

regression machine-learning

— user2806363
джерело

50

Давайте спочатку проаналізуємо, чому виконується масштабування функцій. Масштабування функцій покращує зближення алгоритмів найбільш крутого спуску, які не мають властивості інваріантності масштабу.

У стохастичних прикладах тренувань з градієнтом інтерактивне оновлення ваги повідомляється повторно так,

ш_{т + 1} = ш_{т} - γ \nabla_{ш} ℓ (f_{ш} (х), у)

$w_{t+1} = w_t - \gamma\nabla_w \ell(f_w(x),y)$

Там , де є вагами, є розмір крок, це вага градієнта WRT, є функцією втрат, функції параметризрвані , являє собою навчальний приклад, і є відповідь / ярлик. $w$ $\gamma$ $\nabla_w$ $\ell$ $f_w$ $w$ $x$ $y$

Порівняйте наступні опуклі функції, які представляють належне масштабування та неправильне масштабування.

Масштабування функцій

Крок через оновлення ваги розміру дозволить значно краще зменшити похибку в правильному масштабі, ніж неправильно масштабований випадок. Нижче показано напрямок довжини . $\gamma$ $\nabla_w \ell(f_w(x),y)$ $\gamma$

Оновлення градієнта

Нормалізація виходу не вплине на форму , тому це взагалі не потрібно. $f$

Єдина ситуація, на яку я можу уявити, що масштабування результатів має вплив, це якщо ваша змінна відповідь дуже велика та / або ви використовуєте змінні f32 (що є загальним для лінійної алгебри GPU). У цьому випадку можна отримати перелив плаваючої точки елемента ваг. Симптом є або значенням Inf, або він перевернеться до іншого крайнього подання.

— Джессіка Мік
джерело

Але якщо ми не масштабуємо вхідні дані та застосуємо Gradient Descent, щоб вирішити для тети щось на зразок y = theta0 + theta1 * x1 + theta2 * x2, якщо ми оновлюємо значення X1 та X2 (шляхом їх масштабування), зберігаючи Y (очікуваний вихід) однаковий, чи не будуть отримані прогнози для theta1, theta2 помилковими, коли ми застосуємо їх до вихідного рівняння?

— Прашант

14

Взагалі, це не потрібно. Масштабування входів допомагає уникнути ситуації, коли одна чи кілька особливостей домінують над іншими за величиною, в результаті модель навряд чи підбирає внесок менших змінних масштабів, навіть якщо вони сильні. Але якщо ви масштабуєте ціль, ваша середня квадратична помилка автоматично масштабується. MSE> 1 автоматично означає, що ви робите гірше, ніж постійне (наївне) прогнозування.

— інзл
джерело

7

Ні, лінійні перетворення відповіді ніколи не потрібні. Однак вони можуть бути корисними для інтерпретації вашої моделі. Наприклад, якщо ваша відповідь наводиться в метрах, але, як правило, дуже мала, може бути корисним перерахувати масштаб до міліметрів. Зауважте також, що центрування та / або масштабування входів може бути корисним з тієї ж причини. Наприклад, ви можете приблизно інтерпретувати коефіцієнт як вплив на відповідь на зміну одиниці в предикторі, коли всі інші предиктори встановлені на 0 . Але 0 часто не буде дійсним чи цікавим значенням для цих змінних. Центрирування входів дозволяє інтерпретувати коефіцієнт як ефект на зміну одиниці, коли інші предиктори припускають їх середні значення.

Інші перетворення (наприклад, лог або квадратний корінь) можуть бути корисними, якщо відповідь не є лінійною у предикторів за початковою шкалою. Якщо це так, ви можете прочитати про узагальнені лінійні моделі, щоб побачити, чи підходять вони вам.

— AlexK
джерело

1

Це дійсно впливає на градієнтний спуск в поганому шляху. перевірити формулу спуску градієнта:

х_{н + 1} = х_{н} - γ Δ Ж (х_{н})

$x_{n+1} = x_{n} - \gamma\Delta F(x_n)$

$x_2$ $x_1$

$F(\vec{x})=\vec{x}^2$ $\Delta F(\vec{x})=2*\vec{x}$

$\vec{z}= (x_1,1000*x_1)$ $\gamma$

\vec{z_{н + 1}} = \vec{z_{н}} - γ Δ Ж (z_{1}, z_{2}) .

$\vec{z_{n+1}} = \vec{z_{n}} - \gamma\Delta F(z_1,z_2) .$

Δ

$\Delta$

Як результат, він зміщує дельту, щоб вказувати лише в цьому напрямку, і робить зближення повільніше.

— drSPacy_
джерело

0

Так , вам потрібно масштабувати цільову змінну. Я цитую це посилання :

Цільова змінна з великим розкидом значень, в свою чергу, може призвести до великих значень градієнта помилок, що призведе до різкого зміни значень ваги, що зробить процес навчання нестабільним.

У довідці також є демонстрація коду, коли ваги моделі вибухали під час тренувань, враховуючи дуже великі помилки і, в свою чергу, градієнти помилок, обчислені для оновлення ваги, також вибухали. Якщо коротко, якщо ви не масштабуєте дані та маєте дуже великі значення, не забудьте використати дуже малі значення швидкості навчання. Про це також згадував @drSpacy.

— Фернандо Віттман
джерело