Я вивчаю масштабування даних і, зокрема, метод стандартизації. Я зрозумів математику за цим, але мені незрозуміло, чому важливо наводити функції нульової середньої та одиничної дисперсії.
Ви можете мені пояснити?
Я вивчаю масштабування даних і, зокрема, метод стандартизації. Я зрозумів математику за цим, але мені незрозуміло, чому важливо наводити функції нульової середньої та одиничної дисперсії.
Ви можете мені пояснити?
Відповіді:
Питання про те, чи це важливо, залежить від контексту.
Наприклад, для дерев рішень, що підсилюють градієнт, це не важливо - ці алгоритми ML не "хвилюються" щодо монотонних перетворень на дані; вони просто шукають точки, щоб розділити його.
Наприклад, для лінійних предикторів масштабування може покращити інтерпретацію результатів. Якщо ви хочете вважати величину коефіцієнтів як деяку вказівку на те, наскільки функція впливає на результат, то ознаки слід якось масштабувати в одній області.
Для деяких предикторів, зокрема, NN, масштабування та, зокрема, масштабування до певного діапазону, можуть бути важливими з технічних причин. Деякі шари використовують функції, які ефективно змінюються лише в межах деякої області (подібно до сімейства гіперболічних функцій ), і якщо особливостей занадто багато поза діапазоном, може відбутися насичення. Якщо це станеться, числові похідні будуть погано працювати, і алгоритм може не вдатися до хорошої точки.
У разі нульової середньої величини, це тому, що деякі моделі машинного навчання не включають у своє подання термін зміщення, тому ми повинні переміщувати дані навколо походження, перш ніж подавати їх до алгоритму, щоб компенсувати відсутність терміну зміщення. У випадку одиничної дисперсії, це тому, що багато алгоритмів машинного навчання використовують певну відстань (наприклад, Евклідова) для вирішення чи прогнозування. Якщо певна особливість має широкі значення (тобто велика дисперсія), ця особливість буде сильно впливати на цю відстань, а вплив інших особливостей буде ігноровано. До речі, деякі алгоритми оптимізації (включаючи спуск градієнта) мають кращі показники, коли дані стандартизовані.
Отже, пропонується привести всі функції до того ж масштабу, який є досить меншим, щоб легко тренуватися. Нижче посилання також обговорює подібну концепцію. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work