Нульова середня та одинична варіація


10

Я вивчаю масштабування даних і, зокрема, метод стандартизації. Я зрозумів математику за цим, але мені незрозуміло, чому важливо наводити функції нульової середньої та одиничної дисперсії.

Ви можете мені пояснити?


Погляньте тут .
ЗМІ

Це було б чудово: medium.com/greyatom/…
Лернер Чжан

Відповіді:


8

Питання про те, чи це важливо, залежить від контексту.

  • Наприклад, для дерев рішень, що підсилюють градієнт, це не важливо - ці алгоритми ML не "хвилюються" щодо монотонних перетворень на дані; вони просто шукають точки, щоб розділити його.

  • Наприклад, для лінійних предикторів масштабування може покращити інтерпретацію результатів. Якщо ви хочете вважати величину коефіцієнтів як деяку вказівку на те, наскільки функція впливає на результат, то ознаки слід якось масштабувати в одній області.

  • Для деяких предикторів, зокрема, NN, масштабування та, зокрема, масштабування до певного діапазону, можуть бути важливими з технічних причин. Деякі шари використовують функції, які ефективно змінюються лише в межах деякої області (подібно до сімейства гіперболічних функцій ), і якщо особливостей занадто багато поза діапазоном, може відбутися насичення. Якщо це станеться, числові похідні будуть погано працювати, і алгоритм може не вдатися до хорошої точки.

введіть тут опис зображення


2

У разі нульової середньої величини, це тому, що деякі моделі машинного навчання не включають у своє подання термін зміщення, тому ми повинні переміщувати дані навколо походження, перш ніж подавати їх до алгоритму, щоб компенсувати відсутність терміну зміщення. У випадку одиничної дисперсії, це тому, що багато алгоритмів машинного навчання використовують певну відстань (наприклад, Евклідова) для вирішення чи прогнозування. Якщо певна особливість має широкі значення (тобто велика дисперсія), ця особливість буде сильно впливати на цю відстань, а вплив інших особливостей буде ігноровано. До речі, деякі алгоритми оптимізації (включаючи спуск градієнта) мають кращі показники, коли дані стандартизовані.


2
  • Щоразу, коли ми починаємо з будь-якого набору даних в машинному навчанні, ми часто припускаємо, що всі характеристики даних однаково важливі щодо результатів, і одна особливість не повинна домінувати над іншою функцією. Це ЗАГАЛЬНА причина, з якої ми вирішили привести всі функції до однакового масштабу.
    Однак тут можна викликати сумніви, що навіть якщо функції не нормалізуються, то ваги, присвоєні їй під час навчання, можуть допомогти набору даних зблизитися до очікуваного результату під час навчання. Проблема в цьому полягає в тому, що тренуватись та робити результати буде потрібно дуже багато часу.
  • Вибір конкретного числа 0 як середнього та варіації 1 - це просто легкість візуалізації та збереження таких невеликих цифр допоможе у швидшому навчанні.

Отже, пропонується привести всі функції до того ж масштабу, який є досить меншим, щоб легко тренуватися. Нижче посилання також обговорює подібну концепцію. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.