Нульова середня та одинична варіація

10

Я вивчаю масштабування даних і, зокрема, метод стандартизації. Я зрозумів математику за цим, але мені незрозуміло, чому важливо наводити функції нульової середньої та одиничної дисперсії.

Ви можете мені пояснити?

machine-learning feature-scaling normalization

— Qwerto
джерело

Погляньте тут .

— ЗМІ

Це було б чудово: medium.com/greyatom/…

— Лернер Чжан

8

Питання про те, чи це важливо, залежить від контексту.

Наприклад, для дерев рішень, що підсилюють градієнт, це не важливо - ці алгоритми ML не "хвилюються" щодо монотонних перетворень на дані; вони просто шукають точки, щоб розділити його.
Наприклад, для лінійних предикторів масштабування може покращити інтерпретацію результатів. Якщо ви хочете вважати величину коефіцієнтів як деяку вказівку на те, наскільки функція впливає на результат, то ознаки слід якось масштабувати в одній області.
Для деяких предикторів, зокрема, NN, масштабування та, зокрема, масштабування до певного діапазону, можуть бути важливими з технічних причин. Деякі шари використовують функції, які ефективно змінюються лише в межах деякої області (подібно до сімейства гіперболічних функцій ), і якщо особливостей занадто багато поза діапазоном, може відбутися насичення. Якщо це станеться, числові похідні будуть погано працювати, і алгоритм може не вдатися до хорошої точки.

— Амі Тавори
джерело

2

У разі нульової середньої величини, це тому, що деякі моделі машинного навчання не включають у своє подання термін зміщення, тому ми повинні переміщувати дані навколо походження, перш ніж подавати їх до алгоритму, щоб компенсувати відсутність терміну зміщення. У випадку одиничної дисперсії, це тому, що багато алгоритмів машинного навчання використовують певну відстань (наприклад, Евклідова) для вирішення чи прогнозування. Якщо певна особливість має широкі значення (тобто велика дисперсія), ця особливість буде сильно впливати на цю відстань, а вплив інших особливостей буде ігноровано. До речі, деякі алгоритми оптимізації (включаючи спуск градієнта) мають кращі показники, коли дані стандартизовані.

— пітінер
джерело

2

Щоразу, коли ми починаємо з будь-якого набору даних в машинному навчанні, ми часто припускаємо, що всі характеристики даних однаково важливі щодо результатів, і одна особливість не повинна домінувати над іншою функцією. Це ЗАГАЛЬНА причина, з якої ми вирішили привести всі функції до однакового масштабу.
Однак тут можна викликати сумніви, що навіть якщо функції не нормалізуються, то ваги, присвоєні їй під час навчання, можуть допомогти набору даних зблизитися до очікуваного результату під час навчання. Проблема в цьому полягає в тому, що тренуватись та робити результати буде потрібно дуже багато часу.
Вибір конкретного числа 0 як середнього та варіації 1 - це просто легкість візуалізації та збереження таких невеликих цифр допоможе у швидшому навчанні.

Отже, пропонується привести всі функції до того ж масштабу, який є досить меншим, щоб легко тренуватися. Нижче посилання також обговорює подібну концепцію. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

— Дивяншу Шехар
джерело