Ідея складання даних має нульове значення


12

Я часто бачу, як люди, які роблять розмір / особливість набору даних, мають нульове значення, видаляючи середнє з усіх елементів. Але я ніколи не розумів, навіщо це робити? Який ефект робити це як крок попередньої обробки? Чи покращує це ефективність класифікації? Чи допомагає це відповісти щось про набір даних? Чи допомагає це робити при візуалізації для розуміння даних?


9
Такий підхід називається центруванням . Одне з його застосувань полягає в тому, щоб перетворити перехоплення регресійної моделі в "передбачуване y, коли х є в середньому", зробивши перехоплення трохи більш інтерпретаційним.
Penguin_Knight

Функція / набір даних по центру також може бути добре обумовлена . Дивіться тут для візуального пояснення. Операція нормалізації входу значно спрощує спуск градієнта.
налаштовано

Відповіді:


12

Деякі випадки, коли "центрування даних за середнім значенням" (далі - "де-значення") корисне:

1) Візуальне виявлення того, чи є дистрибутив "таким же", як і інший дистрибутив, лише він змістився на реальну лінію. Здійснення обох розподілів із нульовим значенням робить цей візуальний огляд набагато простішим. Іноді, якщо середнє значення відрізняється значно, перегляд їх на одній графіці недоцільний. Подумайте про два нормальних обертання, скажімо, і . У форми графів щільності однакові, тільки їх становище на реальній лінії різний. Тепер уявіть, що у вас є графіки їх функцій щільності, але ви не знаєте їх дисперсії. Де-значення їх накладе один графік на інший.N(10,4)N(100,4)

2) Спростіть обчислення вищих моментів: хоча додавання константи до випадкової величини не змінює її дисперсії або її коваріації з іншою випадковою змінною, все ж, якщо у вас є ненульове значення, і ви повинні виписати детальні обчислення, ви повинні написати всі умови та показати, що вони скасовують. Якщо змінні змінено, ви економите безліч марних розрахунків.

3) Випадкові змінні, зосереджені на їх середньому рівні, є предметом теореми центрального граничного значення

4) Відхилення від "середнього значення" у багатьох випадках викликають інтерес, чи є вони, як правило, "вище або нижче середнього", а не фактичними значеннями випадкових величин. "Переклад" (візуально та / або обчислювально) відхилень нижче середнього як негативні значення та відхилення вище середнього як позитивні значення робить повідомлення зрозумілішим та сильнішим.

Для більш поглиблених дискусій див. Також

Коли ви проводите множинні регресії, коли слід зосереджувати свої провідникові змінні та коли їх стандартизувати?

Дані центрування при множинній регресії

Якщо ви будете шукати "дані по центру" в резюме, ви також знайдете інші цікаві публікації.


@OP: Я думаю, що цю відповідь слід прийняти.
ротвейлер

4

Крім того, з практичних причин вигідно центрувати дані, наприклад, під час тренування нейронних мереж.

Ідея полягає в тому, що для тренування нейронної мережі потрібно вирішити проблему оптимізації, що не є опуклою, використовуючи деякий градієнтний підхід. Градієнти обчислюються за допомогою зворотного розповсюдження. Тепер ці градієнти залежать від входів, а центрирування даних видаляє можливі зміщення в градієнтах.

Конкретно, ненульове середнє значення відображається великим власним значенням, що означає, що градієнти мають тенденцію бути більшою в одному напрямку, ніж інші (зміщення), тим самим сповільнюючи процес конвергенції, зрештою призводячи до гірших рішень.


1

Щоб додати те, що сказав Алекос, що дуже добре, центрування даних на нулі є надзвичайно важливим при використанні байєсівської статистики або регуляризації, оскільки в іншому випадку дані можуть бути співвіднесені з перехопленням, що змушує регуляризацію робити не те, що зазвичай потрібно.

Здійснення нульової середньої величини даних може зменшити багато недіагональних членів матриці коваріації, тому вона робить дані легшими для інтерпретації, а коефіцієнти - більш прямо значущими, оскільки кожен коефіцієнт застосовується в першу чергу до цього коефіцієнта і діє менше за рахунок кореляції з інші фактори.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.