Необхідність центрування та стандартизації даних при регресії


16

Розглянемо лінійну регресію з деякою регуляризацією: Eg Знайдіть що мінімізуєx||Axb||2+λ||x||1

Зазвичай стовпці А стандартизовані, щоб мати нульове середнє і одиничну норму, а - по центру, щоб мати нульове середнє. Хочу переконатися, чи правильно я розумію причину стандартизації та центрування.b

Створюючи засоби стовпців A і b нульових, нам більше не потрібен термін перехоплення. В іншому випадку ціль була б ||Axx01b||2+λ||x||1 . Встановивши норми стовпців A, що дорівнює 1, ми видаляємо можливість випадку, коли тільки тому, що один стовпець A має дуже високу норму, він отримує низький коефіцієнт у x , що може привести до неправильного висновку, що цей стовпчик A не "пояснює" x добре.

Це міркування не зовсім суворе, але інтуїтивно, це правильний спосіб думати?

Відповіді:


14

Ви вірно оцінюєте нульове значення стовпців і b .Ab

Однак, що стосується коригування норм стовпців , подумайте, що було б, якщо ви почали би з нормованого A , і всі елементи х мали приблизно однакову величину. Тоді помножимо один стовпець на, скажімо, 10 - 6 . Відповідний елемент х буде, в нерегульованих регресії, збільшується на коефіцієнт 10 6 . Подивіться, що буде з терміном регуляризації? Для всіх практичних цілей регуляризація застосовуватиметься лише до цього одного коефіцієнта. AAx106x106

Нормативуючи стовпці , ми, пишемо інтуїтивно, ставимо їх усі в одній шкалі. Отже, відмінності у величинах елементів x безпосередньо пов'язані з «хитливістю» пояснювальної функції ( A x ), тобто, слабко кажучи, тим, що регуляризація намагається контролювати. Без цього значення коефіцієнта, наприклад, 0,1 проти іншого 10,0, не скаже вам, за відсутності знань про A , нічого про те, який коефіцієнт найбільше сприяв «химерності» A x . (Для лінійної функції, на зразок A x , "wiggliness" пов'язаний з відхиленням від 0.)AxAxAAxAx

AxAxAx


$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at allAx

xβAXbyxA
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.