Причина не зменшення терміну упередженості (перехоплення) в регресії


21

Для лінійної моделі , термін усадки завжди .P ( β )y=β0+xβ+εP(β)

Що є причиною того, що ми не скорочуємо термін упередження (перехоплення) ? Чи варто скорочувати термін зміщення в моделях нейронної мережі?β0


Бібліотечна бібліотека для логістичної регресії, яка використовується в scikit-learn, карає термін зміщення (я думаю, що це артефакт реалізації, зміщення обробляється як додаткова вхідна змінна)
seanv507

Відповіді:


33

Елементи статистичного навчання Хасті та ін. визначає гребінь регресії наступним чином (розділ 3.4.1, рівняння

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2},
тобто явно виключають термін перехопленняβ0 із штрафного покарання.

Потім вони пишуть:

[...] зауважте, що перехоплення залишилось поза строком покарання. Покарання перехоплення зробить процедуру залежною від походження, обраного для Y ; тобто додавання постійної c до кожної з цілей y i не призведе просто до зміщення прогнозів на однакову суму c .β0Ycyic

Дійсно, в присутності вільного члена, додаючи до всіх у я просто призведе до р 0 збільшується на C , а також і , відповідно , все передбачених значень у я також збільшиться на з . Це неправда, якщо перехоплення штрафується: β 0 доведеться збільшити менше ніж c .cyiβ0cy^icβ0c

yiy^iRR2див. Напр. Цю нитку для пояснення:Геометрична інтерпретація множинного коефіцієнта кореляціїRта коефіцієнта визначенняR2.

(R)2=cos2(y^,y)=y^2y2=R2,
RR2

Покарання перехоплення призведе до того, що все це вже не відповідає дійсності.


2

Згадайте мету усадки чи регуляризації. Це - не допустити, щоб алгоритм навчання переосмислював навчальні дані або рівнозначно - не дозволяв обирати довільно великі значення параметрів. Це більше ймовірно для наборів даних з більш ніж декількома прикладами навчання за наявності шуму (дуже цікава дискусія про наявність шуму та його вплив обговорюється в "Навчання з даних" Ясера Абу-Мустафи). Модель, засвоєна на галасливих даних без регуляризації, швидше за все, буде працювати в деяких невидимих ​​точках даних.

Зважаючи на це, уявіть, що у вас є 2D точки даних, які ви хочете класифікувати в два класи. Якщо всі, крім параметрів зміщення, фіксовані, зміна терміну зміщення просто перемістить межу вгору або вниз. Ви можете узагальнити це для простору більш високого розміру.

Алгоритм навчання не може ставити довільно великі значення для терміну зміщення, оскільки це призведе до можливого значення великої втрати (модель не відповідає навчальним даним). Іншими словами, даючи деякий набір тренувань, ви (або алгоритм навчання) не можете перемістити площину довільно далеко від справжньої.

Отже, немає причин скорочувати термін упередженості, алгоритм навчання знайде хороший без ризику перевитрати.

Підсумкове зауваження: в деякій роботі я побачив, що при роботі в просторових просторах для класифікації немає чіткої необхідності моделювати термін зміщення. Це може працювати для лінійно відокремлюваних даних, оскільки при додаванні додаткових розмірів є більше можливостей розділити два класи.


Чи можете ви надати посилання на деякі статті, в яких сказано, що "працюючи у просторових просторах для класифікації, немає чіткої необхідності моделювати термін зміщення"?
chandresh

1

Термін перехоплення абсолютно не застрахований від усадки. Загальна рецептура "усадки" (тобто регуляризація) ставить термін регуляризації у функцію втрат, наприклад:

RSS(β)=yiXiβ2

RegularizedLoss(β)=RSS(β)λf(β)

Де зазвичай пов'язаний з нормою лебега, а λ - скаляр, який контролює, яку вагу ми наділимо на термін усадки.f(β)λ

Вводячи такий термін усадки у функцію втрат, як ця, це впливає на всі коефіцієнти в моделі. Я підозрюю, що ваше запитання виникає з плутанини щодо позначень, в яких P ( ββ ) - вектор усіх коефіцієнтів, включаючи β 0 . Ваша лінійна модель, ймовірно, буде краще записати як y = X β +P(β)β0 де X - "матриця дизайну", під якою я маю на увазі, що це ваші дані зі стовпцем 1 ' , доданим до лівої сторони (щоб взяти перехоплення ).y=Xβ+ϵX1s

Тепер я не можу говорити про регуляризацію нейронних мереж. Можливо, що для нейронних мереж ви хочете уникнути усадки терміну зміщення або іншим чином спроектувати регульовану функцію втрат інакше, ніж формулювання, описане нами вище. Я просто не знаю. Але я сильно підозрюю, що ваги та умови зміщення регулюються разом.


2
Це залежить від конвенції, але, наприклад, Елементи статистичного навчання Hastie et al. визначте регресію хребта таким чином, що перехоплення не карається (див. мою відповідь). Я підозрюю, що це може бути більш стандартним, ніж інакше.
Амеба каже, що поверніть Моніку

1

Я не впевнений, що вищезазначена відповідь Девіда Маркса є цілком правильною; На думку Ендрю Нг, за умовою коефіцієнт зміщення / перехоплення, як правило, не регулюється лінійною регресією, і в будь-якому випадку, регулюється він чи ні, це не суттєво зміниться.


1

Я дам найпростіше пояснення, потім розкладу.

Припустимо, ви скорочуєтесь до нуля, тоді ваша модель ефективно стає: Просто одна проблема з цією моделлю: E [

yt=εt
E[εt]=E[yt]0 , що порушує припущення про екзогенність лінійної регресії. Отже, розрахункові коефіцієнти не матимуть приємних властивостей, таких як неупередженість.

β провісника. Однак, як ви можете знати з "регресії через походження", скидання перехоплення з моделі часто призводить до небажаних наслідків.

ββ0

yt=β0+εt
E[yt]=β0+E[εt]
E[εt]=0β0=μ=E[yt] .

Ця модель не така сексуальна, як оригінальна модель, насправді вона досить нерозумна. Однак це законна модель. Наприклад, ви можете запустити ANOVA на ньому.

β0=E[yt]

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.