Для лінійної моделі , термін усадки завжди .P ( β )
Що є причиною того, що ми не скорочуємо термін упередження (перехоплення) ? Чи варто скорочувати термін зміщення в моделях нейронної мережі?
Для лінійної моделі , термін усадки завжди .P ( β )
Що є причиною того, що ми не скорочуємо термін упередження (перехоплення) ? Чи варто скорочувати термін зміщення в моделях нейронної мережі?
Відповіді:
Елементи статистичного навчання Хасті та ін. визначає гребінь регресії наступним чином (розділ 3.4.1, рівняння
Потім вони пишуть:
[...] зауважте, що перехоплення залишилось поза строком покарання. Покарання перехоплення зробить процедуру залежною від походження, обраного для Y ; тобто додавання постійної c до кожної з цілей y i не призведе просто до зміщення прогнозів на однакову суму c .
Дійсно, в присутності вільного члена, додаючи до всіх у я просто призведе до р 0 збільшується на C , а також і , відповідно , все передбачених значень у я також збільшиться на з . Це неправда, якщо перехоплення штрафується: β 0 доведеться збільшити менше ніж c .
див. Напр. Цю нитку для пояснення:Геометрична інтерпретація множинного коефіцієнта кореляціїRта коефіцієнта визначенняR2.
Покарання перехоплення призведе до того, що все це вже не відповідає дійсності.
Згадайте мету усадки чи регуляризації. Це - не допустити, щоб алгоритм навчання переосмислював навчальні дані або рівнозначно - не дозволяв обирати довільно великі значення параметрів. Це більше ймовірно для наборів даних з більш ніж декількома прикладами навчання за наявності шуму (дуже цікава дискусія про наявність шуму та його вплив обговорюється в "Навчання з даних" Ясера Абу-Мустафи). Модель, засвоєна на галасливих даних без регуляризації, швидше за все, буде працювати в деяких невидимих точках даних.
Зважаючи на це, уявіть, що у вас є 2D точки даних, які ви хочете класифікувати в два класи. Якщо всі, крім параметрів зміщення, фіксовані, зміна терміну зміщення просто перемістить межу вгору або вниз. Ви можете узагальнити це для простору більш високого розміру.
Алгоритм навчання не може ставити довільно великі значення для терміну зміщення, оскільки це призведе до можливого значення великої втрати (модель не відповідає навчальним даним). Іншими словами, даючи деякий набір тренувань, ви (або алгоритм навчання) не можете перемістити площину довільно далеко від справжньої.
Отже, немає причин скорочувати термін упередженості, алгоритм навчання знайде хороший без ризику перевитрати.
Підсумкове зауваження: в деякій роботі я побачив, що при роботі в просторових просторах для класифікації немає чіткої необхідності моделювати термін зміщення. Це може працювати для лінійно відокремлюваних даних, оскільки при додаванні додаткових розмірів є більше можливостей розділити два класи.
Термін перехоплення абсолютно не застрахований від усадки. Загальна рецептура "усадки" (тобто регуляризація) ставить термін регуляризації у функцію втрат, наприклад:
Де зазвичай пов'язаний з нормою лебега, а λ - скаляр, який контролює, яку вагу ми наділимо на термін усадки.
Вводячи такий термін усадки у функцію втрат, як ця, це впливає на всі коефіцієнти в моделі. Я підозрюю, що ваше запитання виникає з плутанини щодо позначень, в яких (в P ( β ) - вектор усіх коефіцієнтів, включаючи β 0 . Ваша лінійна модель, ймовірно, буде краще записати як y = X β + де X - "матриця дизайну", під якою я маю на увазі, що це ваші дані зі стовпцем 1 ' , доданим до лівої сторони (щоб взяти перехоплення ).
Тепер я не можу говорити про регуляризацію нейронних мереж. Можливо, що для нейронних мереж ви хочете уникнути усадки терміну зміщення або іншим чином спроектувати регульовану функцію втрат інакше, ніж формулювання, описане нами вище. Я просто не знаю. Але я сильно підозрюю, що ваги та умови зміщення регулюються разом.
Я дам найпростіше пояснення, потім розкладу.
Припустимо, ви скорочуєтесь до нуля, тоді ваша модель ефективно стає: Просто одна проблема з цією моделлю: E [
провісника. Однак, як ви можете знати з "регресії через походження", скидання перехоплення з моделі часто призводить до небажаних наслідків.
Ця модель не така сексуальна, як оригінальна модель, насправді вона досить нерозумна. Однак це законна модель. Наприклад, ви можете запустити ANOVA на ньому.