Навіщо використовувати регуляризацію при поліномічній регресії замість зниження ступеня?


32

Наприклад, при регресії, наприклад, обирати два гіперпараметри - це частота функції (наприклад, найбільший показник многочлена) та величина регуляризації. Що мене бентежить, це чому просто не вибрати функцію низької ємності, а потім ігнорувати будь-яку регуляризацію? Таким чином, це не буде надмірно. Якщо у мене є функція високої ємності разом з регуляризацією, чи не те саме, що функцію з низькою ємністю і без регуляризації?

Відповіді:


49

Нещодавно я зробив невелику програму браузера, яку ви можете використовувати, щоб грати з цими ідеями: Scatterplot Smoothers (*).

Ось декілька даних, які я склав, з поліномією низького ступеня

Квадратний придатний

0,60,850,85

Щоб позбутися від упередженості, ми можемо збільшити ступінь кривої до трьох, але проблема залишається: кубічна крива все ще занадто жорстка

Кубічний придатний

Тож ми продовжуємо збільшувати ступінь, але зараз ми ставимо протилежну проблему

Придатність на десять градусів

Ця крива відслідковує дані занадто близько і має тенденцію відлітати в напрямках, не так добре підтверджених загальними зразками даних. Тут відбувається надходження регуляризації. З тією ж кривою ступеня (десять) і деякою вдалою обраною регуляризацією

Ступінь десять регуляризатонів

Ми отримуємо дійсно приємну форму!

Варто трохи зупинитися на одному аспекті добре обраного вище. Коли ви підганяєте поліноми до даних, у вас є дискретний набір варіантів вибору. Якщо крива ступеня третього є недостатньою, а крива ступеня четверо ступеня є надлишковою, вам нікуди діватися в середині. Регуляризація вирішує цю проблему, оскільки дає вам безперервний діапазон параметрів складності, з якими можна грати.

як ти стверджуєш: "Ми отримуємо дійсно приємну форму!". Для мене всі вони виглядають однаково, а саме, непереконливо. Який раціональний ви використовуєте, щоб вирішити, що приємно, а що погано?

Справедливий пункт.

Я припускаю тут, що добре підходить модель не повинна мати помітного малюнка в залишках. Зараз я не задумую залишків, тому вам доведеться трохи попрацювати, дивлячись на картинки, але ви повинні вміти користуватися своєю уявою.

На першому малюнку, коли квадратична крива підходить до даних, я бачу наступний малюнок у залишках

  • Від 0,0 до 0,3 вони розташовані приблизно рівномірно над кривою та під нею.
  • Від 0,3 до приблизно 0,55 всі точки даних знаходяться над кривою.
  • Від 0,55 до приблизно 0,85 всі точки даних знаходяться нижче кривої.
  • Починаючи з 0,85, вони знову над кривою.

Я б назвав цю поведінку як локальну упередженість , є регіони, де крива недостатньо наближається до умовного середнього значення даних.

Порівняйте це з останнім пристосуванням з кубічним сплайном. Я не можу виділити будь-які регіони оком, де прилягання не виглядає так, що воно проходить саме через центр маси точок даних. Це взагалі (хоча і не точно) те, що я маю на увазі під гарним пристосуванням.


2

  • Їх поведінка на межах ваших даних може бути дуже хаотичною навіть при регуляризації.
  • Вони не місцеві в жодному сенсі. Зміна даних в одному місці може суттєво вплинути на пристосування в дуже іншому місці.

Я натомість у ситуації, як ви описуєте, рекомендую використовувати природні кубічні сплайси разом із регуляризацією, які дають найкращий компроміс між гнучкістю та стабільністю. Ви можете самі переконатися, встановивши кілька додатків у додатку.

Природні кубічні сплайни

(*) Я вважаю, що це працює лише в chrome та firefox завдяки моєму використанню деяких сучасних функцій javascript (і загальної лінивості, щоб виправити це в сафарі тощо). Вихідний код тут , якщо вас цікавить.


3
Дякую, і ваш інструмент браузера приголомшливий - я люблю такі маленькі інтерактивні демонстрації!
Karnivaurus

@Karnivaurus Дякую, я радий, що можу допомогти. Інструмент було цікаво будувати, мені подобається писати javascript:)
Matthew Drury

3
+6. Гарна робота з написанням цього інструменту! Ви отримаєте щедрості від мене, як тільки нитка буде достатньо старою, щоб наділити її щедрою.
амеба каже, що повернеться до Моніки

4
+1 Це дійсно гарна відповідь. Одним із способів показати нестабільність полінома високого ступеня буде побудувати графік регресії високого порядку з однією точкою даних, видаленою для кожної точки, та порівняти її з рішенням RCS.
Sycorax повідомляє про відновлення Моніки

1
@MatthewDrury "з обмеженими кубічними сплайнами" - вибачте з цього приводу.
Sycorax каже, що повернеться до Моніки

4

Ні, це не те саме. Порівняйте, наприклад, многочлен другого порядку без регуляризації з поліномом четвертого порядку з ним. Останній може ставити великі коефіцієнти для третьої та четвертої потужності до тих пір, поки це, схоже, підвищує точність прогнозування відповідно до будь-якої процедури, що використовується для вибору розміру штрафу для процедури регуляризації (можливо, перехресне підтвердження). Це свідчить про те, що однією з переваг регуляризації є те, що воно дозволяє автоматично регулювати складність моделі, щоб досягти балансу між накладанням та недостатністю.


Але якщо додати регуляризацію до поліному четвертого порядку, це заважає використовувати повну міру своєї виразності. Таким чином, при достатній регуляризації виразність буде знижена до тієї точки, де вона така ж виразна, як поліном другого порядку. Ні?
Karnivaurus

1
Можливо, якщо ви заздалегідь зафіксували розмір штрафу, але який сенс у цьому? Розмір штрафу слід вибирати виходячи з даних.
Кодіолог

4

Для поліномів навіть невеликі зміни коефіцієнтів можуть змінити значення для вищих показників.

L2


2

Усі відповіді чудові, і я маю подібні симуляції з Меттом, щоб надати вам ще один приклад, щоб показати, чому складна модель з регуляризацією зазвичай краще, ніж проста модель .

Я зробив аналогію, щоб мати інтуїтивне пояснення.

  • У випадку 1 у вас є лише гімназист з обмеженими знаннями (проста модель без регуляризації)
  • У випадку 2 у вас є аспірант, але обмежте його використовувати лише знання середньої школи для вирішення проблем. (складна модель з регуляризацією)

Якщо дві людини вирішують одну і ту ж проблему, зазвичай аспіранти працювали б краще, оскільки досвід та розуміння знань.

На малюнку 1 показано 4 пристосування для тих же даних. 4 арматури - це лінія, парабола, модель 3-го порядку та модель 5-го порядку. Ви можете спостерігати, що модель 5-го порядку може мати проблеми з надмірною обробкою.

введіть тут опис зображення

З іншого боку, у другому експерименті ми будемо використовувати модель 5-го порядку з різним рівнем регуляризації. Порівняйте останній з моделлю другого порядку. (дві моделі виділено) ви побачите, що останній схожий (приблизно має однакову складність моделі) на параболу, але трохи гнучкіший до даних добре.

введіть тут опис зображення


1
"приблизно мають однакову складність моделі" ... це візуально "очевидне" порівняння, чи існує математичний спосіб її вимірювання?
Срібна рибка
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.