Нещодавно я зробив невелику програму браузера, яку ви можете використовувати, щоб грати з цими ідеями: Scatterplot Smoothers (*).
Ось декілька даних, які я склав, з поліномією низького ступеня
0,60,850,85
Щоб позбутися від упередженості, ми можемо збільшити ступінь кривої до трьох, але проблема залишається: кубічна крива все ще занадто жорстка
Тож ми продовжуємо збільшувати ступінь, але зараз ми ставимо протилежну проблему
Ця крива відслідковує дані занадто близько і має тенденцію відлітати в напрямках, не так добре підтверджених загальними зразками даних. Тут відбувається надходження регуляризації. З тією ж кривою ступеня (десять) і деякою вдалою обраною регуляризацією
Ми отримуємо дійсно приємну форму!
Варто трохи зупинитися на одному аспекті добре обраного вище. Коли ви підганяєте поліноми до даних, у вас є дискретний набір варіантів вибору. Якщо крива ступеня третього є недостатньою, а крива ступеня четверо ступеня є надлишковою, вам нікуди діватися в середині. Регуляризація вирішує цю проблему, оскільки дає вам безперервний діапазон параметрів складності, з якими можна грати.
як ти стверджуєш: "Ми отримуємо дійсно приємну форму!". Для мене всі вони виглядають однаково, а саме, непереконливо. Який раціональний ви використовуєте, щоб вирішити, що приємно, а що погано?
Справедливий пункт.
Я припускаю тут, що добре підходить модель не повинна мати помітного малюнка в залишках. Зараз я не задумую залишків, тому вам доведеться трохи попрацювати, дивлячись на картинки, але ви повинні вміти користуватися своєю уявою.
На першому малюнку, коли квадратична крива підходить до даних, я бачу наступний малюнок у залишках
- Від 0,0 до 0,3 вони розташовані приблизно рівномірно над кривою та під нею.
- Від 0,3 до приблизно 0,55 всі точки даних знаходяться над кривою.
- Від 0,55 до приблизно 0,85 всі точки даних знаходяться нижче кривої.
- Починаючи з 0,85, вони знову над кривою.
Я б назвав цю поведінку як локальну упередженість , є регіони, де крива недостатньо наближається до умовного середнього значення даних.
Порівняйте це з останнім пристосуванням з кубічним сплайном. Я не можу виділити будь-які регіони оком, де прилягання не виглядає так, що воно проходить саме через центр маси точок даних. Це взагалі (хоча і не точно) те, що я маю на увазі під гарним пристосуванням.
2
- Їх поведінка на межах ваших даних може бути дуже хаотичною навіть при регуляризації.
- Вони не місцеві в жодному сенсі. Зміна даних в одному місці може суттєво вплинути на пристосування в дуже іншому місці.
Я натомість у ситуації, як ви описуєте, рекомендую використовувати природні кубічні сплайси разом із регуляризацією, які дають найкращий компроміс між гнучкістю та стабільністю. Ви можете самі переконатися, встановивши кілька додатків у додатку.
(*) Я вважаю, що це працює лише в chrome та firefox завдяки моєму використанню деяких сучасних функцій javascript (і загальної лінивості, щоб виправити це в сафарі тощо). Вихідний код тут , якщо вас цікавить.