Поліноми високого порядку B-Splines VS в регресії


10

Я не маю на увазі конкретного прикладу чи завдання. Я просто новачок у використанні b-сплайнів і хотів краще зрозуміти цю функцію в контексті регресії.

Давайте припустимо , що ми хочемо , щоб оцінити залежність між змінним відгуком і деякі провісники х 1 , х 2 , . . . , х стор . Провідники включають деякі числові змінні, а також деякі категоричні.yx1,x2,...,xp

Скажімо, що після установки регресійної моделі одна з числових змінних, наприклад є значною. Логічним кроком після цього є визначення того, чи потрібні поліноми вищого порядку, наприклад: x 2 1 і x 3 1 , щоб адекватно пояснити зв'язок без надмірного розміщення.x1x12x13

Мої запитання:

  1. У який момент ви вибрали між b-сплайнами або простим многочленом вищого порядку. наприклад в R:

    y ~ poly(x1,3) + x2 + x3
    

    проти

     y ~ bs(x1,3) + x2 + x3
    
  2. Як ви можете використовувати сюжети, щоб повідомити про свій вибір між цими двома та про те, що станеться, якщо з графіків це не зовсім зрозуміло (наприклад: через велику кількість точок даних)

  3. Як би ви оцінили умови двосторонньої взаємодії між та скажімо x 3x2x3

  4. Як змінюються вищезазначені для різних типів моделей

  5. Чи вважаєте ви, що ніколи не використовуєте поліноми високого порядку та завжди підходимо до b-сплайнів та штрафуєте за високу гнучкість?



Зважаючи на те, наскільки добре розроблено mgcv, чому б не використовувати (узагальнені) моделі добавок. Вибір гладкості автоматичний, а інфекційні методи добре розвинені.
generic_user

Відповіді:


17

Зазвичай я б розглядав лише сплайни, а не многочлени. Поліноми не можуть моделювати пороги і часто є небажаними глобальними, тобто спостереження в одному діапазоні прогноктора мають сильний вплив на те, що робить модель в іншому діапазоні ( Magee, 1998, американський статистик та регресійні стратегії моделювання регресії Франка Харрелла ). І звичайно обмежені сплайни, які є лінійними за межами екстремальних вузлів, краще для екстраполяції або навіть інтраполяції при екстремальних значеннях прогнокторів.

Один з випадків, коли ви можете розглянути поліноми, це коли важливо пояснити свою модель нетехнічній аудиторії. Люди розуміють поліноми краще, ніж сплайни. (Редагувати: Метью Дрюрі зазначає, що люди можуть вважати, що вони розуміють поліноми краще, ніж сплайни. Я не буду ставитись до цього питання.)

Сюжети часто не дуже корисні для вирішення між різними способами боротьби з нелінійністю. Краще зробити перехресну перевірку. Це також допоможе вам оцінити взаємодію або знайти хорошу штрафну санкцію.

Нарешті, моя відповідь не змінюється в залежності від типу моделі, тому що наведені вище пункти справедливі для будь-якої статистичної моделі чи ML.


Дякую за вашу відповідь, це було дуже корисно. Просто швидке запитання. Чи існує "найсучасніший" спосіб знайти вузли? Моя найкраща здогадка - 1) Використовуйте інтуїцію, наприклад: якщо змінна представляє час у місяцях, то використовуйте вузли кожні 6 чи 12? 2) ввести послідовність, яка проходить через діапазон змінної, і використовувати перехресну перевірку, щоб знайти оптимальні вузли, можливо?
Василіс Василеу

8
Люди думають, що вони розуміють поліноми краще, ніж сплайни.
Метью Друрі

3
Щодо розміщення вузлів: перехресне підтвердження - це один підхід, але якщо чесно, я думаю, що результати будуть досить нечутливі до розміщення розташування, доки вузли розміщені розумно і не згуртовуватимуться занадто багато. Френк Харрелл має таблицю з евристичними місцями розміщення вузлів з точки зору квантових показників розподілу предиктора в стратегіях регресійного моделювання .
Стефан Коласа

1
Хоча ваша відповідь цілком справедлива в цьому контексті, ваше твердження є дуже сильним, враховуючи, що багато реальних процесів можуть бути змодельовані краще поліномами.
коало

6

У розділі 7.4.5 "Елементи статистичного навчання" сказано, що сплайни часто дають кращі результати, ніж поліноміальна регресія, оскільки:

  • Це забезпечує гнучкі пристосування;
  • Випускає більш стабільні оцінки;
  • Поліноми можуть давати небажані результати на межах.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.