Вибір k вузлів при сплайсі згладжування регресії, еквівалентний k категоричним змінним?


9

Я працюю над моделлю прогнозних витрат, де вік пацієнта (ціла кількість, виміряна в роках) є однією із змінних прогнозів. Очевидна сильна нелінійна залежність між віком та ризиком перебування у лікарні:

введіть тут опис зображення

Я розглядаю санкціоновану сплайсинг згладжування регресії для віку пацієнта. Згідно з елементами статистичного навчання (Hastie et al, 2009, с.151), оптимальне розміщення вузлів - один вузол на унікальне значення віку члена.

Зважаючи на те, що я зберігаю вік як ціле число, чи санкціонований сплайнінг сплайну еквівалентний виконанню регресії хребта або ласо з 101 різними змінними вікових показників, одне на вікове значення, знайдене в наборі даних (мінус одне для довідки)? Потім уникнути надмірної параметризації, оскільки коефіцієнти кожного показника віку зменшуються до нуля.


Ваша пропозиція вікових показників + усадка - це те саме, що і розгладжувальний
штрих

Було б корисно, якщо ви вказали, що таке інші прогнозні змінні, як одну із запропонованих відповідей, якщо ви контролюєте причину прийому, у вас може бути зовсім інший графік.
seanv507

Відповіді:


11

Чудове запитання. Я вважаю, що відповідь на запитання, яке ви задаєте - "це покарання сплайнованого сплайнера, еквівалентне регресії гребеня або ласо", - так. Існує ряд джерел, які можуть запропонувати коментарі та перспективи. Одне місце, з якого ви можете почати, - це посилання PDF . Як зазначається в примітках:

"Встановлення моделі згладжування сплайну означає виконання форми регресії хребта в основі для природних сплайнів."

Якщо ви хочете ознайомитись із загальним прочитанням, вам може сподобатися перевірити цей чудовий документ про штрафні регресії: Міст проти Лассо . Це може допомогти відповісти на питання про те, чи пенізоване згладжування сплайну є рівнозначним, хоча воно забезпечує більш загальну перспективу. Мені це цікаво, оскільки вони порівнювали різні методи між собою, зокрема, нову модель регресії мосту з LASSO, а також регрес Рейда.

Ще одним тактичним місцем для перевірки можуть бути примітки до пакету smooth.spline в Р. Зауважте, що вони натякають на взаємозв'язок тут, спостерігаючи, що: "з цими визначеннями, де представлення бази B-сплайну можна вказати як f = X c (тобто c - вектор коефіцієнтів сплайну), ймовірність пеналізованого журналу єL=(у-f)ТW(у-f)+λcТΣc, і отже c є рішенням (гребінна регресія) (ХТWХ+λΣ)c=ХТWу. "


Не хвилюйтесь @RobertF. Приємного дня.
Натаніел Пейн

1
Посилання на посилання PDF у пункті 1 порушено.
Jthorpe

3

Я не впевнений, що вам дуже хочеться так багато вузлів, враховуючи сюжет.

Схоже, у вас можуть бути невеликі зразки в конкретному віці; пік при 74 і значення 0 у низькому та високому кінці мають мало сенсу.

Враховуючи повноваження джерела, на якому ви знаходитесь на сайті, можливо, ви хочете замість цього кубічних сплайнів із значно меншою кількістю вузлів?


1
Спасибі, Пітер - так. Використання стількох вузлів здається протизаконним, я під час першого читання в ESL зробив ментальний подвійний результат, що розміщення вузла на кожному спостереженні мінімізує пеналізовану залишкову суму квадратів. Я припускаю, що докази полягають у тому, чи обмежений кубічний сплайн чи санкціонований шлейф згладжування краще працює при прогнозуванні моєї змінної реакції в тестовому наборі даних.
RobertF

0

Я запізнююсь на цю дискусію, але подивіться на діаграму даних ... що очевидна колосаність даних у віці понад 70 років не є справжнім відображенням ризику, пов'язаного з віком, це симптом рідкісних даних та деякої випадковості.

Ви б не хотіли моделювати, що використання одного вузла на рік, це, безумовно, призведе до надмірного шуму.

Крім того, ви будете знаходити зовсім інший малюнок, якщо будете дивитися на жінку проти чоловіка. Більшу частину піку у віці 15-30 років буде акушерство.


Привіт Дуг - Так, напевно, спостерігається менше спостережень у віці старше 70 років. Штрафована модель за рік на вузол сплайну, швидше за все, знизить коефіцієнти 70+ до нуля. Метою тут буде заміна ручного вибору розміщення вузлів автоматизованим процесом, який найкраще відповідає нелінійному співвідношенню між віком та IP-призначеннями, особливо корисним для прогнозної моделі.
RobertF
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.