Як вказати вузли в R
ns
Функція генерує природний регресійний сплайн базис заданої вхідний вектор. Вузли можуть бути визначені або через аргумент градусів свободи, df
який приймає ціле число, або через аргумент вузлів, knots
який приймає вектор, що надає потрібне розміщення вузлів. Зверніть увагу, що в написаному вами коді
library(splines)
lda.pred <- lda(y ~ ns(x, knots=5))
ви не запитували п'ять вузлів, а навпаки, ви запитували один (внутрішній) вузол у місці 5.
Якщо ви використовуєте df
аргумент, то внутрішні вузли будуть обрані на основі квантових елементів вектора x
. Наприклад, якщо ви телефонуєте
ns(x, df=5)
Тоді в основу будуть входити два граничні вузли та 4 внутрішні вузли, розміщені на 20-му, 40-му, 60-му та 80-му квантилах x
відповідно. Прикордонні вузли за замовчуванням розміщуються на min та max x
.
Ось приклад для визначення розташування вузлів
x <- 0:100
ns(x, knots=c(20,35,50))
Якби ви замість цього дзвонили ns(x, df=4)
, ви отримали б 3 внутрішніх вузла у місцях 25, 50 та 75 відповідно.
Ви також можете вказати, чи потрібно термін перехоплення. Зазвичай це не вказано, оскільки ns
найчастіше використовується спільно з lm
, що включає в себе перехоплення неявно (якщо не змушене це робити). Якщо ви використовуєте intercept=TRUE
для свого дзвінка ns
, переконайтеся, що знаєте, чому ви це робите, оскільки якщо ви це зробите, а потім lm
наївно подзвоните , матриця дизайну в кінцевому підсумку не вистачить.
Стратегії розміщення вузлів
Вузли найчастіше розміщуються на квантових елементах, як поведінка за замовчуванням ns
. Інтуїція полягає в тому, що якщо у вас багато даних, згрупованих поблизу, вам може знадобитися більше вузлів для моделювання будь-яких потенційних нелінійностей у цьому регіоні. Але це не означає, що це або (а) єдиний вибір, або (б) найкращий вибір.
Очевидно, що інші варіанти можуть бути зроблені та залежать від домену. Переглядаючи гістограми та оцінки щільності ваших прогнозів, можна дати підказки щодо того, де потрібні вузли, якщо не буде певного "канонічного" вибору з урахуванням ваших даних.
З точки зору інтерпретації регресій, я зазначу, що, хоча ви, звичайно, можете "пограти" з розміщенням вузлів, ви повинні усвідомити, що ви несете за це вибір штрафу за вибір, який ви повинні бути обережними для оцінки та повинні коригувати будь-які умовиводи як результат.