Я хотів би знайти предиктори для безперервної залежної змінної з набору 30 незалежних змінних. Я використовую регресію Лассо, як реалізовано в пакеті glmnet в Р. Ось кілька фіктивних кодів:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Мої запитання - як інтерпретувати вихід:
Чи правильно сказати, що в кінцевому результаті всі прогнози, які показують коефіцієнт, відмінний від нуля, пов'язані із залежною змінною?
Це буде достатньою доповіддю у контексті публікації журналу? Або очікується надання тестових статистичних даних щодо значущості коефіцієнтів? (Контекст - генетика людини)
Чи доцільно обчислювати значення p або іншу тестову статистику, щоб стверджувати про значущість? Як це було б можливо? Чи реалізована процедура в R?
Чи може простий графік регресії (точки даних, побудовані з лінійним приляганням) для кожного прогноктора, підходящим способом візуалізації цих даних?
Можливо, хтось може надати кілька простих прикладів опублікованих статей, що показують використання Лассо в контексті якихось реальних даних і як повідомити про це в журналі?
cv
для кроку прогнозування?