Я розумію, що регресія LASSO полягає в тому, що коефіцієнти регресії вибираються для вирішення проблеми мінімізації:
На практиці це робиться за допомогою множника Лагранжа, що дозволяє вирішити проблему
Який взаємозв'язок між та ? Вікіпедія безпомилково стверджує, що це "залежно від даних".
Чому мені все одно? По-перше, на інтелектуальну цікавість. Але мене також турбують наслідки для вибору шляхом перехресної перевірки.
Зокрема, якщо я роблю поперечну перехресну перевірку, я підключаю n різних моделей до n різних розділів моїх навчальних даних. Потім я порівнюю точність кожної з моделей за невикористаними даними для заданої . Але те саме передбачає різне обмеження ( ) для різних підмножин даних (тобто, є "залежними від даних").
Чи не є проблемою перехресної перевірки, яку я насправді хочу вирішити, щоб знайти який дає найкращі компромісні точності?
Я можу отримати приблизне уявлення про розмір цього ефекту на практиці, обчисливши для кожного перехресної валідації і і переглянувши отриманий розподіл. У деяких випадках мається на увазі обмеження ( ) може значно відрізнятися від моїх підмножин перехресної перевірки. Де по суті я маю на увазі коефіцієнт варіації .т т > > 0