Вони справді рівноцінні, оскільки завжди можна змінити масштаб (див. Також коментар @ whuber). З теоретичної точки зору, це питання зручності, але, наскільки я знаю, це не потрібно. З точки зору обчислень, я фактично вважаю досить дратівливим, тому зазвичай використовую першу рецептуру, якщо розробляю алгоритм, який використовує регуляризацію.λ1/(2n)
Невелика історія: Коли я вперше почав дізнаватися про пеніалізовані методи, мені стало роздратовано переносити всюди в своїй роботі, тому я вважав за краще ігнорувати це - це навіть спростило деякі мої розрахунки. На той час моя робота в основному була обчислювальною. З недавніх пір я займаюся теоретичною роботою, і вважаю, що незамінним (навіть проти, скажімо, ).1/(2n)1/(2n)1/n
Більш детально: Коли ви намагаєтесь проаналізувати поведінку Лассо як функції розміру вибірки , вам часто доводиться мати справу з сумами iid випадкових змінних, і на практиці зазвичай зручніше аналізувати такі суми після нормалізації на - -задумайте закон великих чисел / теорему про центральну межу (або якщо ви хочете отримати фантазію, концентрацію міри та емпіричну теорію процесу). Якщо у вас немає терміну перед збитком, ви, в кінцевому рахунку, в кінцевому підсумку аналізу щось переосмислити, тож, як правило, приємніше мати це для початку. зручна тим , що вона скасовує деякі дратівливі чинникиnn1/n1/22 в аналізі (наприклад, коли ви берете похідну від квадрата збитку).
Інший спосіб думати про це полягає в тому, що, виконуючи теорію, ми, як правило, зацікавлені в поведінці рішень, оскільки збільшується - тобто не є якоюсь фіксованою величиною. На практиці, коли ми запускаємо Lasso на якомусь фіксованому наборі даних, дійсно фіксується з точки зору алгоритму / обчислень. Отже, маючи додатковий нормалізуючий фактор на передній частині, не все так корисно.nnn
Це може здатися набридливим питанням зручності, але, витративши достатньо часу на маніпулювання цими видами нерівностей, я навчився любити .1/(2n)