Трохи більше інформації; припустимо, що
- ви заздалегідь знаєте, скільки змінних вибрати, і що ви встановили штраф складності в LARS процедурі, щоб мати саме стільки змінних з не 0 коефіцієнтами,
- витрати на обчислення - це не проблема (загальна кількість змінної невелика, скажімо, 50),
- що всі змінні (y, x) є безперервними.
У яких умовах модель LARS (тобто примір OLS тих змінних, що мають ненульові коефіцієнти в LARS), може найбільше відрізнятися від моделі з однаковою кількістю коефіцієнтів, але виявленої шляхом вичерпного пошуку (a la regsubsets ())?
Редагувати: я використовую 50 змінних і 250 спостережень з реальними коефіцієнтами, отриманими зі стандартного гаусса, за винятком 10 змінних, що мають "реальні" коефіцієнти 0 (і всі функції сильно корелюються між собою). Ці параметри, очевидно, непогані, оскільки відмінності між двома наборами вибраних змінних є хвилиновими. Це справді питання про те, який тип конфігурації даних повинен імітувати, щоб отримати найбільшу кількість відмінностей.