Мені з інших публікацій стало зрозуміло, що не можна віднести «важливість» чи «значущість» змінним прогнозувача, які входять в модель ласо, тому що обчислення р-значень цих змінних або стандартних відхилень все ще триває.
Згідно з цим міркуванням, чи правильно стверджувати, що один НЕ МОЖЕ говорити, що змінні, які були виключені з моделі ласо, є "нерелевантними" або "незначними"?
Якщо так, то що я можу насправді стверджувати щодо змінних, які виключаються або включаються в модель ласо? У моєму конкретному випадку я вибрав лямбда-параметр настройки, повторивши 10-кратну перехресну перевірку 100 разів, щоб зменшити частоту частот та середнє значення кривих помилок.
ОНОВЛЕННЯ1: Я дотримувався запропонованої нижче пропозиції і повторно запускав ласо, використовуючи зразки завантажувальної програми. У мене було 100 проб (ця сума могла управляти моїм комп'ютером протягом ночі), і з'явилися деякі схеми. 2 з моїх 41 змінних увійшли в модель більше 95% разів, 3 змінні - понад 90% і 5 змінних - більше 85%. Ці 5 змінних є одними з 9, які увійшли до моделі, коли я запустив її з оригінальним зразком і був тими, що мали найвищі значення коефіцієнта тоді. Якщо я запускаю lasso з скажімо 1000 зразків завантажувальної програми і ці шаблони зберігаються, який би був найкращий спосіб представити свої результати?
Чи достатньо звучить 1000 проб завантаження? (Мій зразок - 116)
Чи слід перераховувати всі змінні та як часто вони вводяться в модель, а потім стверджувати, що ті, які вводяться частіше, мають більшу ймовірність?
Чи настільки я можу піти зі своїми претензіями? Оскільки це незавершена робота (див. Вище), я не можу використовувати значення відсічення, правда?
UPDATE2: На підставі запропонованої нижче пропозиції я обчислив наступне: в середньому 78% змінних в оригінальній моделі увійшли до моделей, створених для 100 зразків завантажувальної програми. З іншого боку, лише 41% для навпаки. Це значною мірою пов'язане з тим, що моделі, згенеровані для зразків завантажувальної програми, зазвичай включали набагато більше змінних (в середньому 17), ніж оригінальна модель (9).
ОНОВЛЕННЯ3: Якщо ви можете допомогти мені в інтерпретації результатів, отриманих від завантаження та моделювання в Монте-Карло, будь ласка, подивіться на цю іншу публікацію.