Я запускаю регресійну модель як з Лассо, так і з Ріджем (для прогнозу дискретної змінної результату в межах від 0 до 5). Перш ніж запустити модель, я використовую SelectKBest
метод scikit-learn
зменшення набору функцій з 250 до 25 . Без початкового вибору особливостей і Лассо, і Рідж поступаються нижчим показникам точності [що може бути пов'язано з малим розміром вибірки, 600]. Також зауважте, що деякі функції співвідносяться.
Після запуску моделі я зауважую, що точність прогнозування майже однакова з Лассо та Ріджем. Однак, коли я перевіряю перші 10 функцій, після того як упорядковувати їх за абсолютним значенням коефіцієнтів, я бачу, що існує не більше% 50 перекриття.
Тобто, враховуючи, що різні значення особливостей присвоювали кожному методу, я можу мати зовсім іншу інтерпретацію, засновану на обраній вами моделі.
Зазвичай функції відображають деякі аспекти поведінки користувачів на веб-сайті. Тому я хочу пояснити результати, підкреслюючи особливості (поведінку користувачів) з більш сильною прогностичною здатністю та слабшими рисами (поведінка користувача). Однак я не знаю, як рухатись вперед у цей момент. Як слід підходити до інтерпретації моделі? Наприклад, чи слід поєднувати обидва і підкреслювати один, що перекривається, або я повинен перейти з Лассо, оскільки це забезпечує більшу інтерпретацію?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .