Я створив класифікатор логістичної регресії, який є дуже точним для моїх даних. Тепер я хочу краще зрозуміти, чому це так добре працює. Зокрема, я хотів би оцінити, які функції роблять найбільший внесок (які функції є найважливішими) і, в ідеалі, кількісно оцінити, наскільки кожна функція сприяє точності загальної моделі (або чогось у цьому напрямку). Як це зробити?
Моя перша думка полягала в тому, щоб класифікувати їх на основі їх коефіцієнта, але я підозрюю, що це не може бути правильним. Якщо у мене є дві функції, які однаково корисні, але розкид першого має в десять разів більший, ніж другий, то я б очікував, що перший отримає менший коефіцієнт, ніж другий. Чи є більш розумний спосіб оцінити важливість функції?
Зауважте, що я не намагаюся зрозуміти, наскільки мала зміна функції впливає на ймовірність результату. Швидше я намагаюся зрозуміти, наскільки цінна кожна особливість, з точки зору того, щоб зробити класифікатор точним. Крім того, моя мета полягає не стільки в тому, щоб зробити вибір функції або побудувати модель з меншою кількістю функцій, а спробувати надати певну "пояснюваність" для вивченої моделі, тому класифікатор - це не просто непрозорий чорний ящик.