Я став чимось нігілістом, коли справа стосується рейтингів різної важливості (в контексті багатоваріантних моделей усіх видів).
Часто в процесі роботи мене просять або допомогти іншій команді створити рейтинг змінної важливості, або створити змінний рейтинг важливості з моєї власної роботи. У відповідь на ці запити я задаю наступні запитання
Для чого ви хотіли б цей рейтинг змінної важливості? Чого ви сподіваєтеся навчитися цьому? Які рішення ви хотіли б прийняти, використовуючи його?
Відповіді, які я отримую майже завжди, належать до однієї з двох категорій
- Я хотів би знати важливість різних змінних у моїй моделі для прогнозування відповіді.
- Я хотів би використовувати його для вибору функцій, видаляючи змінні низької важливості.
Перша відповідь є тавтологічною (я хотів би змінити рейтинг важливості, тому що я хотів би змінити важливість за рейтингом). Я повинен припустити, що ці рейтинги заповнюють психологічну потребу при споживанні результатів багатоваріантної моделі. Мені важко це зрозуміти, оскільки, здавалося б, класифікація змінних «важливість» індивідуально неявно відкидає багатовимірну природу розглянутої моделі.
Друга відповідь по суті зводиться до неофіційної версії зворотного вибору , статистичні гріхи якої добре зафіксовані в інших частинах CrossValidated.
Я також борюся з неправильно визначеним рейтингом важливості. Здається, мало домовленостей щодо того, яку основну концепцію повинен оцінювати рейтинг, надаючи їм дуже спеціальний смак. Існує багато способів присвоїти оцінку важливості чи класифікацію, і вони, як правило, страждають від недоліків та застережень:
- Вони можуть бути сильно залежними від алгоритму, як у рейтингу важливості у випадкових лісах та гбм.
- Вони можуть мати надзвичайно велику дисперсію, різко змінюючись із збуреннями на основні дані.
- Вони можуть сильно постраждати від кореляції вхідних прогнокторів.
Отже, маючи все сказане, моє запитання полягає в тому, які існують статистично обґрунтовані використання рейтингів різної важливості чи, що є переконливим аргументом (або статистику, або мирянину) для марності такого бажання? Мене цікавлять як загальні теоретичні аргументи, так і тематичні дослідження, залежно від того, що було б більш ефективним у висловлюванні суті.
glmnet
вона є?