Розуміння, які особливості були найважливішими для логістичної регресії


17

Я створив класифікатор логістичної регресії, який є дуже точним для моїх даних. Тепер я хочу краще зрозуміти, чому це так добре працює. Зокрема, я хотів би оцінити, які функції роблять найбільший внесок (які функції є найважливішими) і, в ідеалі, кількісно оцінити, наскільки кожна функція сприяє точності загальної моделі (або чогось у цьому напрямку). Як це зробити?

Моя перша думка полягала в тому, щоб класифікувати їх на основі їх коефіцієнта, але я підозрюю, що це не може бути правильним. Якщо у мене є дві функції, які однаково корисні, але розкид першого має в десять разів більший, ніж другий, то я б очікував, що перший отримає менший коефіцієнт, ніж другий. Чи є більш розумний спосіб оцінити важливість функції?

Зауважте, що я не намагаюся зрозуміти, наскільки мала зміна функції впливає на ймовірність результату. Швидше я намагаюся зрозуміти, наскільки цінна кожна особливість, з точки зору того, щоб зробити класифікатор точним. Крім того, моя мета полягає не стільки в тому, щоб зробити вибір функції або побудувати модель з меншою кількістю функцій, а спробувати надати певну "пояснюваність" для вивченої моделі, тому класифікатор - це не просто непрозорий чорний ящик.


Я б кинув, що випадкові ліси - це теж хороша техніка. Ви можете оглянути верхні розколи над лісом, щоб отримати інтуїцію, про які особливості сприяють прогнозуванню.

Відповіді:


14

Перше, що слід зазначити, ви не використовуєте логістичну регресію як класифікатор. Той факт, що є двійковим, абсолютно не має нічого спільного з використанням цього методу максимальної ймовірності для фактичної класифікації спостережень. Як тільки ви пройдете це, зосередьтеся на золотому стандартному інформаційному вимірі, який є побічним продуктом максимальної вірогідності: коефіцієнт ймовірності статистика. Ви можете скласти діаграму, що показує частковий внесок кожного прогнозованого в частині його частковогоχ 2 χ 2Yχ2χ2статистичні. Ця статистика має максимальну інформацію / потужність. Ви можете скористатися завантажувальним інструментом, щоб показати, наскільки важко вибирати "переможців" та "програвших", отримуючи інтервали довіри за рядами передбачуваної інформації, що надається кожним прогноктором після обліку інших прогнозів. Приклад наведено в розділі 5.4 моїх курсових конспектів - натисніть Роздатковий матеріал, а потім Роздатковий матеріал.

Якщо у вас є сильно корельовані функції, ви можете зробити "тест", щоб поєднати їх вплив. Діаграма, яка це робить, наведена на рисунку 15.11, де sizeпредставлений сукупний внесок 4-х окремих прогнозів.


6

Коротка відповідь полягає в тому, що немає жодного "правильного" способу відповісти на це питання.

Найкращий огляд проблем див. У документах Ульріке Громпінга, наприклад, Оцінювачі відносної важливості лінійної регресії на основі варіаційного декомпозиції . Варіанти, які вона обговорює, варіюються від простої евристики до складних, багатопроменевих процесорних рішень.

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

Groemping пропонує свій власний підхід у пакеті R, який називається RELAIMPO, який також варто прочитати.

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

Одне швидке та брудне евристичне використання, яке я використав, - це підсумовувати чи-квадрати (значення F, t-статистика), пов'язані з кожним параметром, а потім репрезентувати окремі значення на цю суму. Результатом буде показник відносного значення, який можна ранжирувати.

Однак, я ніколи не був прихильником "стандартизованих бета-коефіцієнтів", хоча вони часто рекомендуються професією і широко застосовуються. Ось проблема з ними: стандартизація є універсальною та зовнішньою для модельного рішення. Іншими словами, такий підхід не відображає умовного характеру результатів моделі.


Дякуємо за відповідь та посилання! Чи можете ви детальніше розібратися чи допомогти мені зрозуміти, що означає "зовнішнє модельне рішення" та "умовний характер результатів моделі"? (На жаль, я не знаю статистики.)
DW

1
Не хвилюйтесь. Поняття про те, як моделі "контролюють" чи обумовлюють інші фактори в моделі, може бути однією з тих речей, з якими багато статистиків дійсно можуть погодитися. Це також тема, на якій помічено багато коментарів на цьому сайті. Ось посилання на один такий потік: stats.stackexchange.com/questions/17336/… Одним з найкращих коментарів до нього був @whuber, який сказав: "Ви можете подумати про" контроль "як" бухгалтерський облік (у найменш квадратному сенсі " ) для внеску / впливу / ефекту / асоціації змінної для всіх інших змінних. '
Майк Хантер

Спасибі! Мені знайоме поняття «контролювати» якийсь фактор. Як це стосується або допомагає зрозуміти значення "зовнішнього для модельного рішення" або "умовного характеру результатів моделі"?
DW

Стандартизація прогнозів для створення "стандартизованої бета-версії", як правило, робиться перед побудовою моделі, правда? Отже, це перетворення є "зовнішнім" для рішення моделі. Зі мною поки що?
Мистер Хантер

ДОБРЕ. Я можу зрозуміти, що ви маєте на увазі під "зовнішнім" зараз - дякую за пояснення. Чи можете ви пояснити, чому це проблема, і що означає "умовний характер ..."? (Можливо, ці два питання - це одне і те ж питання з однаковою відповіддю ...) Вибачте, що перепилювали вас питаннями! Я нетерплячий зрозуміти, що ви написали.
DW

3

Досить надійним способом зробити це було б спробувати підігнати модель N разів, де N - кількість особливостей. Кожен раз користуйтеся N-1 функціями та залишайте одну функцію поза. Тоді ви можете використовувати свій улюблений показник перевірки, щоб виміряти, наскільки включення чи виключення кожної функції впливає на продуктивність моделі. Залежно від кількості ваших функцій це може бути обчислювально дорогим.


4
Це не добре впорається з кореляційними функціями. Легко розробити ситуацію, коли дві особливості сильно співвідносяться, так що видалення будь-якої з них впливає на прогнозовану потужність мінімально, але усунення обох впливів сильно. По суті, такий, в якому два прогнози несуть майже однакову, але важливу інформацію.
Метью Друрі

2
Я згоден. Це також небезпека при вивченні коефіцієнтів.
Даніель Джонсон

1
Цілком правда. Цілком правда.
Метью Друрі

2

|βj^||βj^|σ^jxj. Одне питання з цим полягає в тому, що він руйнується, коли ви більше не маєте справу з числовими предикторами.

Що стосується вашої останньої точки, звичайно, можливо, що змінна може внести чималий внесок у розрахункові коефіцієнти журналу, але фактично не впливає на "справжні" коефіцієнти журналу, але я не думаю, що це не повинно викликати особливих проблем, якщо ми мати будь-яку впевненість у процедурі, яка склала кошториси.


0

Ви маєте рацію, чому ви не повинні використовувати коефіцієнти як міру релевантності, але ви абсолютно можете, якщо розділити їх на їх стандартну помилку! Якщо ви оцінили модель з R, то це вже зроблено для вас! Можна навіть видалити найменш важливі функції з моделі та подивитися, як вона працює.

Більш евристичний підхід до вивчення того, як різні зміни змінних змінюють результат саме цього: спробуйте різні дані та вивчіть їх оціночні ймовірності. Однак, оскільки ваша модель досить проста, я б рекомендував проти цього

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.