Особливості ранжування в логістичній регресії


10

Я використовував логістичну регресію. У мене є шість функцій, я хочу знати важливі особливості цього класифікатора, які впливають на результат більше, ніж інші функції. Я використовував інформаційне посилення, але, схоже, це не залежить від використовуваного класифікатора. Чи існує якийсь метод класифікації ознак за їх важливістю на основі конкретного класифікатора (наприклад, логістична регресія)? будь-яка допомога буде дуже вдячна.


3
Логістична регресія не є класифікатором. Будь ласка, напишіть своє запитання, щоб відобразити, що логістична регресія є моделлю прямої оцінки ймовірностей.
Френк Харрелл

1
Окрім точки, піднятої ФренкГарреллом, ви подивилися на p -значення ваших розрахункових коефіцієнтів? Це, безумовно, не найкращий спосіб ранжування функцій, але це може дати вам вихідну точку.
usεr11852

9
Впевнений, що логістична регресія - це оцінка ймовірності, а не чіткого класифікації речей, але кого це хвилює? Метою часто є вирішити, який клас є найбільш імовірним, і немає нічого поганого в тому, щоб називати його класифікатором, якщо для цього ви його використовуєте.
dsaxton

Відповіді:


5

Я думаю, що відповідь, яку ви шукаєте, може бути алгоритмом Boruta . Це метод обгортки, який безпосередньо вимірює важливість ознак у сенсі "всієї актуальності" і реалізується в пакеті R , який створює приємні сюжети, наприклад, цей сюжетколи важливість будь-якої функції знаходиться на осі y і порівнюється з нульовий сюжет нанесений синім кольором. Ця публікація в блозі описує підхід, і я рекомендую вам прочитати його як дуже чіткий вступ.


Приємна пропозиція (+1). Я думаю, що це трохи надмірності для цього додатка, але гарне доповнення, проте. Я безумовно розумію , що він буде робити добре в ситуацій. Чи знаєте ви якісь порівняльні оглядові дослідження, в яких його порівнювали з іншими алгоритмами класифікації? p>>н
usεr11852

@ usεr11852 Ні, я ні. Я тільки що натрапив на це сам останній тиждень або близько того.
babelproofreader

Гммм ... Гаразд, Борута здається дуже перспективним, але я завжди скептично ставляться до нових нових алгоритмів, поки не розглядаю їх як частини більшого вивчення і не бачу випадків, коли вони не вдається досягти кращого результату ( немає теореми про безкоштовний обід ).
usεr11852

Цікава ідея, але не пов'язана з логістичною регресією.
Френк Харрелл

"Boruta - це метод вибору функцій, а не метод ранжирування особливостей" Дивіться поширені запитання на домашній сторінці пакета
steadyfish

3

R2 3 ]. Інший популярний підхід - усереднення по порядку замовлень (LMG, 1980) [ 2 ].

R2

Список популярних підходів до ранжування важливості функції в логістичних регресійних моделях:

  1. R2
  2. Адекватність: частка повної ймовірності повного журналу моделі, яка може бути пояснена кожним прогноктором окремо
  3. Відповідність: вказує на здатність моделі розмежувати позитивні та негативні змінні відповіді. Для кожного прогноктора будується окрема модель, і оцінка важливості - це прогнозована ймовірність справжніх позитивних результатів на основі лише цього прогноктора.
  4. Інформаційне значення: Інформаційні значення кількісно оцінюють кількість інформації про результат, отриманий від прогноктора. Він ґрунтується на аналізі кожного прогнозника по черзі, без урахування інших прогнокторів.

Список літератури:

  1. Про вимірювання відносної важливості пояснювальних змінних у логістичній регресії
  2. Відносна важливість лінійних регресорів у R
  3. Відносна важливість і цінність, Баррі Фельдман (метод PMD)

0

Не турбуйтеся. Логістична регресія (LR) дуже може бути класифікаційною схемою. LR мінімізує такі втрати:

хвш,бi=1нжурнал(1+досвід(-уifш,б(хi)))+λш2
хiуiiшбfш,б(хi) . Останній член проблеми мінімізації - це термін регуляризації, який, серед іншого, контролює узагальнення моделі.

хх , досить легко зрозуміти, які змінні важливіші: ті, які більші за інших або (з негативної сторони), менші за інші. Вони найбільше впливають на втрати.

Якщо ви зацікавлені у пошуку змінних, які насправді є важливими, і в процесі цього не проти запустити декілька, ви можете 1

хвш,бi=1нжурнал(1+досвід(-уifш,б(хi)))+λ|ш|

λш

Я сподіваюся, що це допомагає. Задайте питання, чи є у вас додаткові запитання.


4
LR не є класифікаційною схемою. Будь-яке використання класифікації відбувається як крок після підтвердження після визначення функції корисності / вартості. Крім того, ОП не запитувала про пеналізовану максимальну оцінку ймовірності. Для надання доказів щодо відносної важливості змінних в регресії дуже просто використовувати завантажувальну стрічку для отримання меж довіри для рангів доданої прогнозної інформації, що надається кожним прогноктором. Приклад наведений у розділі 4 Стратегії моделювання регресії, чиї онлайн-нотатки та код R доступні на biostat.mc.vanderbilt.edu/RmS#Materials
Frank

4
Проф. Харрелл, будь ласка. Очевидно, що ми до цього підходимо з двох різних сторін. Ви зі статистичної, а я - з машинного навчання. Я поважаю вас, ваше дослідження та вашу кар’єру, але ви дуже вільні сформулювати власну відповідь і дозволити ОП вирішити, який з них він вважає кращою відповіддю на своє питання. Я захоплююсь навчанням, тому, будь ласка, навчіть мене свого підходу, але не змушуйте мене купувати вашу книгу.
pAt84

1
Я лише зазначу, що логістичну регресію розробив статистик Д. Р. Кокс в 1958 році, десятиліттями до того, як існувало машинне навчання. Важливо також зазначити, що "сформульована функція втрати" (краще, можливо, називається об'єктивна функція?), Яку ви сформулювали, не має жодного відношення до класифікації. І що означало для вас, що мої обширні ноти та аудіофайли, доступні в Інтернеті, з усією інформацією, про яку я згадував, коштували чогось?
Френк Харрелл

2
Я підтримав обидва початкові коментарі, оскільки обидва піднімають дійсні бали. Пізніші коментарі трохи нагадують дрібну
сварку

4
PS Намагання більш чіткого способу сказати це, оптимізація прогнозування / оцінки призводить до оптимальних рішень, оскільки функція корисності застосовується на другому кроці і дозволяється не мати зв'язку з предикторами. Оптимізація прогнозування / оцінки не оптимізує класифікацію і навпаки. Оптимізація класифікації означає використання дивної функції утиліти, пристосованої до набору даних та може не застосовуватися до нових наборів даних. Люди, які дійсно хочуть оптимізувати класифікацію (не рекомендується), можуть використовувати метод, який взагалі обходить оцінку / прогнозування.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.