Важливість змінних у логістичній регресії


11

Я, мабуть, маю справу з проблемою, яка, ймовірно, була вирішена сто разів раніше, але я не знаю, де знайти відповідь.

Використовуючи логістичну регресію, враховуючи багато функцій і намагаючись передбачити двійкове категоричне значення , мені цікаво вибрати підмножину функцій, яка прогнозує добре.x1,...,xnyyy

Чи існує процедура, схожа на ласо, яку можна використовувати? (Я бачив лише ласо, що використовується для лінійної регресії.)

Чи дивиться на коефіцієнти приталеної моделі вказівку на важливість різних ознак?

Редагувати - Уточнення після ознайомлення з деякими відповідями:

  1. Коли я маю на увазі величину пристосованих коефіцієнтів, я маю на увазі ті, які підходять до нормалізованих (середнє значення 0 та дисперсія 1) ознак. Інакше, як зазначає @probabilityislogic, 1000x виявиться менш важливим, ніж x.

  2. Мені не цікаво просто знайти найкращий k-підмножину (як пропонував @Davide), а скоріше зважувати важливість різних функцій відносно один одного. Наприклад, одна особливість може бути "вік", а інша особливість "вік> 30". Їх додаткове значення може бути невеликим, але обидва можуть бути важливими.

Відповіді:


8

Відповідь DWin пропонує відповідь, але мало розуміння, тому я подумав, що може бути корисним дати пояснення.

Якщо у вас є два класи, ви в основному намагаєтесь оцінити . Це все, що вам потрібно, і модель логістичної регресії передбачає, що:p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

Я вважаю, що ви маєте на увазі важливість функції , як вона впливає на або іншими словами, що таке .p pjppxij

Після невеликої трансформації ви можете це побачити

p=eβ0+β1Txi1+eβ0+β1Txi .

Як тільки ви порахуєте свою похідну, ви побачите це

pxij=βjeβ0+β1Txi

Це явно залежить від значення всіх інших змінних. Однак ви можете зауважити, що коефіцієнт SIGN можна інтерпретувати так, як вам потрібно: якщо він від'ємний, то ця ознака зменшує ймовірність p.

Тепер у вашій процедурі оцінювання ви намагаєтеся оцінити s, вважаючи, що ваша модель правильна. За допомогою регуляризації ви вводите деякі упередження в ці оцінки. Для регресії хребта та незалежних змінних можна отримати рішення закритої форми:β

βr^=β^β^+λ .

Як ви бачите, це може змінити знак вашого коефіцієнта, так що навіть інтерпретація розірветься.


1
помилка в знаменнику eq1?
Фернандо

7

Відповідь на ваше останнє запитання - це рівний НІ. Величина коефіцієнтів жодним чином не є мірою важливою. Ласо може використовуватися для логістичної регресії. Ви повинні вивчити цю область ретельніше. Методи, які потрібно вивчити, - це ті, що передбачають "покарані" методи. Якщо ви шукаєте способи виявлення, які розкривають «тіньові» прогноктори, термін, який десь може бути визначений, але не використовується загалом, тоді вам потрібно шукати методи, які перевірять взаємодію та нелінійну структуру в просторі передбачувача та підключення результатів до цього простору. У тексті Френка Гаррелла "Стратегії моделювання регресії" досить багато обговорюється цих питань та методів.

Відстала стратегія вибору не дасть дійсних результатів (хоча вона і дає результати). Якщо ви подивилися на випадок з 20 випадкових провісників на 100 подій, ви, ймовірно, знайдете 2 або 3, які будуть відібрані в процесі зворотного відбору. Поширеність відсталого вибору в реальному світі відображає не ретельну статистичну думку, а швидше його доступність у SAS та SPSS та недостатню складність бази користувачів цих продуктів. База користувачів R має більш важкий доступ до таких методів та користувачів, які розміщують запити у списках розсилки, і тому вони, як правило, отримують інформацію про проблеми, пов'язані із зворотним (або вперед) методом вибору.


1
Я знаю, що повинен - ​​я дуже вдячний деяким вказівкам щодо того, з чого почати.
Хлопець Адіні

Я додам приклад, щоб створити резервну копію цього. Припустимо, ми встановимо . Тоді (непеналізований) розрахунковий коефіцієнт для буде в разів меншим, ніж (непеналізований) розрахунковий коефіцієнт для . Але зауважте, що сила двох прогнозів буде точно однаковою. x n + 1 1000 x 1xn+1=1000x1xn+11000x1
ймовірністьлогічний

Будь ласка, дивіться мої коментарі вище (використовуючи нормалізовані функції). Дякую.
Хлопець Адіні

Дякую. Я розберуся в цьому. Чи можете ви назвати декілька загальних алгоритмів, які використовуються в цій "перевірці взаємодій та нелінійної структури в просторі передбачувача", або це ситуація в кожному конкретному випадку?
Хлопець Адіні

Можна використовувати сплайси регресії для пошуку нелінійності, а терміни сплайну можуть бути «перекреслені», що дозволяє ідентифікувати ефекти, обмежені однією областю двовимірного простору прогнозування. Також можна використовувати локальні методи регресії. У R найбільш поширеним методом локальної регресії є, мабуть, пакет 'mgcv', але старий пакет 'locfit' все ще доступний.
DWin

-4

Англійська мова не є моєю рідною мовою, тому я, можливо, не зрозумів, у чому полягає ваша проблема, але якщо вам потрібно знайти найкращу модель, ви можете спробувати скористатися зворотною процедурою (і, зрештою, додати наміри), починаючи з моделі з усіма коваріатами. Потім ви можете переглянути як залишкові значення і прогнозовані значення, так і графіки qq-графіку, щоб перевірити, чи добре модель описує ваше явище


Дякую! Я думаю, що те, що ви пропонуєте, поступово додає найбільш корельовану функцію. Це має сенс, але не допомагає мені зрозуміти "на скільки" функція A важливіша, ніж функція B. Наприклад, припустимо, що у мене є одна особливість x, а інша особливість x + <невеликий шум>. Тоді обидва - це фактично корисні функції, але одна затінена іншою. Я хочу, щоб метод, який також показав би значення x + <noise>, був важливим.
Хлопець Адіні

Ні, зворотна процедура починається з моделі з усіма коваріатами, а потім видаляється коваріат (чий коефіцієнт не є значущим) поетапно (поки зазвичай у вас є модель зі значними коефіцієнтами, як правило). Я думаю, є більш складні способи досягнення тієї ж мети, але я просто студент бакалавра!
Девід
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.