Вибір моделі: Логістична регресія


13

Припустимо, маємо коваріатів x 1 , , x n та двійкову змінну результату y . Деякі з цих коваріатів категоричні з декількома рівнями. Інші - безперервні. Як би ви обрали "найкращу" модель? Іншими словами, як ви обираєте, які коваріати включати в модель?nx1,,xny

Чи зможете ви моделювати з кожним з коваріатів окремо, використовуючи просту логістичну регресію і обрали б ті, які мають значну асоціацію?y


1
На додаток до моєї відповіді нижче (або інших, якщо вони з’являться), далі є хороша дискусія щодо вибору моделі (хоча й не зосереджена на логістичному регресії як такої) stats.stackexchange.com/questions/18214/…
gung -

2
Я цитую @jthetzel з недавнього коментаря на цьому сайті: "Хороший запитання, але таке, яке більшість з них навчалося на семестрових університетських курсах, а деякі провели кар'єру, вивчаючи". Це як би сісти з людиною і сказати: "Чи можете ви навчити мене суахілі сьогодні вдень?" Не те, що Гунг не дає хороших балів у своїй відповіді. Це просто величезна територія.
rolando2

2
Це також нитка, яка, хоч і щодо дуже конкретного питання, містить в собі поради, як правило ,: stats.stackexchange.com/questions/17068/… Я також викладу свої думки нижче.
Фоміт

Гаразд, тому я думаю, що я просто використовуватиму AIC як критерій. Повна модель має найнижчий AIC. Також АПК сильно відрізняються один від одного.
Томас

Відповіді:


10

Мабуть, це не дуже добре. Спочатку розглядаючи всі індивідуальні коваріати, а потім будуючи модель із значущими, логічно еквівалентна процедурі автоматичного пошуку. Хоча цей підхід інтуїтивно зрозумілий, умовиводи, зроблені в рамках цієї процедури, недійсні (наприклад, справжні p-значення відрізняються від тих, про які повідомляє програмне забезпечення). Проблема збільшується тим, що більший розмір початкового набору коваріатів. Якщо ви все одно зробите це (і, на жаль, багато людей), ви не можете сприймати отриману модель серйозно. Натомість потрібно провести абсолютно нове дослідження, зібравши незалежний зразок та встановивши попередню модель, щоб перевірити його. Однак для цього потрібно багато ресурсів, і, крім того, оскільки процес є хибним, а попередня модель, ймовірно, погана,витрачати багато ресурсів.

Кращий спосіб - оцінити моделі, що становлять інтерес для вас. Потім використовуйте інформаційний критерій, який карає гнучкість моделі (наприклад, АПК) для вирішення серед цих моделей. Для логістичної регресії AIC дорівнює:

AIC=2×ln(likelihood)+2k

де - кількість коваріатів, включених у цю модель. Ви хочете, щоб модель з найменшим значенням для AIC, при цьому всі рівні. Однак це не завжди так просто; будьте обережні, коли кілька моделей мають подібні значення для AIC, навіть якщо одна може бути найнижчою. k

Я включаю тут повну формулу для AIC, оскільки різні програми виводять різну інформацію. Можливо, вам доведеться обчислити його лише з вірогідності, або ви можете отримати остаточний АПК або щось середнє.


6
Мені подобається AIC, але будьте обережні, що обчислення AIC на більш ніж 2 заздалегідь заданих моделях призводить до проблеми кратності.
Френк Харрелл

1
@FrankHarrell приємна порада!
gung - Відновіть Моніку

9

Є багато способів вибрати, які змінні йдуть в регресійній моделі, деякі пристойні, деякі погані, а деякі жахливі. Можна просто переглянути публікації Сандер Гренландії, багато з яких стосуються варіативного вибору.

Взагалі кажучи, у мене є кілька загальних "правил":

  • Автоматизовані алгоритми, як і ті, що постачаються в програмних пакетах, ймовірно, погана ідея.
  • Використання моделей діагностики, як пропонує Гунг, є хорошим засобом оцінювання варіантів вибору
  • Вам також слід використовувати комбінацію предметних знань, шукачів літератури, спрямованих ациклічних графіків тощо, щоб повідомити про свій вибір варіантів вибору.

3
Власне кажучи, особливо пункти 1 і 3. Методи діагностики моделей можуть призвести до невдалого збереження помилки типу I
Френк Харрелл

3
Добре поставив @Epigrad. Я хотів би додати ще один момент. Автоматизовані алгоритми стають дуже привабливими, коли ваша проблема стає великою. Вони можуть бути єдиним здійсненним способом вибору моделі в деяких випадках. Зараз люди аналізують величезні набори даних з 1000-ма потенційними змінними та мільйонами спостережень. Яким є досвід предмета в 1000-мірній інтуїції? І ви виявите, що навіть якщо ви це зробите вручну (тобто з аналітиком), вони, швидше за все, створять деякі скорочені правила вибору змінних. Важка частина дійсно кодує цей вибір.
ймовірністьлогічний

1
@probabilityislogic Я би погодився з цим. Чесно кажучи, я думаю, що традиційні методи погано підходять для дуже великих наборів даних, але тенденція повернутися до більш придатних методів мене насторожує. Якщо автоматизований алгоритм може змістити набір даних з 10 змінних, немає причини, що він не може змістити одну з 10000. Поточний акцент на здобутті великих даних над його аналізом у деяких частинах робить мене дещо непристойним.
Фоміт

2
@probabilityislogic У глибокому іронічному повороті я зараз опиняюся, що працюю з набором даних з більш ніж 10-
ма тисячами

2

Як би ви обрали "найкращу" модель?

Для відповіді на це питання недостатньо інформації; якщо ви хочете отримати причинні впливу на у вам необхідно реалізувати регресії , які відображають те , що відомо про змішання. Якщо ви хочете зробити прогнозування, AIC був би розумним підходом.

Ці підходи неоднакові; контекст визначатиме, який із (багатьох) способів вибору змінних буде більш / менш відповідним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.