Мультиноміальна логістична регресія проти бінарної логістичної регресії один проти одного


36

Скажімо, у нас є залежна змінна з кількома категоріями та набором незалежних змінних. Y

Які переваги мультиноміальної логістичної регресії перед сукупністю бінарних логістичних регресій (тобто схема «один проти відпочинку» )? Під набором двійкової логістичної регресії я маю на увазі, що для кожної категорії ми будуємо окрему модель бінарної логістичної регресії з цільовою = 1, коли і 0 в іншому випадку.Y = y iyiYY=yi


3
Математично багатомоніальна модель Logit - це сукупність бінарних моделей logit, порівняно з базовою альтернативою. Але оскільки ви зможете збільшити загальні параметри і, можливо, комбінувати деякі інші, MNL завжди буде як мінімум настільки ж ефективним (і, мабуть, тим більше). Я не бачу причин ніколи використовувати серію біноміальних моделей.
gregmacfarlane

2
@gmacfarlane: Я намагався моделювати дані там, де MNL був би кращим, ніж серія двійкових логістичних регресій, але кожен раз у середньому якість була однаковою. Я порівнював діаграми підйому, і після усереднення результатів за кількома моделюваннями вони виглядають майже однаково. Можливо, у вас є ідея, як генерувати дані, щоб MNL перемагав бінарні логістичні регресії? Хоча MNL мала велику перевагу, його результати можна було трактувати як ймовірність.
Томек Тарчинський

Мультиноміальна логістична регресія - це розширення регресії бінарної логіти. Він використовується, коли залежних змінних дослідження є три і вище, тоді як двійковий логит використовується, коли залежних змінних дослідження є дві.

Читачеві: рекомендую починати з відповіді @ julieth і читати ttnphns '. Я думаю, що перший прямо відповідає на початкове запитання, але другий додає цікавого контексту. ttnphns також показує різні функції, які доступні для обох у популярній програмній програмі, яка сама по собі може стати причиною використання однієї над іншою (див. заяву gregmacfarlane).
Бен Огорек

Відповіді:


21

Якщо у більше двох категорій, ваше питання про "перевагу" однієї регресії над іншою, ймовірно, безглуздо, якщо ви прагнете порівняти параметри моделей , оскільки моделі будуть принципово іншими:Y

для кожноїiбінарної логістичноїрегресії, ілогП(i)П(нот i)=логiтi=лiнеаr cомбiнатiонi

для кожногоякатегорія вмножинної логістичноїрегресії,тбути обраний опорний категорію (яг).логП(i)П(r)=логiтi=лiнеаr cомбiнатiонirir

Однак якщо ваша мета полягає лише в тому, щоб передбачити ймовірність кожної категорії, будь-який підхід виправданий, хоча вони можуть дати різні оцінки ймовірності. Формула для оцінки ймовірності є загальною:i

, деi,j,,r- всі категорії , і якщоrбуло обрано еталонним, йогоexp(logП'(i)=ехp(логiтi)ехp(логiтi)+ехp(логiтj)++ехp(логiтr)i,j,,rr . Отже, для двійкової логістики ця сама формула стає P ' ( i ) = e x p ( l o g i t i )ехp(логiт)=1 . Мультиноміальна логістика покладається на (не завжди реалістичне) припущення пронезалежність невідповідних альтернатив,тоді як низка бінарних логістичних прогнозів цього не робить.П'(i)=ехp(логiтi)ехp(логiтi)+1


Окрема тема є те , що технічні відмінності між поліноміальний і бінарної логістичної регресією в разі , коли є дихотомічний . Чи буде різниця в результатах? Більшу частину часу за відсутності коваріатів результати будуть однаковими, все ж існують відмінності в алгоритмах та варіантах виводу. Дозвольте мені лише процитувати довідку SPSS щодо цієї проблеми в SPSS:Y

Моделі бінарної логістичної регресії можна встановити, використовуючи або процедуру логістичної регресії, або процедуру багаточленної логістичної регресії. Кожна процедура має варіанти, недоступні в іншій. Важливим теоретичним відмінністю є те, що процедура логістичної регресії виробляє всі прогнози, залишки, статистику впливу та тести на придатність, використовуючи дані на рівні індивідуального випадку, незалежно від того, як дані вводяться та чи є кількість коваріантних моделей чи ні менше, ніж загальна кількість випадків, в той час як процедура мультиноміальної логістичної регресії внутрішньо агрегує випадки для формування субпопуляцій з однаковими коваріантними зразками для прогнозів, виробляючи прогнози, залишки та тести на корисність на основі цих підгруп.

Логістична регресія надає такі унікальні можливості:

• Тест Хосмера-Лемешоу на придатність моделі

• Покрокові аналізи

• Контрасти для визначення параметризації моделі

• Альтернативні точки відсіку для класифікації

• Класифікаційні сюжети

• Модель, прилаштована на одному наборі кейсів, до витриманого набору шаф

• Зберігає прогнози, залишки та впливає на статистику

Мультиноміальна логістична регресія забезпечує такі унікальні особливості:

• Тест-квадратичні пірсони та відхилення на корисність моделі

• Специфікація підгруп для групування даних для тестів на придатність

• Перерахування підрахунків, прогнозованих підрахунків та залишків за підгрупами

• Виправлення оцінок дисперсії для надмірної дисперсії

• Коваріаційна матриця оцінок параметрів

• Тести лінійних комбінацій параметрів

• Явна специфікація вкладених моделей

• Вмістимо умовно-логістичні регресійні моделі 1-1, які відповідають умовам логістики, використовуючи різні змінні


Я знаю, що ці моделі будуть різними, але я не знаю, яка з них краще в якій ситуації. Я поставлю питання іншим способом. Якщо вам дали завдання: Для кожної людини передбачте ймовірність того, що якась улюблена компанія з мобільних телефонів (припустимо припустити, що кожна з них має улюблену компанію мобільних телефонів). Який із цих методів ви б використали та які переваги перед другим?
Томек Тарчинський

@Tomek я трохи розширив свою відповідь
ttnphns

Хоча я вважаю, що @ julieth's є найкращою відповіддю на початкове запитання ОП, я завдячую вам вступом до припущення незалежності невідповідних альтернатив. Я маю ще одне питання - чи справді це обійти окрема логістика; стаття у Вікіпедії, яку ви посилаєте на згаданий пробіт та "вкладений логіт" як допущення порушення IIA
Бен Огорек

iriir

13

Через назву я припускаю, що «переваги множинної логістичної регресії» означає «багаточленну регресію». Часто є переваги, коли модель підходить одночасно. Ця конкретна ситуація описана в Agresti (Categorical Data Analysis, 2002) pg 273. Підсумовуючи (перефразовуючи Agresti), ви очікуєте, що оцінки спільної моделі будуть іншими, ніж стратифікована модель. Окремі логістичні моделі, як правило, мають більші стандартні помилки, хоча це може бути не так вже й погано, коли найчастіший рівень результату визначається як еталонний рівень.


Спасибі! Я спробую знайти цю книгу, на жаль, google.books надає вміст лише до сторінки 268.
Томек Тарчинський

@TomekTarczynski Я узагальнив відповідну інформацію з абзацу, тож ви не зможете отримати більше інформації, пов’язаної з цим питанням, переглянувши книгу (хоча книга чудова, тому ви отримаєте іншу хорошу інформацію).
липень

4
Цитата з книги Agresti: "Окремо придатні оцінки відрізняються від оцінок ML для одночасного встановлення логітів J-1. Вони менш ефективні, як правило, мають більші стандартні помилки. Однак, Бегг та Грей 1984 показали, що втрата ефективності є незначною, коли базовою є категорія відповідей, що мають найбільшу поширеність. "
Франк Дернонкур
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.