Чи завжди функція logit найкраща для регресійного моделювання бінарних даних?


15

Я думав над цією проблемою. Звичайною логістичною функцією для моделювання двійкових даних є: Однак чи завжди найкраща для моделювання даних функція logit, що являє собою S-подібну криву? Можливо, у вас є підстави вважати, що ваші дані не відповідають звичайній S-подібній кривій, а іншому типу кривої з доменом(0,1).

журнал(p1-p)=β0+β1Х1+β2Х2+
(0,1)

Чи є якісь дослідження цього? Можливо, ви можете моделювати його як функцію пробіта чи щось подібне, але що робити, якщо це щось інше цілком? Чи може це призвести до кращої оцінки наслідків? У мене була думка, і мені цікаво, чи є в цьому дослідження.



2
@macro Я не думаю, що це точний дублікат. Це питання стосується просто logit та probit; цей запитує і інших альтернатив.
Пітер Флом - Відновити Моніку

Я голосую, щоб залишити це відкритим. Основна відмінність, яку я бачу, полягає в тому, що цей Q вимагає дослідження статистики на тему різних можливих функцій зв'язку. Це тонка різниця, але її може вистачити. @Glen, ви можете переглянути інший Q, якщо ви його ще не бачили. У своїй відповіді я говорю про різні можливі посилання. Якщо ви вважаєте, що цей Q насправді не відрізняється, позначте його і модники можуть його закрити; якщо ви можете придумати спосіб зробити розрізнення b / t того, про що ви просите, і того Q, ясніше, ви можете змінити його.
gung - Відновіть Моніку

Я знаю, що це не точний дублікат питання Logit vs. Напевно, є й інші тісно пов'язані теми, але це перше, що прийшло в голову.
Макрос

Дякуємо за коментарі. Я вважаю, що моє питання відрізняється від попереднього. Я дуже добре знайомий з перетвореннями probit та log-log, і обговорення з попереднього питання було для мене дуже інформативним. Однак мене цікавлять інші функції зв’язку (можливо, непараметричні?), Які можливі в ситуації, в якій ви можете або не можете знати, що крива ймовірності слідує за іншим розподілом. Я думаю, що коли взаємодія між коваріатами, це може зіграти важливу роль. @David J. Harris відповідь також корисна ...
Глен

Відповіді:


15

Люди використовують всілякі функції, щоб зберігати свої дані від 0 до 1. Коефіцієнти журналу випадають природним чином з математики, коли ви отримуєте модель (це називається "канонічна функція зв'язку"), але ви абсолютно вільні експериментувати з інші альтернативи.

t

ttt7

Сподіваюсь, це допомагає.

Відредаговано, щоб додати : Дискусія з посиланням на @Macro справді відмінна. Я дуже рекомендую прочитати його, якщо вас цікавить детальніше.


Питання стосується конкретно "бінарних даних" - не про даних, що знаходяться між 0 і 1. Модель probit не має теоретичного обгрунтування у випадку двійкових даних.
Ніл Г

3
@NeilG, одна з причин використання пробіт-моделі полягає в тому, що вона дає зручний спосіб моделювання багатоваріантних двійкових даних (наприклад, зі змішаною моделлю) у якості порогових норм. У цьому випадку кореляційна матриця основних змінних є статистично невизначеною, тоді як вона не є логістичною. Там трохи більше обговорення тут .
Макрос

@Macro: О, бачу. Це дуже цікаво, дякую.
Ніл Г

@David J.Harris: Ви маєте на увазі квінтіль (або, можливо, квантил має таке ж значення), тобто розбиття розподілу на шматки п'ятих: 20%, 40%, .., 100%?
MSIS

1
@MSIS квінтіль ділиться на п'яті, процентиль ділиться на 100-ти, а четвертик ділиться на довільні одиниці. Див. En.wikipedia.org/wiki/Quantile#Specialized_quantiles
Девід Дж. Гарріс,

11

Я не бачу жодної причини, апріорі, чому відповідною функцією зв'язку для даного набору даних повинен бути logit (хоча Всесвіт взагалі здається нам досить добрим). Я не знаю, чи це саме те, що ви шукаєте, але ось деякі статті, в яких обговорюються більш екзотичні функції посилань:

Розкриття: Я не знаю цього матеріалу добре. Я спробував поспішати з Каухітом і Скобітом пару років тому, але мій код не вийшов з ладу (можливо, тому, що я не великий програміст), і це не здалося актуальним для проекту, над яким я працював, тому відмовився від нього .

X


4

Найкраща стратегія - моделювати дані з урахуванням того, що відбувається (Не дивно!)

  • Моделі пробіту походять з досліджень LD50 - вам потрібна доза інсектициду, яка вбиває половину помилок. Двійкова відповідь - чи живе або помирає клоп (при певній дозі). Клопи, які чутливі при одній дозі, будуть сприйнятливі і в менших дозах, саме звідси ідея моделювання до кумулятивної Нормальної.
  • Якщо бінарні спостереження надходять у кластери, ви можете використовувати бета-біноміальну модель. Бен Болкер добре знайомиться з документацією свого пакету bbmle (в R), який реалізує це у простих випадках. Ці моделі дозволяють більше контролювати зміну даних, ніж те, що ви отримуєте при двочленному розподілі.
  • Багатоваріантні двійкові дані - сортування, що згортається в багатовимірні таблиці надзвичайних ситуацій - можна проаналізувати за допомогою лінійної журнальної моделі. Функція зв'язку - це журнал, а не коефіцієнт журналу. Деякі люди називають це Пуассоновою регресією.

Напевно, не існує досліджень таких моделей як таких, хоча було проведено багато досліджень будь-якої з цих моделей, порівнянь між ними та різних способів їх оцінки. Те, що ви знайдете в літературі, полягає в тому, що деякий час відбувається велика активність, оскільки дослідники розглядають ряд варіантів певного класу проблем, і тоді один метод виявляється вищим.


+1 для бета-бінома. Це чудовий інструмент, який можна мати в панелі інструментів.
Девід Дж. Харріс

3

Logit - така модель, що вхідні дані є продуктом експертів, кожен з яких є розподілом Бернуллі. Іншими словами, якщо ви вважаєте, що всі входи є незалежними розподілами Бернуллі з вірогідністюpi докази яких об'єднані, ви побачите, що ви додаєте логістичну функцію, застосовану до кожного з piс. (Інший спосіб сказати те саме, що перетворення від параметризації очікування до природної параметризації розподілу Бернуллі є логістичною функцією.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.