Логістична регресія - термін помилок та її розповсюдження


31

Про те, чи існує термін помилки в логістичній регресії (та її припущеному розподілі), я читав у різних місцях, що:

  1. термін помилки не існує
  2. термін помилки має біноміальний розподіл (відповідно до розподілу змінної відповіді)
  3. термін помилки має логістичний розподіл

Може хтось, будь ласка, уточнить?


6
З логістичною регресією - або, взагалі, загальноприйнятими глобальними технологіями - зазвичай не корисно думати з точки зору спостереження як "середню + помилку". Краще думати з точки зору умовного розподілу. Я б не пішов так далеко, щоб сказати, що "термін помилки не існує", оскільки "просто не корисно думати в цих термінах". Тому я б не так багато говорив, що це вибір між 1. або 2. Як я б сказав, що взагалі краще сказати "нічого з вищезазначеного". Однак незалежно від ступеня, на яку можна стверджувати "1". або "2.", хоча "3." однозначно неправильно. Де ти це бачив? yi|x
Glen_b -Встановіть Моніку

1
@Glen_b: Чи можна заперечити (2)? Я знав, що люди це говорять, але ніколи не захищають його, коли це допитують.
Scortchi

3
@Glen_b Усі три твердження мають конструктивні тлумачення, в яких вони правдиві. (3) адресується на веб-сайті en.wikipedia.org/wiki/Logistic_distribution#Applications та en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber

@whuber: я виправив свою відповідь wrt (3), яка була недостатньо продумана; але все ще спантеличено, у якому сенсі (2) може бути правильним.
Scortchi

2
@Scortchi Хоча ви праві, що (2) є невірним, якщо ми трактуємо це так, що різниця між спостереженням та його очікуванням має біноміальне розподіл, переведене на очікування , то це буде (тривіально) правильним. Думка в дужках у (2) настійно говорить про те, що це тлумачення. Зауважте, що можуть бути визначені й інші корисні "терміни помилки", такі як та умови помилки відхилення, описані в Hosmer & Lemeshow (і, за умови відповідних застережень, обговорених там, їхні квадрати мають приблизний розподіл) . χ 2χ2χ2
whuber

Відповіді:


25

У лінійних регресійних спостереженнях передбачається, що слід розподіл Гаусса із середнім параметром, обумовленим значеннями предиктора. Якщо відняти середнє значення зі спостережень, ви отримаєте помилку : розподіл Гаусса із середнім нулем та незалежний від значень прогноктора - тобто помилки в будь-якому наборі значень прогноктора слідують за тим самим розподілом.

У логістичних регресійних спостереженнях передбачається, що слід розподіл Бернуллі із середнім параметром (вірогідністю), що обумовлюється значеннями прогноктора. Отже, для будь-яких заданих значень прогноктора, що визначають середнє значення існують лише дві можливі помилки: що виникають з ймовірністю , і що виникають з вірогідністю . Для інших значень предиктора помилки будуть що виникають з ймовірністю , і виникають з вірогідністюπ 1 - π π 0 - π 1 - π 1 - π π 0 - π 1 - π y{0,1}π1ππ0π1π1ππ0π1π. Таким чином, немає загального розподілу помилок, незалежного від значень предиктора, саме тому люди кажуть "немає терміна помилки" (1).

"Термін помилки має біноміальне розподіл" (2) - це просто неохайність - "Гауссові моделі мають гауссові помилки, ерго біноміальні моделі мають біноміальну помилку". (Або, як зазначає @whuber, це може означати "різниця між спостереженням і його очікуванням має біноміальне розподіл, переведене на очікування".)

"Термін помилки має логістичний розподіл" (3) виникає при виведенні логістичної регресії з моделі, де ви спостерігаєте, перевищує чи приховану змінну з помилками після логістичного розподілу деякий поріг. Отже, це не та сама помилка, яка визначена вище. (Здавалося б, дивна річ сказати IMO поза цим контекстом або без явного посилання на приховану змінну.)

† Якщо у вас є спостережень з однаковими значеннями предиктора, що дають однакову ймовірність для кожного, то їх сумаπ ykπy слід двочленному розподілу з ймовірністю та ні. випробування k . Враховуючи y - k π, оскільки помилка призводить до тих же висновків.πkykπ


1
Чи можете ви навести простий приклад щодо частини "термін помилки не існує". У мене виникають труднощі зрозуміти це так, як це написано.
quirik

@Scortchi У мене виникають проблеми, якщо слідкувати за тим випадком, коли на практиці модель використовується з деяким порогом, скажімо, 0,5. Тоді помилка дорівнює 1 або 0. Чи може це вважати випадковою змінною Бернуллі з параметром 1- коли справжня мітка дорівнює 1? π
Вабіт


9

Для мене об'єднання логістичної, лінійної, пуассонової регресії тощо ... завжди було в частині конкретизації середнього рівня та дисперсії в рамках Узагальненої лінійної моделі. Почнемо з вказівки розподілу ймовірності для наших даних, нормальної для безперервних даних, Бернуллі для дихотомічних, Пуассона для підрахунків тощо тощо. Потім ми визначаємо функцію посилання, яка описує, як середнє значення пов’язане з лінійним предиктором:

g(μi)=α+xiTβ

g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

Єдине, що можна було б врахувати з точки зору написання терміна про помилку, - це зазначити:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

ei


0
  1. Немає помилок. Ми моделюємо середину! Середнє значення - просто справжнє число.
  2. Це не має для мене сенсу.
  3. Розгляньте змінну відповіді як приховану змінну. Якщо ви вважаєте, що термін помилки зазвичай розподіляється, то модель стає пробітною моделлю. Якщо ви вважаєте, що розподіл терміна помилки є логістичним, то модель є логістичною регресією.

2
Я не бачу, як це допомагає зрозуміти модель ймовірності. Моделі ймовірності простіші, ніж це здається.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.