Чи є логістична регресія непараметричним тестом?


15

Нещодавно я отримав таке питання електронною поштою. Я опублікую відповідь нижче, але мені було цікаво почути, що думають інші.

Ви б назвали логістичну регресію непараметричним тестом? Я розумію, що просто маркування тесту непараметричного, оскільки його дані зазвичай не розподіляються, є недостатнім. Це більше стосується браку припущень. Логістична регресія має припущення.


7
(+1) Для запису - і як контрапункту тверджень у питанні - я не знаю жодної надійної посилання, яка б визначала (або навіть характеризує) непараметричні методи як "відсутні припущення". Усі статистичні процедури роблять припущення. Більшість непараметричних процедур насправді роблять обмежувальні кількісні припущення щодо базових розподілів ймовірностей, але ці припущення не звужують можливі стани справ до множини, що має структуру кінцевого розмірного реального множини.
whuber

Якщо ми говоримо про лінійну логістичну регресію (яка, здається, неявна, виходячи з написаної вами відповіді), то, звичайно, це параметрична модель, але варто зазначити, що якщо ви підходите до ефекту коваріату, використовуючи непараметричну гладку функцію, наприклад, то параметричних обмежень щодо оціночної ймовірності як функціїx немає. Це стосується не лише логістичного посилання; така ж логіка застосовується до будь-якої функції зворотного зв'язку.
журнал(П(Yi=1|Хi=х)П(Yi=0|Хi=х))=f(х)
х
Макрос

Я питаю пов'язаний з цим питання тут . Я починаю розуміти, що деякі випадки ГЛМ (наприклад, логістична модель) забезпечують непараметричний тест. Я перегляну книгу Вассермана, хоча (якщо я не згадую) є деякі розбіжності щодо деяких принципів та висновків його роботи.
AdamO

Відповіді:


19

Ларрі Вассерман визначає параметричну модель як набір розподілів, "які можна параметризувати за допомогою кінцевої кількості параметрів". (с.87) На відміну від непараметричної моделі - це набір розподілів, який не можна параметризувати за допомогою кінцевої кількості параметрів.

Таким чином, за цим визначенням стандартна логістична регресія є параметричною моделлю. Модель логістичної регресії є параметричною, оскільки має кінцевий набір параметрів. Зокрема, параметри - це коефіцієнти регресії. Зазвичай вони відповідають одному для кожного прогноктора плюс константа. Логістична регресія - це особлива форма узагальненої лінійної моделі. Зокрема, це передбачає використання функції зв'язку logit для моделювання біноміально розподілених даних.

Цікаво, що можна здійснити непараметричну логістичну регресію (наприклад, Hastie, 1983). Це може включати використання сплайнів або іншої форми непараметричного згладжування для моделювання ефекту прогнозів.

Список літератури

  • Васерман, Л. (2004). Вся статистика: стислий курс статистичного висновку. Springer Verlag.
  • Хасті, Т. (1983). Непараметрична логістична регресія. SLAC PUB-3160, червень.PDF

Модель - це набір розподілів? Щось істотного там не вистачає.
rolando2

Зазвичай задавати питання і відповісти на нього самостійно?

1
@fcop це заохочується. blog.stackoverflow.com/2011/07/…
Джеромі Англім

Добре вибачте, я не знав

Не хвилюйтесь. Для мене головним моментом сайту є створення ресурсів, які інші виявляють, шукаючи відповіді в майбутньому. Надання власних відповідей допомагає у всьому цьому.
Джеромі Англім

16

Я б сказав, що логістична регресія зовсім не є тестом; однак логістична регресія може привести до відсутності тестів або декількох тестів.

Ви цілком вірні, що маркування чогось непараметричного, оскільки це не нормально, є недостатнім. Я б назвав експоненціальну сім'ю явно параметричною, тому я зазвичай розглядаю логістичну регресію (і реамію Пуассона, і гамма-регресію, і ...) як параметричну, хоча можуть бути обставини, за яких я можу прийняти аргумент, що конкретні логістичні регресії можуть вважати непараметричним (або принаймні у розпливчастому хвилястому сенсі, лише квазі- "параметричним").

Остерігайтеся будь-якої плутанини над двома почуттями, при якій регрес можна назвати непараметричним.

хух параметризована коефіцієнтами нахилу та перехоплення.

ух

Використовуються обидва органи чуття, але коли мова йде про регресію, другий вид насправді використовується частіше.

Можливо також бути непараметричним в обох сенсах, але важче (маючи достатньо даних, я міг би, наприклад, встановити локальну зважену лілійну регресію Теїла).

Що стосується ГЛМ, друга форма непараметричної множинної регресії включає ГАМ; ця друга форма - це сенс, в якому Хасті працює, як правило, (і в якому він працює в цій цитаті).


3

Одне корисне відмінність, яке може трохи доповнити відповіді вище: Ендрю Нг дає евристику про те, що означає бути непараметричною моделлю в Лекції 1 з матеріалів курсу для курсу Стенфорда CS-229 з машинного навчання.

Там Нг каже (с. 14-15):

Місцева зважена лінійна регресія - це перший приклад, який ми спостерігаємо непараметричний алгоритм. Алгоритм лінійної регресії (незважений), який ми бачили раніше, відомий як алгоритм параметричного навчання, оскільки він має фіксовану, кінцеву кількість параметрів ( θi's), які відповідають даним. Як тільки ми підходимо доθiі зберігаємо їх подалі, нам більше не потрібно зберігати дані про навчання, щоб робити майбутні прогнози. На противагу цьому, щоб робити прогнози, використовуючи локальну зважену лінійну регресію, нам потрібно тримати весь тренінг. Термін "непараметричний" (приблизно) позначає той факт, що кількість матеріалів, які нам потрібно зберегти, щоб представити гіпотезугод росте лінійно з розміром навчального набору.

Я думаю, що це корисний контрастний спосіб подумати над цим, оскільки він безпосередньо вводить поняття складності. Непараметричні моделі за своєю суттю не менш складні, тому що вони можуть вимагати збереження набагато більшої кількості навчальних даних. Це просто означає, що ви не зменшуєте використання даних про навчання, стискаючи їх в кінцево параметризований розрахунок. Для ефективності або неупередженості або безлічі інших властивостей ви можете параметризувати. Але може бути підвищення продуктивності, якщо ви можете дозволити відмовитися від параметризації та зберегти безліч даних.


0

Я думаю, що логістична регресія - це параметрична методика.

Це може бути корисним з Wolfowitz (1942) [Адитивні функції розділів та клас статистичних гіпотез. Анали математичної статистики, 1942, 13, 247-279]:

“Функції розподілу [примітка: множина !!!] різних стохастичних змінних, які вступають у їх проблеми, вважаються відомими функціональними формами, а теорії оцінки та тестування гіпотез є теоріями оцінки гіпотез і тестування про , один або кілька параметрів, кінцевих за чисельністю, знання яких повністю визначало б різні функції розподілу. Ми розглянемо цю ситуацію для стислості як параметричний випадок і позначимо протилежну ситуацію, коли функціональні форми розподілів невідомі ', як непараметричний випадок.

Крім того, почувши про це досить багато обговорюваного, я вважав це кумедним Нотером (1984) [Nonparametrics: The Early Year-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:

"Термін непараметричний може мати певне історичне значення і значення для теоретичних статистиків, але він служить лише для заплутування прикладних статистиків".


0

Хасті та Тібшірані визначає, що лінійна регресія є параметричним підходом, оскільки передбачає лінійну функціональну форму f (X). Непараметричні методи явно не приймають форму для f (X). Це означає, що непараметричний метод підійде до моделі на основі оцінки f, обчисленої з моделі. Логістична регресія встановлює, що p (x) = Pr (Y = 1 | X = x), де ймовірність обчислюється логістичною функцією, але не передбачається логістична межа, яка розділяє такі класи, що підтверджує, що LR також є непараметричним

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.