Я розумію, що для певних наборів даних, таких як голосування, вона працює краще. Чому регресія Пуассона застосовується над звичайною лінійною регресією чи логістичною регресією? Яка математична мотивація для цього?
Я розумію, що для певних наборів даних, таких як голосування, вона працює краще. Чому регресія Пуассона застосовується над звичайною лінійною регресією чи логістичною регресією? Яка математична мотивація для цього?
Відповіді:
Розподілені дані Пуассона мають цілочисельну цінність, що має сенс для підрахунку даних. Звичайні найменші квадрати (OLS, які ви називаєте "лінійною регресією") передбачають, що справжні значення зазвичай розподіляються навколо очікуваного значення і можуть приймати будь-яке реальне значення, позитивне чи негативне, ціле чи дробове, незалежно від того. Нарешті, логістична регресія працює лише для даних, що мають значення 0-1 (TRUE-FALSE), як "має хворобу" проти "не має захворювання". Таким чином, розподіл Пуассона має найбільш сенс для підрахунку даних.
Однак, звичайний розподіл часто є досить хорошим наближенням до Пуассона для даних із середнім значенням вище 30 або більше. І в рамках регресії, де у вас є прогнози, які впливають на кількість, OLS з його нормальним розподілом може бути легше вписатися і насправді буде більш загальним, оскільки розподіл і регресія Пуассона передбачають, що середнє значення та дисперсія рівні, тоді як OLS можна мати справу з неоднаковими засобами та дисперсіями - наприклад, для моделі підрахунку даних з різними засобами та відхиленнями, наприклад, можна використати негативний біноміальний розподіл .
По суті, це тому, що лінійна та логістична регресія роблять неправильні припущення щодо того, як виглядають результати підрахунку. Уявіть свою модель як дуже дурного робота, який буде безжально виконувати ваші замовлення, якими б безглуздими не були ці замовлення; їй повністю бракує можливості оцінити те, що ви йому скажете. Якщо ви скажете своєму роботу, що щось на кшталт голосів розподіляється постійно від негативної нескінченності до нескінченності, саме так він вважає, що голоси є, і це може дати вам безглузді прогнози (Росс Перо отримає -10,469 голосів на майбутніх виборах).
І навпаки, розподіл Пуассона дискретний і позитивний (або нуль ... нуль вважається позитивним, так?). Як мінімум, це змусить вашого робота дати вам відповіді, що насправді може статися в реальному житті. Вони можуть бути або не бути хорошими відповідями, але вони будуть принаймні виведені з можливого набору "кількості поданих голосів".
Звичайно, у Пуассона є свої проблеми: він передбачає, що середнє значення змінної підрахунку голосів також буде таким же, як і його відхилення. Я не знаю, чи коли-небудь насправді бачив не надуманий приклад, де це було правдою. На щастя, яскраві люди придумали інші розподіли, які також є позитивними та дискретними, але додають параметри, щоб дозволити відхилення, er, змінюватись (наприклад, негативна біноміальна регресія).
За допомогою цього методу максимальної ймовірності та узагальнених лінійних моделей (або якогось іншого методу) ви доходите до регресії Пуассона .
Простіше кажучи, Пуассонова регресія - це модель, яка відповідає припущенням базового випадкового процесу, що генерує невелику кількість подій зі швидкістю (тобто числом за одиницю часу), визначеною іншими змінними в моделі.
Інші в основному сказали те саме, що я збираюся, але я подумав, що я додам свою думку. Це залежить від того, що ви робите саме, але багато разів ми любимо концептуалізувати проблему / дані. Це дещо інший підхід порівняно з просто побудовою моделі, яка прогнозує досить добре. Якщо ми намагаємося концептуалізувати, що відбувається, має сенс моделювати дані для підрахунку, використовуючи невід'ємний розподіл, який лише ставить масу на цілі значення. У нас також є багато результатів, які по суті зводиться до того, що за певних умов підрахувати дані насправді єпоширюється у вигляді отрути. Отже, якщо наша мета - концептуалізація проблеми, насправді має сенс використовувати пуассон як змінну відповіді. Інші вказали на інші причини, чому це гарна ідея, але якщо ви насправді намагаєтеся осмислити проблему і дійсно розумієте, як дані, які ви бачите, могли бути створені, то за допомогою пуассонової регресії має багато сенсу в деяких ситуаціях.
Моє розуміння насамперед тому, що підрахунки завжди позитивні та дискретні, Пуассон може узагальнити такі дані за одним параметром. Основна уловка полягає в тому, що дисперсія дорівнює середній.