Регресія Пуассона з великими даними: чи неправильно змінювати одиницю вимірювання?


17

Через факториальне розподіл пуассона стає недоцільним оцінювати пуассонові моделі (наприклад, використовуючи максимальну ймовірність), коли спостереження великі. Так, наприклад, якщо я намагаюся оцінити модель, щоб пояснити кількість самогубств за певний рік (доступні лише щорічні дані), і скажу, що тисячі самогубств щороку є, чи неправильно виражати самогубства в сотні , щоб 2998 було 29,98 ~ = 30? Іншими словами, чи неправильно змінювати одиницю вимірювання, щоб зробити дані керованими?

Відповіді:


15

Коли ви маєте справу з розподілом Пуассона з великими значеннями \ lambda (його параметр), звичайно використовувати нормальне наближення до розподілу Пуассона.

Як згадується на цьому веб-сайті , нормально використовувати нормальне наближення, коли \ lambda отримує більше 20, а наближення покращується, коли \ lambda стає ще вище.

Розподіл Пуассона визначається лише в просторі стану, що складається з невід’ємних цілих чисел, тому масштабування та округлення збираються внести у ваші дані непарні речі.

Використовуючи звичайний прибл. для великих статистичних даних Пуассона ДУЖЕ поширений.


6

У випадку Пуассона це погано, оскільки рахунки - це їхня одиниця. З іншого боку, якщо ви використовуватимете таке передове програмне забезпечення, як R, його функції обробки Пуассона знають про таку велику кількість і використовуватимуть численні хитрощі для їх поводження.

Очевидно, я згоден, що нормальне наближення - це ще один хороший підхід.


3

Більшість статистичних пакетів мають функцію безпосередньо обчислювати природний логарифм факторіалу (наприклад, функція lfactorial () в R, функція lnfactorial () у Stata). Це дозволяє включити постійний термін у вірогідність журналу, якщо ви хочете.


Крім того, n!= Gamma(n+1)для n> = 0. Тож спробуйте шукати функцію, яку називають, Gammaякщо вам потрібно обчислити факторіал (або ввести Гамма, якщо ви обчислюєте ймовірність журналу)
Андре Хольцнер

3

Боюся, ти не можеш цього зробити. Як заявляє @Baltimark, при великій лямбда розподіл буде мати більш нормальну форму (симетричний), а при зменшенні його розміру більше не буде пуассоновим розподілом. Спробуйте наступний код у R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Результат нижче:

введіть тут опис зображення

Видно, що зменшений розмір пуассона (червона лінія) абсолютно відрізняється від розподілу пуассона.


1

Ви можете просто ігнорувати "факторіал", використовуючи максимальну ймовірність. Ось міркування вашого прикладу самогубств. Дозволяти:

λ: Будьте очікуваною кількістю самогубств на рік

k i : Будьте кількістю самогубств у i році.

Тоді ви максимізуєте ймовірність журналу як:

LL = ∑ (k i log (λ) - λ - k i !)

Максимізація зазначеного вище еквівалентна максимізації наступних як k i ! є константою:

LL ' = ∑ (k i log (λ) - λ)

Чи могли б ви пояснити, чому фабрика є проблемою? Я щось пропускаю?


Ви нічого не пропускаєте, якщо все, що ви намагаєтеся зробити, це оцінити параметр з набору спостережень. Це, безумовно, була головною ідеєю питання щодо ОП. Однак вона також запитувала загалом (якщо не жорстко) "як оцінити пуассонові моделі". Можливо, вона хоче дізнатися значення pdf в певний момент. У цьому випадку нормальна прибл. це, мабуть, буде краще, ніж масштабування параметра, а спостереження на 100 чи що завгодно, якщо спостереження є досить великими, щоб зробити обчислення факторіальним недоцільним.
Балтимарк

1
@Srikant, ви праві, оцінювати параметри факторіалу не є проблемою, але в цілому ви хочете значення ймовірності для даної моделі, і вам доведеться використовувати для цього факториал. Також для тестування гіпотез (наприклад, тест на коефіцієнт ймовірності) вам знадобиться значення ймовірності.
Vivi

@Baltimark: так, я хочу взагалі знати, чи справедливо змінювати одиницю вимірювання Пуассона. Мені було задано це питання, і я не знав, що сказати.
Vivi

@Vivi: Я не впевнений, чому ви хочете обчислити ймовірність k_i! включена як у більшості застосувань (наприклад, тест на коефіцієнт ймовірності, байесовская оцінка), константа не має значення. У будь-якому випадку, я не думаю, що ви можете змінити масштаб, як ви запропонували. Якщо я відчуваю інакше, я оновлю свою відповідь.

@Srikant, я бачу вашу думку, але деякі програмні засоби (наприклад, перегляди, наприклад) включають це за замовчуванням, і велика кількість - це вам подобається чи ні. Я здогадуюсь, я справді роз'яснював, чому ти можеш чи не можеш це зробити, а не спосіб її обійтися, але все-таки дискусія була цікавою та повчальною :)
Vivi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.