Як перевірити, чи відповідає зразок даних сімейству розповсюдження Gamma?


13

У мене є вибірка даних, яка була сформована з безперервної випадкової величини X. А з гістограми я малюю за допомогою R, я здогадуюсь, що, можливо, розподіл X підпорядковується певному гамма-розподілу. Але я не знаю точних параметрів цього розподілу Gamma.

Моє запитання - як перевірити, чи належить розподіл X до сімейства гамма-розподілів? Існує певна користь придатних тестів, таких як тест Колмогорова-Смірнова, тест Андерсона-Дарлінга тощо, але одне із обмежень при використанні цих тестів полягає в тому, що параметри теоретичного розподілу слід знати заздалегідь. Хто-небудь, будь ласка, скажіть мені, як вирішити цю проблему?


Можливо, мені чогось не вистачає, але якщо ви вже знаєте тест на тестування придатності розподілу, і все, що вам потрібно знати, - це значення теоретичного розподілу, то ви можете просто використовувати максимальні оцінювачі ймовірності параметрів гами розподіл ваших даних для отримання оцінок параметрів. Потім ви можете використовувати ці оцінки для визначення теоретичного розподілу у своєму тесті.
Давид

Девід, дякую за вашу відповідь. Відповідь - це теж те, про що я думав, але я не впевнений, чи є якісь теорії, які можуть підтримати цю ідею, чи можете ви відповісти на мене?
user8363

Якщо ви використовуєте R, вам може бути цікаво переглянути пакет fitdistrplus , в якому є можливість робити такі речі.
gung - Відновіть Моніку

Відповіді:


8

Я думаю, що питання вимагає точного статистичного тестування, а не для порівняння гістограми. При використанні тесту Колмогорова-Смірнова з розрахунковими параметрами розподіл статистики тесту під нулем залежить від тестованого розподілу, на відміну від випадку, коли немає оціночного параметра. Наприклад, використовуючи (в R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

веде до

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

поки ми отримуємо

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

для того ж зразка x. Рівень значущості або p-значення, таким чином, повинен визначатися за допомогою моделювання Монте-Карло під нульовим рівнем, що виробляє розподіл статистики Колмогорова-Смірнова за зразками, змодельованими під розрахунковим розподілом (з невеликим наближенням у результаті, враховуючи, що спостерігається зразок походить від іншого розповсюдження, навіть під нульовим).


1
(+1) Я не розумію, чому правильно моделювати зразки під розрахунковим розподілом. Я б подумав, що нам потрібні попередні параметри та вибірка з усіх можливих розподілів ... чи можете ви пояснити трохи більше?
Елвіс

1
Сіань, твоя відповідь - саме те, про що я хвилювався. Ви маєте на увазі, що "Використовуючи тест Колмогорова-Смірнова з розрахунковими параметрами, розподіл тестової статистики під нулем залежить від перевіреного розподілу". Однак ми не знаємо розподілу X, точніше, не знаємо параметр розподілу X під нульовою гіпотезою, отже, розподіл тестової статистики, тому ми використовуємо monte carlo. Чи були б у вас інші способи її вирішення, не використовуючи Монте Карло для отримання значення Р? Дякую
user8363

Враховувати той факт, що "спостережуваний зразок походить від іншого розподілу навіть під нульовим", чи не було б доцільним завантажувати вибірку, переоцінюючи параметри в кожній репліку?
Елвіс

1
@Elvis (1): це класична статистика, а не байесівське вирішення проблеми корисності. Для розподілів з параметрами масштабного розташування вибір параметрів, що використовуються для імітації імітованих вибірок, значення не має.
Сіань

1
@Elvis (2): Знову щось, що я щойно обговорював зі своїми студентами! Bootstrap допоможе оцінити поведінку відстані Колмогорова-Смірнова за правдивим розподілом даних, а не під нулем! Принцип Фішера-Неймана-Пірсона полягає в тому, що важливим є поведінка відстані Колмогорова-Смірнова під нулем, так що вона відхиляється, якщо спостережувана відстань є занадто екстремальним wrt, це розподіл під нуль.
Сіань

4

Обчисліть MLE параметрів, що передбачають розподіл гами для ваших даних, і порівняйте теоретичну щільність з гістограмою ваших даних. Якщо вони сильно відрізняються, розподіл гамми є поганим наближенням ваших даних. Для формального тесту ви могли б обчислити, наприклад, статистику тесту Колмогорова-Смірнофа, порівнюючи найкращий примірний розподіл гами з емпіричним розподілом і тест на значимість.


3
+1, це тверда відповідь. Однак я б запропонував вивчити qq-графік проти теоретичної гамми, а не гістограми - це буде простіше оцінити відхилення.
gung - Відновіть Моніку

1
Проблема полягає в тому, що тест KS передбачає, що теоретичний розподіл повинен бути заданий заздалегідь, а не оцінений з даних. Сіань (частково) відповів на це питання ...
Елвіс

ви маєте на увазі, що ми спочатку використовуємо цей зразок даних для отримання оцінювача MLS та використовуємо значення оцінювача MLS у розподілі Gamma, а потім порівнюємо дані з розподілом Gamma (із оціночним параметром) за допомогою тесту KS?
user8363

Елвісе, скажіть, будь ласка, як вирішити проблему, коли параметр теоретичного розподілу невідомий і його потрібно оцінити. У цьому випадку, як можна використовувати тест KS, щоб отримати порівняно точне судження про гіпотезу, дякую!
user8363

1
@Elvis: Я не думаю, що точне виведення можливе у випадку розподілу гами. Сам PDF не доступний у закритому вигляді. Далі, той факт, що параметр фігури не є ні масштабом, ні розташуванням, означає, що для кожного значення параметра фігури є різний розподіл ...
Сіань
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.