Способи встановлення дискретних розподілів
Існує три основні методи *, що застосовуються для підгонки (оцінки параметрів) дискретних розподілів.
Це знаходить значення параметрів, які дають найкращі шанси надати ваш зразок (враховуючи інші припущення, такі як незалежність, постійні параметри тощо)
Це знаходить значення параметрів, завдяки яким перші кілька моментів популяції відповідають вашим зразкам моменту. Це часто зробити досить просто, і в багатьох випадках дає досить розумні оцінки. Він також іноді використовується для подачі початкових значень для підпрограм ML.
Це зводить до мінімуму чі-квадратну користь статистики пристосування для дискретного розподілу, хоча іноді з більшими наборами даних кінцеві категорії можуть зручно поєднуватися для зручності. Він часто працює досить добре, і навіть, мабуть, має деякі переваги перед ML в конкретних ситуаціях, але, як правило, він повинен бути перероблений до конвергенції, і в цьому випадку більшість людей, як правило, віддають перевагу ML.
Перші два методи також використовуються для безперервного розподілу; третій зазвичай не використовується в такому випадку.
Вони аж ніяк не містять вичерпного списку, і цілком можливо було б оцінити параметри, мінімізуючи статистику KS, наприклад, - і навіть (якщо налаштувати на дискретність), щоб отримати з неї спільну область консонансу , якби ви так схильний. Оскільки ви працюєте в R, оцінку МЛ досить легко досягти для від'ємного двочлена. Якщо ваш зразок був x
, він простий як library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Це оцінки параметрів та їх (асимптотичні) стандартні помилки.
У разі розподілу Пуассона MLE та MoM обидва оцінюють параметр Пуассона на середньому рівні вибірки.
Якщо ви хочете побачити приклади, слід опублікувати деякі фактичні підрахунки. Зверніть увагу, що ваша гістограма зроблена з відрив, вибраних таким чином, що категорії 0 і 1 поєднуються, і ми не маємо підрахунку.
Наскільки я можу здогадатися, ваші дані приблизно такі:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Але великі числа будуть невизначеними (це сильно залежить від того, наскільки точно представлені низькі показники підрахунками пікселів їхніх висот), і це може бути кілька кратних цих чисел, як, наприклад, вдвічі більше цих чисел стандартні помилки, тому важливо, чи вони стосуються цих значень або вдвічі більше)
Поєднання перших двох груп робить це трохи незручно (це можливо зробити, але менш просто, якщо ви поєднуєте деякі категорії. Багато цих відомостей є в цих перших двох групах, тому краще не просто дати гістограмі за замовчуванням збивати їх ).
* Зрозуміло, можливі й інші способи встановлення дискретних розподілів (можна порівняти квантові чи мінімізувати інші показники корисності статистики придатності, наприклад). Ті, про які я згадую, здаються найпоширенішими.