Чи можна використовувати моменти розподілу для вибірки розподілу?


14

Я помічаю в статистиці / методах машинного навчання, розподіл часто наближається до Гаусса, а потім Гаусса використовується для вибірки. Вони починаються з обчислення перших двох моментів розподілу, і використовують їх для оцінки μ і σ2 . Тоді вони можуть взяти зразок у того гаусса.

Мені здається, чим більше моментів я обчислюю, тим краще я повинен мати можливість наближати розподіл, який я хочу взяти до вибірки.

Що робити, якщо я обчислюю 3 моменти ... як я можу використовувати їх для вибірки з розподілу? І чи можна це поширити на N моментів?


2
Три моменти не визначають форму розподілу *; якщо ви обираєте сімейство розподілу з трьома параметрами, які відносяться до перших трьох моментів сукупності, ви можете зробити відповідність моментів ("метод моментів") для оцінки трьох параметрів, а потім генерувати значення з такого розподілу. Таких дистрибуцій багато.[* Дійсно, іноді навіть маючи всі моменти недостатньо для визначення розподілу.]
Glen_b -Встановіть Моніку

Дякую, @Glen_b! Я прочитаю про «метод моментів», щоб зрозуміти, коли це можливо. Чи можете ви вказати мені на теорію, яка описує, коли моментів недостатньо для визначення розподілу?
curious_dan

"Метод моментів" просто розповідає, як оцінити параметри за моментами. Залишок вашого коментаря - це нове запитання (я думаю, на нього вже відповіли на сайті); коротко - якщо функція, що генерує момент, існує (в околиці 0), вона однозначно ідентифікує розподіл (технічно, ви могли б, в принципі, зробити зворотне перетворення Лапласа). Звичайно, якщо деякі моменти не є кінцевими, це означатиме, що mgf не існує, але також є випадки, коли всі моменти скінчені, але mgf все ще не існує в районі 0 ..
Glen_b -Встановити Моніку

Я пишу відповідь на основі мого коментаря.
Glen_b -Встановіть Моніку

Відповіді:


22

Три моменти не визначають форму розподілу; якщо ви обираєте сімейство розподілу з трьома параметрами, які відносяться до перших трьох моментів популяції, ви можете зробити відповідність моментів ("метод моментів") для оцінки трьох параметрів, а потім генерувати значення з такого розподілу. Таких дистрибуцій багато.

Іноді навіть наявність усіх моментів недостатня для визначення розподілу. Якщо функція, що генерує момент, існує (в околиці 0), вона однозначно ідентифікує розподіл (ви можете, в принципі, зробити зворотне перетворення Лапласа, щоб отримати його).

[Якщо деякі моменти не є кінцевими, це означає, що mgf не існує, але також є випадки, коли всі моменти скінчені, але mgf все ще не існує в околиці 0.]

Зважаючи на вибір розподілу, можна спокуситись розглянути максимальне рішення ентропії з обмеженням на перші три моменти, але немає розподілу по реальній лінії, яка б досягла його (оскільки отриманий кубік в експоненті буде необмеженим).


Як би процес працював для конкретного вибору розподілу

Ми можемо спростити процес отримання узгоджувального розподілу три моменти, ігноруючи середнє і дисперсію і роботу з масштабованим третім моментом - момент-асиметрії ( γ1=μ3/μ23/2 ).

Ми можемо це зробити, тому що, вибравши розподіл з відповідною косою шкалою, ми можемо відшкодувати бажану середню і відхилення шляхом масштабування та зсуву.

Розглянемо приклад. Вчора я створив великий набір даних (який досі трапляється в моєму сеансі R), в розпорядженні якого я не намагався обчислити функціональну форму (це великий набір значень журналу дисперсії вибірки Коші при n = 10). Перші три моменти ми маємо відповідно 1,519, 3,559 і 11,479, або відповідно середнє значення 1,518, стандартне відхилення * 1,136 і косостість 1,429 (тобто це значення вибірки з великої вибірки).

Формально метод моментів намагався б співставити необроблені моменти, але обчислення простіше, якщо ми почнемо з косості (перетворення розв’язання трьох рівнянь у трьох невідомих на вирішення за одним параметром за раз, набагато простішу задачу).

* Я збираюся усунути відмінність між використанням n-знаменника на дисперсії - як це відповідатиме формальному методу моментів - та знаменника n-1 і просто використовувати вибіркові обчислення.

Ця косоокість (~ 1,43) вказує на те, що ми шукаємо розподілу, яке є правим. Я міг вибрати, наприклад, зміщений лонормальний розподіл (три логічно-нормальних параметри, форма σ , масштаб μ та зсув розташування γ ) з однаковими моментами. Почнемо з узгодження косості. Скісність населення для двох параметрів логічно нормальна:

γ1=(eσ2+2)eσ21

σ2σ~2

γ12(τ+2)2(τ1)τ=eσ2τ3+3τ24=γ12τ~1.1995σ~20.1819γ1 - ми можемо перевернути розподіл ліворуч праворуч, якщо нам потрібна негативна косоокість)

μ шляхом зіставлення дисперсії (або стандартного відхилення), а потім для параметра розташування, зіставивши середнє значення.

Але ми могли б так само легко вибрати зміщену гаму або розподілену дистрибуцію Вайбулла (або зміщену-F або будь-яку кількість інших варіантів) і пройти по суті той же процес. Кожна з них була б різною.

[Для вибірки, з якою я мав справу, зміщена гамма, мабуть, була б значно кращим вибором, ніж зрушена лонормальна норма, оскільки розподіл журналів значень залишається перекошеним, а розподіл кореня їх куба був дуже близьким до симетричного; вони узгоджуються з тим, що ви побачите з (не зміненою) гамма-щільністю, але лівостороння щільність журналів не може бути досягнута за будь-яких зрушених лонормальних.]

Можна навіть взяти діаграму косо-куртозу в графіці Пірсона та намалювати лінію на потрібній косості, і, таким чином, отримати двоточковий розподіл, послідовність бета-розподілів, гамма-розподіл, послідовність бета-простих розподілів, зворотну- гамма-розподіл і послідовність розподілів Пірсона IV типу, все з однаковою косою.

β1=γ12β2

Ділянка Пірсона з накресленою бажаною лінією косості

γ12=2.042σ


Більше моментів

Моменти не дуже чітко закріплюють розподіл, тому навіть якщо ви вкажете багато моментів, все одно буде багато різних розподілів (особливо стосовно їх крайньої хвостової поведінки).

Звичайно, ви можете обрати деяку сімейство дистрибуторів, що має принаймні чотири параметри, і спробувати відповідати більше трьох моментів; наприклад, вищевказані розподіли Пірсона дозволяють нам співставити перші чотири моменти, а є й інші варіанти розподілу, які дозволяли б отримати схожу ступінь гнучкості.

Можна вибирати інші стратегії вибору дистрибутивів, які можуть відповідати дистрибутивним можливостям - розподілу сумішей, моделювання щільності журналу за допомогою сплайнів тощо.

Однак часто, якщо повернутися до початкової мети, для якої намагалися знайти розподіл, часто виявляється, що можна зробити щось краще, ніж стратегія, окреслена тут.


2

Отже, відповідь, як правило, НІ, ви не можете цього зробити, але іноді можете.

Коли не можеш

Причини ви не можете зробити це , як правило , дві складки.

По-перше, якщо у вас є N спостережень, то максимум ви можете обчислити N моментів. Що з іншими моментами? Ви не можете просто встановити їх на нуль.

γ100=ixi100n

Коли ви можете

Зараз, іноді, ви можете отримати розподіл за моменти. Це коли ви робите припущення про якийсь розподіл. Наприклад, ви заявляєте, що це нормально. У цьому випадку все, що вам потрібно, - це лише два моменти, які, як правило, можна обчислити з гідною точністю. Зауважте, що нормальне поширення має більш високі моменти, наприклад, куртоз, але вони нам не потрібні. Якби ви обчислювали всі моменти нормального розподілу (не припускаючи, що це нормально), а потім намагалися відновити характерну функцію для вибірки з розподілу, вона б не працювала. Однак, коли ти забуваєш про вищі моменти і дотримуєшся перших двох, це спрацьовує.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.