Знаходження кількості гауссів у скінченній суміші з теоремою Вілкса?


11

Припустимо, у мене є набір незалежних, однаково розподілених одномірних спостережень та дві гіпотези про те, як генерується :xx

H0 : x виведено з одного гауссового розподілу з невідомими середніми та дисперсійними.

HA : x виводиться із суміші двох гауссів з невідомим середнім, дисперсійним та коефіцієнтом змішування.

Якщо я правильно розумію, це вкладені моделі, оскільки модель, яку H0 представляє, може бути описана в термінах HA якщо ви обмежите параметри двох гауссів однаковими або обмежуєте коефіцієнт змішування рівним нулю для одного з двох гауссів.

Тому, схоже, ви повинні мати можливість використовувати алгоритм ЕМ для оцінки параметрів HA а потім використовувати Теорему Вілкса, щоб визначити, чи вірогідність даних у HA значно більша, ніж у H0 . Існує невеликий стрибок віри в припущення, що алгоритм ЕМ зблизиться до максимальної ймовірності, але це я хочу зробити.

Я спробував це в симуляції Монте-Карло, припускаючи, що HA має 3 ступеня свободи, ніж H0 (середнє значення та дисперсія для другого гаусса та параметра змішування). Коли я імітував дані H0 , я отримав розподіл значень P, який був суттєво нерівномірним та збагаченим для малих P-значень. (Якби ЕМ не збігався з справжньою максимальною вірогідністю, можна було б очікувати прямо протилежне.) Що не так із моїм застосуванням теореми Вілкса, яка створює цю зміщення?

Відповіді:


8

При ретельному уточненні того, як нульова гіпотеза міститься в двокомпонентній моделі суміші, можна зрозуміти, в чому може бути проблема. Якщо п'ять параметрів у моделі суміші , то оскільки або два звичайних компонента суміші рівні, і в цьому випадку пропорція суміші не має значення, або пропорція суміші дорівнює 0 або 1, в цьому випадку один із компонентів суміші не має значення. Висновок полягає в тому, що нульова гіпотеза не може бути визначена навіть локально, як просте обмеження параметрів, що зменшує розмірність простору параметрів з 5 до 2.μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

Нульова гіпотеза є складним підмножиною повного простору параметрів, і під нульовими параметрами навіть не можна визначити. Звичайні припущення, необхідні для розбиття теореми Вілка, особливо, це неможливо побудувати правильне розширення Тейлора ймовірності зрубу.

У мене немає жодного особистого досвіду з цією конкретною проблемою, але я знаю про інші випадки, коли параметри «зникають» під нулем, що, здається, і тут, і в цих випадках висновки теореми Вілка руйнуються також . Швидкий пошук, серед іншого, дав цей документ, який виглядає актуальним, і де ви можете знайти додаткові посилання на використання тесту на коефіцієнт ймовірності стосовно моделей сумішей.


Дякую. Я думав, що щось подібне може бути проблемою, але я не був у цьому впевнений. Мене трохи заплутало тонкі тонкощі того, що є вкладеною моделлю з метою теореми Вілкса. Хороший пункт про ідентифікацію під нулем.
dimimcha

4

Висновок про кількість компонентів, що змішуються, не відповідає необхідним умовам регулярності для теореми Вілкса, оскільки (a) параметрρзнаходиться на межі простору параметрів і (b) параметризація не може бути визначена під нулем. Це не означає, що розподіл узагальненого коефіцієнта ймовірності невідомо! Якщо всі 5 параметрів у вашій установці невідомі, а ще важливіше - без обмежень - розподіл статистики LR не збігається. Якщо всі невпізнавані параметри обмежені, то статистика LR є монотонною у верховці усіченого Гауссового процесу. Коваріацію, яку обчислити в загальному (5 параметрах) випадку, нелегко, і навіть тоді, коли у вас є - розподіл верху такого процесу не може бути легко оцінений. Деякі практичні результати щодо двокомпонентної суміші дивіться тут. Цікаво, що в роботі показано, що в досить простих налаштуваннях статистика LR насправді менш потужна, ніж деякі простіші статистичні дані. Навчальний документ про виведення асимптотичного розподілу в таких проблемах дивіться тут . Для всіх практичних цілей ви можете підігнати суміш за допомогою ЕМ, а потім завантажте розподіл статистики LR. Це може зайняти деякий час, оскільки ЕМ, як відомо, є повільним, і вам потрібно багато реплікацій, щоб зафіксувати ефект розміру вибірки. Детальніше дивіться тут .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.