Як вибрати найкраще відповідність без переналежних даних? Моделювання бімодального розподілу з N нормальних функцій тощо


11

У мене очевидно бімодальний розподіл значень, до якого я прагну відповідати. Дані можуть добре відповідати або з 2 нормальними функціями (бімодальними), або з 3 нормальними функціями. Крім того, існує правдоподібна фізична причина для відповідності даних 3.

Чим більше параметрів буде введено, тим досконалішим буде прилягання, оскільки при достатній кількості констант можна « помістити слона ».

Ось розподіл, що відповідає сумі 3 нормальних (гауссових) кривих:

Розподіл с

Це дані для кожного пристосування. Я не впевнений, який тест мені слід застосувати тут, щоб визначити придатність. Дані складаються з 91 бала.

1 Нормальна функція:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • F.Test: 0,3092

2 Нормальні функції:

  • RSS: 0,010939
  • X ^ 2: 0,053896
  • F.Test: 0,97101

3 Нормальні функції:

  • RSS: 0,00536
  • X ^ 2: 0,02794
  • F.Test: 0,99249

Який правильний статистичний тест можна застосувати, щоб визначити, який із цих 3 підходів найкращий? Очевидно, що нормальна відповідність функції 1 недостатня. Тож як я можу розрізняти 2 і 3?

Додамо, я в основному це роблю з Excel і трохи Python; Я ще не знайомий з R або іншими статистичними мовами.


Запропоновано використовувати я зменшений чі-квадрат X ^ 2 / (Nn-1), де N - кількість точок даних, а n - кількість встановлених параметрів. Однак невелика пенталтія (+/- 3) щодо кількості точок даних (91) не здається інтуїтивно зрозумілою як особливо крутий штраф за додавання ще одного Гаусса.
MurphysLab

Ви можете перевірити цю відповідь (якщо ви вирішите піти по Rмаршруту). У цій відповіді згадуються деякі критерії вибору моделі . Нарешті, ви можете розглянути методи ансамблю , про які я коротко розповів у цій відповіді , яка також містить посилання на інформацію, орієнтовану на Python. Більш детальну інформацію про вибір моделі та усереднення ви можете знайти в цій відповіді .
Олександр Блех

Відповіді:


5

Ось два способи вирішити проблему вибору розповсюдження:

  1. Для порівняння моделі використовуйте міру, яка штрафує модель залежно від кількості параметрів. Інформаційні критерії це роблять. Використовуйте інформаційний критерій, щоб вибрати модель, яку потрібно зберегти, виберіть модель з найнижчим інформаційним критерієм (наприклад, AIC). Основне правило для порівняння, якщо різниця в АПК є істотним, - якщо різниця в АПК більша за 2 (це не формальний тест на гіпотезу, див. Тестування різниці в АПК двох моделей, які не вкладені ).

    AIC = , де - кількість розрахункових параметрів і - максимальна ймовірність, і - функція ймовірності, а - ймовірність спостережуваних даних обумовлюються параметром розподілу .2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. Якщо ви хочете перевірити формальну гіпотезу, ви можете продовжити щонайменше двома способами. Можливо, простішим є пристосування ваших розподілів за допомогою частини вашої вибірки та тестування, якщо розподіли залишків значно відрізняються, використовуючи тест Chi-квадрата або Колгоморов-Смірнов на решті даних. Таким чином, ви не використовуєте ті самі дані для підгонки та тестування своєї моделі, як AndrewM, зазначений у коментарях.

    Ви також можете зробити тест коефіцієнта ймовірності з коригуванням нульового розподілу. Варіант цього опису описаний у Lo Y. et al. (2013) "Тестування кількості компонентів у звичайній суміші." Biometrika, але у мене немає доступу до статті, тому я не можу надати вам більше деталей щодо того, як саме це зробити.

    У будь-якому випадку, якщо тест не суттєвий, збережіть розподіл з меншою кількістю параметрів, якщо він є значущим, виберіть той із більшою кількістю параметрів.


@Momo спасибі, змінив це і додав рівняння для AIC
Кріс Новак

Я не на 100% впевнений, але стандартний AIC може не працювати, як очікувалося, у моделях сумішей, оскільки різні конфігурації сумішей можуть давати ту саму модель.
Cagdas Ozgenc

Я мав на увазі те, що ви можете поміняти місцями на 2 гауси (встановивши середнє значення / дисперсію від 1-го на 2-е та 2-е на 1-е, а також для суміші ваг) і все одно отримати таку ж модель. Наскільки я знаю, AIC не працює так, як очікувалося в таких ситуаціях.
Cagdas Ozgenc

1
@CagdasOzgenc Я бачу вашу думку, але здається, що стандартні AIC і BIC були показані адекватними для вибору моделі в гауссових моделях сумішей, див., Наприклад, статтю projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Кріс Новак

1
@ChrisNovak так, тест коефіцієнта ймовірності (з коригуванням розподілу нульової вибірки з типового з DOF, рівним різниці розмірності простору параметрів) є хорошою ідеєю. Я не знаю, наскільки складними є коригування, але суміші типові в цих випадках. Налаштування необхідні, оскільки ви протестуєте точку на межі простору параметрів. χ2χ2
Ендрю М
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.