Критерії вибору "найкращої" моделі в моделі прихованої Маркова


12

У мене є набір даних часових рядів, до яких я намагаюся встановити модель прихованої Маркова (HMM), щоб оцінити кількість прихованих станів у даних. Мій псевдо-код для цього:

for( i in 2 : max_number_of_states ){ 
    ...
    calculate HMM with i states
    ...
    optimal_number_of_states = "model with smallest BIC"
    ...
}

Тепер, у звичайних регресійних моделях, BIC, як правило, надає перевагу найбільш парсимоніальним моделям, але у випадку HMM я не впевнений, що це робить. Хтось насправді знає, до якого типу HMM спрямований критерій BIC? Я також в змозі отримати значення АПК та ймовірність. Оскільки я намагаюся встановити справжню загальну кількість штатів, чи є один із цих критеріїв «кращим», ніж інший для цієї мети?

Відповіді:


11

Я припускаю, що ваша вихідна змінна є категоричною, хоча це може бути не так. Як правило, коли я бачу, як використовуються HMM, кількість станів відомо заздалегідь, а не вибирається шляхом настройки. Зазвичай вони відповідають якійсь добре зрозумілій змінній, яку, можливо, не спостерігають. Але це не означає, що ви не можете з цим експериментувати.

Небезпека використання BIC (і AIC), хоча полягає в тому, що значення k для кількості вільних параметрів в моделі зростає квадратично з кількістю станів, оскільки у вас є матриця ймовірностей переходу з параметрами Px (P-1) (для P станів ) та ймовірності виходу для кожної категорії результатів, що даються кожним станом. Отже, якщо AIC та BIC розраховуються належним чином, k має швидко зростати.

Якщо у вас є достатня кількість даних, я б рекомендував більш м'який метод налаштування кількості станів, таких як тестування на вибірці затримки. Ви також можете просто переглянути статистику ймовірності й візуально побачити, на якій точці плато. Також якщо ваші дані великі, майте на увазі, що це підштовхне BIC до меншої моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.