Вибір моделі Mclust


11

Пакет R mclustвикористовує BIC як критерій вибору моделі кластера. З мого розуміння, модель з найнижчою BIC повинна бути обрана порівняно з іншими моделями (якщо виключно дбаєш лише про BIC). Однак, коли значення BIC усі негативні, Mclustфункція за замовчуванням відповідає моделі з найвищим значенням BIC. Моє загальне розуміння з різних випробувань полягає в тому, що mclustідентифікують "найкращі" моделі як такі, що мають .мах{БЯСi}

Я намагаюся зрозуміти, чому автори прийняли таке рішення. Це проілюстровано на сайті CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Також автори mclustпакунків відзначають це у своїй роботі Методи класифікації на основі моделей: Використання програмного забезпечення mclust у Chemometrics на сторінці 5.

"Найкращою" моделлю вважається та, яка має найвищий BIC серед пристосованих моделей.

Чи може хтось світити світло на це питання? Якщо нижчий BIC завжди кращий, чому автори не обирають модель з найнижчою BIC, а скоріше модель з найменшим абсолютним BIC? Якщо можливо, надайте посилання.

Відповіді:


10

Знайдено рішення:

Отже, для повторного запитання, чому Mclustфункція за замовчуванням відповідає моделі з найвищим значенням BIC як "найкраща" модель?

Чудове запитання! Дозвольте дати вам довгу відповідь на це.

TL; DR : значення BIC - це наближення до інтегрованої (не максимальної) ймовірності, і ви хочете, щоб модель мала найбільшу інтегровану ймовірність (коефіцієнт Байєса), тому ви вибирали модель з найбільшою BIC.

Довга відповідь : Мета використання кластеризації на основі моделей над кластерами підходу кластеризації на основі евристики, таких як k-засоби та ієрархічна (агломераційна) кластеризація - це забезпечити більш формальний та інтуїтивно зрозумілий підхід до порівняння та вибору відповідної моделі кластера для ваших даних.

Маклуст використовує методи кластеризації на основі імовірнісних моделей, змішаних моделей Гаусса. Використання ймовірнісних моделей дозволяє розробити модельні підходи для порівняння різних моделей кластера та розмірів. Див. * Методи класифікації на основі моделей: Використання програмного забезпечення mclust у хіміометрії * ( https://www.jstatsoft.org/article/view/v018i06 ) для отримання більш детальної інформації.

Як було сказано вище, автори констатують, що "найкраща" модель - це модель із найбільшими значеннями BIC. Ось ще один приклад з розширеного моделювання на основі моделювання кластеризації, оцінки щільності та дискримінантного аналізу: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Інформаційний критерій Байєсана або BIC (?) - це значення максимальної ймовірності логічності з покаранням за кількістю параметрів у моделі та дозволяє порівнювати моделі з різними параметрами та / або різною кількістю кластерів. Загалом, чим більше значення BIC, тим сильнішими є докази щодо моделі та кількості кластерів (див., Наприклад, Fraley та Raftery 2002a).

Вибір моделі : Тепер, коли до кластерів приєднана модель ймовірностей, ви можете використовувати більш складні інструменти для порівняння декількох моделей кластерів за допомогою вибору моделі Баєса за допомогою факторів Байєса.

У своїй роботі « Скільки кластерів»? Який метод кластеризації? Відповіді через модельний кластерний аналіз ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Коефіцієнт Байєса - це задні шанси для однієї моделі проти іншої, якщо припустимо, що вони не є перевагою. Banfield і Raftery [2] використовували евристично отримане наближення до подвійного коефіцієнта журналу Байєса, званого "AWE", щоб визначити кількість кластерів в ієрархічній кластеризації на основі ймовірності класифікації. Коли ЕМ використовується для пошуку максимальної ймовірності суміші, застосовується більш надійне наближення до подвоєного коефіцієнта Баєса, що називається BIC (Schwarz [32]):

2журнал(p(х|М))+cонстант2лМ(х,θ^)-ммлог(н)БЯС

p(х|М)лМ(х,θ^)а priоrip(х|М)М

Отже, підсумовуючи, BIC не слід мінімізувати. Людина, яка використовує цей кластерний підхід на основі моделей, повинна шукати модель, яка максимально збільшує BIC, оскільки вона наближає коефіцієнт Байєса до максимальної інтегрованої ймовірності.

Останнє твердження також має посилання:

Banfield, JD та Raftery, AE (1993) на основі моделей кластеризації Гаусса та не-Гаусса, заснованого на моделі. Біометрія, 49, 803–821.

EDIT : На основі обміну електронною поштою,

В якості бічної примітки завжди перевіряйте, як визначено BIC. Іноді, наприклад, у більшості регресійних контекстів (де традиційно статистика зводиться до мінімуму для оцінки параметрів, наприклад, залишкова сума квадратів, відхилення тощо), BIC обчислюється як -2 * loglik + npar * log (n), тобто зворотне значення що використовується в mclust. Зрозуміло, що в цьому випадку BIC слід мінімізувати.

БЯС=-2×лн(L(θ|х))+к×лн(н)


1
Не впевнений, з якою версією Mclust стосувався листування цього відповіді. У версії 4 Mclust використовується негативний компонент BIC, і тому його слід максимально використовувати. Сподіваємось, це може бути корисним людям, які намагаються зрозуміти, чи слід робити максимізацію чи мінімізацію.
Расіка

Дякую, що вказали на це, я оновлю це питання, щоб воно мало сенс. Я також можу заглянути в документацію, щоб побачити, чи є там, чому вони вирішили змінити стільки років
Джон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.