Знайдено рішення:
Отже, для повторного запитання, чому Mclust
функція за замовчуванням відповідає моделі з найвищим значенням BIC як "найкраща" модель?
Чудове запитання! Дозвольте дати вам довгу відповідь на це.
TL; DR : значення BIC - це наближення до інтегрованої (не максимальної) ймовірності, і ви хочете, щоб модель мала найбільшу інтегровану ймовірність (коефіцієнт Байєса), тому ви вибирали модель з найбільшою BIC.
Довга відповідь : Мета використання кластеризації на основі моделей над кластерами підходу кластеризації на основі евристики, таких як k-засоби та ієрархічна (агломераційна) кластеризація - це забезпечити більш формальний та інтуїтивно зрозумілий підхід до порівняння та вибору відповідної моделі кластера для ваших даних.
Маклуст використовує методи кластеризації на основі імовірнісних моделей, змішаних моделей Гаусса. Використання ймовірнісних моделей дозволяє розробити модельні підходи для порівняння різних моделей кластера та розмірів. Див. * Методи класифікації на основі моделей: Використання програмного забезпечення mclust у хіміометрії * ( https://www.jstatsoft.org/article/view/v018i06 ) для отримання більш детальної інформації.
Як було сказано вище, автори констатують, що "найкраща" модель - це модель із найбільшими значеннями BIC. Ось ще один приклад з розширеного моделювання на основі моделювання кластеризації, оцінки щільності та дискримінантного аналізу: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Інформаційний критерій Байєсана або BIC (?) - це значення максимальної ймовірності логічності з покаранням за кількістю параметрів у моделі та дозволяє порівнювати моделі з різними параметрами та / або різною кількістю кластерів. Загалом, чим більше значення BIC, тим сильнішими є докази щодо моделі та кількості кластерів (див., Наприклад, Fraley та Raftery 2002a).
Вибір моделі : Тепер, коли до кластерів приєднана модель ймовірностей, ви можете використовувати більш складні інструменти для порівняння декількох моделей кластерів за допомогою вибору моделі Баєса за допомогою факторів Байєса.
У своїй роботі « Скільки кластерів»? Який метод кластеризації? Відповіді через модельний кластерний аналіз ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Коефіцієнт Байєса - це задні шанси для однієї моделі проти іншої, якщо припустимо, що вони не є перевагою. Banfield і Raftery [2] використовували евристично отримане наближення до подвійного коефіцієнта журналу Байєса, званого "AWE", щоб визначити кількість кластерів в ієрархічній кластеризації на основі ймовірності класифікації. Коли ЕМ використовується для пошуку максимальної ймовірності суміші, застосовується більш надійне наближення до подвоєного коефіцієнта Баєса, що називається BIC (Schwarz [32]):
2 колоди( p ( x | M)) ) + c o n s t a n t ≈ 2 лМ( х , θ^) - ммл о г( n ) ≡ B IС
р ( х | М)лМ( х , θ^)a p r i o r i p ( x | М)М
Отже, підсумовуючи, BIC не слід мінімізувати. Людина, яка використовує цей кластерний підхід на основі моделей, повинна шукати модель, яка максимально збільшує BIC, оскільки вона наближає коефіцієнт Байєса до максимальної інтегрованої ймовірності.
Останнє твердження також має посилання:
Banfield, JD та Raftery, AE (1993) на основі моделей кластеризації Гаусса та не-Гаусса, заснованого на моделі. Біометрія, 49, 803–821.
EDIT : На основі обміну електронною поштою,
В якості бічної примітки завжди перевіряйте, як визначено BIC. Іноді, наприклад, у більшості регресійних контекстів (де традиційно статистика зводиться до мінімуму для оцінки параметрів, наприклад, залишкова сума квадратів, відхилення тощо), BIC обчислюється як -2 * loglik + npar * log (n), тобто зворотне значення що використовується в mclust. Зрозуміло, що в цьому випадку BIC слід мінімізувати.
Б яС= - 2 × l n ( L ( θ | x ) ) + k × l n ( n )