Аналіз латентного класу проти кластерного аналізу - відмінності у умовиводах?


30

Які відмінності у висновках можна зробити за допомогою латентного аналізу класів (LCA) та кластерного аналізу? Чи правильно, що LCA бере на себе основну приховану змінну, що породжує класи, тоді як кластерний аналіз - це емпіричний опис корельованих атрибутів алгоритму кластеризації? Схоже, що в соціальних науках LCA набув популярності і вважається методологічно вищим, враховуючи те, що у нього є формальний тест на значущість квадратичного значення, якого в кластерному аналізі немає.

Було б чудово, якби приклади могли бути запропоновані у формі: "LCA був би доречним для цього (але не кластерного аналізу), і кластерний аналіз був би відповідним для цього (але не прихованого аналізу класів).

Спасибі! Брайан


1
Що ви називаєте inferencesв цьому контексті і чому вас цікавлять лише відмінності у висновках?
ttnphns

1
@ttnphns Під висновками я маю на увазі предметну інтерпретацію результатів. Я не впевнений в останній частині вашого питання про мій інтерес до "лише різниць у висновках?" Мене не цікавить виконання відповідних алгоритмів чи основної математики. Мене цікавить, як би трактувалися результати.
Брайан П

Відповіді:


27

Аналіз латентних класів насправді є кінцевою моделлю сумішей (див. Тут ). Основна відмінність FMM від інших алгоритмів кластеризації полягає в тому, що FMM пропонує вам підхід "кластеризації на основі моделі", який отримує кластери з використанням імовірнісної моделі, яка описує розподіл ваших даних. Отже, замість того, щоб знайти кластери з якоюсь довільною обраною мірою відстані, ви використовуєте модель, яка описує розподіл ваших даних, і на основі цієї моделі ви оцінюєте ймовірність того, що певні випадки є членами певних прихованих класів. Таким чином, ви можете сказати, що це підхід зверху вниз (ви починаєте з опису розподілу своїх даних), тоді як інші алгоритми кластеризації - це підходи знизу вгору (ви виявляєте схожість між випадками).

Оскільки ви використовуєте статистичну модель для вибору вашої моделі даних та оцінки корисності, можливо, всупереч кластеризації. Крім того, якщо ви припускаєте, що існує якийсь процес або "латентна структура", яка лежить в основі структури ваших даних, то FMM, здається, є відповідним вибором, оскільки вони дозволяють моделювати приховану структуру за вашими даними (а не просто шукати схожість).

Інша відмінність полягає в тому, що FMM є більш гнучкими, ніж кластеризація. Алгоритми кластеризації просто роблять кластеризацію, хоча є моделі на основі FMM та LCA

  • дозволяють робити підтверджуючий аналіз між групами,
  • поєднати моделі теорії реагування на елементи (та інші) з LCA,
  • включити коваріати для прогнозування латентної приналежності людей до класу,
  • та / або навіть в рамках кластерної регресії в латентному класі регресії ,
  • дозволяють моделювати зміни в часі в структурі ваших даних тощо.

Більше прикладів див:

Hagenaars JA & McCutcheon, AL (2009). Прикладний аналіз латентного класу. Cambridge University Press.

та документацію пакетів flexmix та poLCA в R, включаючи наступні документи:

Linzer, DA, & Lewis, JB (2011). poLCA: пакет R для аналізу політомних змінних латентних класів. Журнал статистичного програмного забезпечення, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: загальна основа для кінцевих моделей сумішей та латентної регресії скла у R. Journal of Statistics Software, 11 (8), 1-18.

Grün, B., & Leisch, F. (2008). Версія FlexMix 2: кінцеві суміші із супутніми змінними та змінними та постійними параметрами . Журнал статистичного програмного забезпечення, 28 (4), 1-35.


3

Модель латентного класу (або латентний профіль, або, загалом, модель кінцевої суміші) може розглядатися як імовірнісна модель кластеризації (або непідконтрольна класифікація). Мета загалом однакова - виявити гомогенні групи в межах більшої популяції. Я думаю, що основні відмінності між моделями латентного класу та алгоритмічними підходами до кластеризації полягають у тому, що перший очевидно піддається більш теоретичним спекуляціям про природу кластеризації; і оскільки модель прихованого класу є імовірнісною, вона дає додаткові альтернативи для оцінки відповідності моделі за допомогою статистики ймовірності, а також краще фіксує / зберігає невизначеність у класифікації.

У цій темі ви можете знайти деякі корисні ласощі , а також цю відповідь у пов’язаному дописі від chl.

Існують також паралелі (на концептуальному рівні) з цим питанням щодо PCA vs факторного аналізу, і це теж.


2

Різниця полягає в тому, що аналіз латентного класу використовує приховані дані (що зазвичай є моделями асоціації у функціях) для визначення ймовірностей для ознак класу. Тоді можна зробити висновки, використовуючи максимальну ймовірність розділити елементи на класи, виходячи з їх особливостей.

Аналіз кластерів описує функції та використовує такі алгоритми, як найближчі сусіди, щільність чи ієрархія, щоб визначити, до яких класів належить елемент.

В основному висновок LCA можна розглядати як "що є найбільш подібними зразками з використанням ймовірності", а аналіз кластера - "що є найближчим за допомогою відстані".


Чи можете ви уточнити, на яку "річ" йдеться у заяві про кластерний аналіз? Це найближча «особливість», заснована на мірі відстані?
Брайан П

річ буде об'єктом об'єкта або будь-якими даними, які ви вводите з параметрами функції.
ccsv
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.