Моделювання латентного класу було б одним, підконтрольним навчальним підходам до пошуку основних, «прихованих» розділів або груп наркотиків та наркоманів. LC є дуже гнучким методом з двома широкими підходами: реплікації, засновані на повторних заходах для одного предмета та реплікації, засновані на перехресному класифікації набору категоричних змінних. Ваші дані відповідатимуть другому типу.
Гнучкість ЖК - це функція його здатності поглинати "суміші" змінних з різними масштабами (наприклад, категоричні або безперервні). Оскільки підхід знаходить у даних приховані розділи, сегменти або кластери, його також можна вважати технікою зменшення розмірів.
Усі моделі LC мають 2 етапи: на етапі 1 визначається залежна або цільова змінна і будується модель регресії. На етапі 2 аналізується залишковий (єдиний "прихований" вектор) з етапу 1 моделі і створюються розділи, що фіксують мінливість (або неоднорідність) - "латентні класи" - у цьому векторі.
Існує безкоштовна програма для завантаження, яка, ймовірно, спрацює для вас досить добре. Один з них - це модуль R під назвою polCA, доступний тут:
http://www.jstatsoft.org/article/view/v042i10
Якщо у вас є близько 1000 доларів, щоб витратити на комерційний продукт, Latent Gold можна отримати на веб-сайті www.statisticinnovations.com. Використовуючи Latent Gold протягом багатьох років, я є великим шанувальником цього продукту за його аналітичну потужність та спектр рішень. Наприклад, polCA корисний лише для моделей LC з категоричною інформацією, тоді як LG працює в усьому світі ... плюс, їх розробники завжди додають нові модулі. Останнє доповнення будує моделі LC, використовуючи приховані ланцюги Маркова. Але майте на увазі, що LG не є платформою даних "від кінця до кінця", тобто це не годиться для важких маніпуляцій або підйому даних.
В іншому випадку існує безліч інших підходів до аналізу категоричної інформації, які широко підтримуються статистичними програмами, такими як R, SPSS, SAS, Python тощо. До них відносяться аналіз таблиць на випадок надзвичайних ситуацій, лінійно-лінійних моделей, кінцевих моделей сумішей, байєсівської тензорної регресії, і так далі. Література в цій галузі є обширною і розпочалася з Біскупа та ін., Дискретний багатоваріантний аналіз у 1975 р., Розповсюджується через RC-моделі Лео Гудмена на основі його роботи, виконаної з 80-х років, категоричний аналіз даних Агрешті, книги Стівена Фіенберга і включає Томаса Вікенса "Прекрасна книга" Багатосторонній аналіз таблиць на випадок надзвичайних ситуацій для соціальних наук ", опублікована в 1989 році. Баєсова тензорна регресія є назвою документа Девіда Дансона в Duke і є своєрідним «найсучаснішим» методом для моделювання масово багатосторонніх таблиць на випадок надзвичайних ситуацій.