Які статистичні методи я можу використовувати, щоб знайти популярні чи поширені комбінації категоричних змінних?


10

Я роблю дослідження щодо використання багатолікарських препаратів. У мене є набір даних про 400 наркоманів, які кожен заявляв про наркотики, які вони зловживають. Існує більше 10 препаратів, а значить, можливі великі комбінації. Я переписав більшість наркотиків, які вони вживають у бінарні змінні (тобто героїн - 1, якщо наркоман зловживав героїном ще 0). Я хотів би знайти популярні або поширені комбінації 2 або 3 лікарських засобів. Чи є статистичні методи, які я можу використовувати?

Відповіді:


6

Існує лише 1024 можливих комбінації препаратів, які слід вживати разом (якщо було лише 10 препаратів), якщо кожен користувач вживав щонайменше 1 препарат. Ви можете просто перетворити змінні 0/1 у рядки та об'єднати їх та запустити аналіз частоти на рядку, щоб побачити, які комбінації з’являються найчастіше. Беручи приклад іграшки, скажіть, що у вашому дослідженні було лише 3 препарати - A, B і C. Якщо учасник використовував наркотики А і С, то цю змінну alldrugsможна було б закодувати 101. Учасник, який вживає лише наркотик В, буде кодований 010. Запускайте частоти на них, щоб знайти найчастіше вибраний. Більшість програмного забезпечення має змогу обробити це за лічені секунди.


1
Домовились. Всього 400 наркоманів, тому 1024 не можуть відбутися всі.
Нік Кокс

Так. Це повинен бути шматок пирога.
СтатистикаСтудент

5

Моделювання латентного класу було б одним, підконтрольним навчальним підходам до пошуку основних, «прихованих» розділів або груп наркотиків та наркоманів. LC є дуже гнучким методом з двома широкими підходами: реплікації, засновані на повторних заходах для одного предмета та реплікації, засновані на перехресному класифікації набору категоричних змінних. Ваші дані відповідатимуть другому типу.

Гнучкість ЖК - це функція його здатності поглинати "суміші" змінних з різними масштабами (наприклад, категоричні або безперервні). Оскільки підхід знаходить у даних приховані розділи, сегменти або кластери, його також можна вважати технікою зменшення розмірів.

Усі моделі LC мають 2 етапи: на етапі 1 визначається залежна або цільова змінна і будується модель регресії. На етапі 2 аналізується залишковий (єдиний "прихований" вектор) з етапу 1 моделі і створюються розділи, що фіксують мінливість (або неоднорідність) - "латентні класи" - у цьому векторі.

Існує безкоштовна програма для завантаження, яка, ймовірно, спрацює для вас досить добре. Один з них - це модуль R під назвою polCA, доступний тут:

http://www.jstatsoft.org/article/view/v042i10

Якщо у вас є близько 1000 доларів, щоб витратити на комерційний продукт, Latent Gold можна отримати на веб-сайті www.statisticinnovations.com. Використовуючи Latent Gold протягом багатьох років, я є великим шанувальником цього продукту за його аналітичну потужність та спектр рішень. Наприклад, polCA корисний лише для моделей LC з категоричною інформацією, тоді як LG працює в усьому світі ... плюс, їх розробники завжди додають нові модулі. Останнє доповнення будує моделі LC, використовуючи приховані ланцюги Маркова. Але майте на увазі, що LG не є платформою даних "від кінця до кінця", тобто це не годиться для важких маніпуляцій або підйому даних.

В іншому випадку існує безліч інших підходів до аналізу категоричної інформації, які широко підтримуються статистичними програмами, такими як R, SPSS, SAS, Python тощо. До них відносяться аналіз таблиць на випадок надзвичайних ситуацій, лінійно-лінійних моделей, кінцевих моделей сумішей, байєсівської тензорної регресії, і так далі. Література в цій галузі є обширною і розпочалася з Біскупа та ін., Дискретний багатоваріантний аналіз у 1975 р., Розповсюджується через RC-моделі Лео Гудмена на основі його роботи, виконаної з 80-х років, категоричний аналіз даних Агрешті, книги Стівена Фіенберга і включає Томаса Вікенса "Прекрасна книга" Багатосторонній аналіз таблиць на випадок надзвичайних ситуацій для соціальних наук ", опублікована в 1989 році. Баєсова тензорна регресія є назвою документа Девіда Дансона в Duke і є своєрідним «найсучаснішим» методом для моделювання масово багатосторонніх таблиць на випадок надзвичайних ситуацій.


люблю список посилань!
Кріс

3

Що вам спадає на думку інтуїтивно? Ви хочете порахувати комбінації, чому б просто не знайти всі можливі комбінації та просто порахувати? Я пропоную вам заглянути у видобуток частого набору елементів.

Вікіпедія - Апріорі

Ось кілька реалізацій того ж:

Частота видобутку шаблону

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.