Які методи доступні для згортання (чи об'єднання) багатьох категорій до кількох, з метою використання їх як вхідних даних (прогнозів) у статистичній моделі?
Розглянемо таку змінну, як студент коледжу (дисципліна, яку обирає студент). Це не упорядковане і категоричне, але потенційно воно може мати десятки різних рівнів. Скажімо, я хочу використовувати мажор як предиктор у регресійній моделі.
Використання цих рівнів як для моделювання призводить до різного роду питань, оскільки їх так багато. Для їх використання було б викинуто багато статистичної точності, а результати важко інтерпретувати. Нас рідко цікавлять конкретні спеціальності - нам набагато більше шансів зацікавити широкі категорії (підгрупи) спеціальностей. Але не завжди зрозуміло, як розділити рівні на такі категорії вищого рівня або навіть на скільки категорій вищого рівня використовувати.
Для типових даних я би радий використовувати факторний аналіз, матричну факторизацію або дискретну техніку моделювання латентного моделювання. Але мажори є взаємовиключними категоріями, тому я вагаюся використовувати їхню коваріантність для чого завгодно.
Крім того, я не переймаюся основними категоріями самостійно. Я дбаю про створення категорій вищого рівня, когерентних стосовно мого результату регресії . У випадку бінарного результату це пропонує мені щось на кшталт лінійного дискримінантного аналізу (LDA) для створення категорій вищого рівня, що забезпечують максимальну дискримінаційну ефективність. Але LDA - це обмежена техніка, і мені здається, що брудні дані зникають на мене. Більше того, будь-яке безперервне рішення буде важко інтерпретувати.
Тим часом щось, що базується на коваріаціях, як аналіз множинного листування (MCA), здається мені в цьому випадку підозрюваним через притаманну залежність взаємовиключних фіктивних змінних - вони краще підходять для вивчення декількох категоричних змінних, а не декількох категорій та ж змінна.
редагувати : щоб бути зрозумілим, мова йде про руйнування категорій (не вибору їх), а категорії - це предиктори або незалежні змінні. Зрештою, ця проблема здається підходящим часом, щоб "впорядкувати їх усіх і нехай Бог їх розібрав". Радий бачити, що це питання цікаве багатьом людям!