Методи злиття / зменшення категорій у порядкових або номінальних даних?


14

Я намагаюся знайти спосіб зменшення кількості категорій у номінальних чи порядкових даних.

Наприклад, скажімо, що я хочу побудувати регресійну модель на наборі даних, яка має ряд номінальних та порядкових факторів. Хоча у мене немає проблем з цим кроком, я часто стикаюся з ситуаціями, коли номінальна функція не має спостережень у навчальному наборі, але згодом існує у наборі даних перевірки. Це природно призводить до помилок, коли модель представлена ​​(поки що) невидимими випадками. Ще одна ситуація, коли я хотів би поєднувати категорії, це просто, коли занадто багато категорій з малою кількістю спостережень.

Отже, мої запитання:

  • Хоча я усвідомлюю, що може бути найкраще поєднувати багато номінальних (і порядкових) категорій на основі попередньої реальної відомості, яку вони представляють, чи є систематичні методи ( Rбажано пакети)?
  • Які вказівки та рекомендації ви б зробили щодо граничних порогових значень тощо?
  • Які найпопулярніші рішення в літературі?
  • Чи є інші стратегії, ніж поєднання малих номінальних категорій до нової, "ДРУГОЇ" категорії?

Будь ласка, не соромтесь звучати, якщо у вас є й інші пропозиції.


Подивіться на відповідне питання: stats.stackexchange.com/questions/227125/…
kjetil b halvorsen

Відповіді:


11

Це відповідь на ваше друге запитання.

Я підозрюю, що правильний підхід до подібних рішень буде визначатися значною мірою дисциплінарними нормами та очікуванням передбачуваної аудиторії вашої роботи. Як соціальний учений, я часто працюю з даними опитування (або подібними до опитування) і завжди намагаюся врівноважувати предметну та керовану даними логіку, коли я згортаю порядкові шкали або категоричні змінні. Іншими словами, я зроблю все можливе, щоб розглянути, які комбінації предметів "звисають" з точки зору їх суті, а також розподілу відповідей до того, як я згортаю елементи.

Ось нещодавній приклад конкретного (порядкового) питання опитування, який стосувався п'ятибальної частотної шкали:

Як часто ви відвідуєте засідання клубу чи організації у своїй громаді?

  • Ніколи
  • Кілька разів на рік
  • Раз на місяць
  • Кілька разів на місяць
  • Раз на тиждень і більше

На даний момент у мене немає даних, але результати були сильно перекошені до кінця шкали "ніколи". Як результат, ми з співавтором вирішили об'єднати відповіді на дві групи: "Раз на місяць і більше" та "Менше, ніж раз на місяць". Отримана (бінарна) змінна була більш рівномірно розподілена і відображала змістовне розмежування на практиці: оскільки багато клубів та організацій не збираються більше одного разу на місяць, є вагомі підстави вважати, що люди, які відвідують зустрічі хоча б так часто "активні" члени таких груп, тоді як ті, хто відвідує рідше (або ніколи), "неактивні".

Отже, з мого досвіду, ці рішення є як мінімум стільки мистецтвом, скільки наукою. З цього приводу я зазвичай намагаюся зробити це перед тим, як підходити до будь-яких моделей, оскільки працюю в такій дисципліні, де все інше розглядається (негативно) як обмін даними та дуже ненауковий (веселий час!).

Зважаючи на це, це може допомогти, якщо ви можете сказати трохи більше про те, яку аудиторію ви маєте на увазі для цієї роботи. Також було б у ваших інтересах переглянути декілька видатних підручників з методології у вашій галузі, оскільки вони часто можуть уточнити, що проходить для "нормальної" поведінки серед даної дослідницької спільноти.


5

Види підходів, які обговорюються, можуть призвести до порівняно більш систематичної методології. Але я також вважаю, що під систематизмом ви маєте на увазі алгоритмічність. Тут інструменти пошуку даних можуть заповнити прогалину. Для одного є процедура автоматичного виявлення взаємодії (CHAID) у квадраті, вбудована в модуль дерева рішень SPSS; Відповідно до правил, встановлених користувачем, він може згортати порядкові чи номінальні категорії змінних предиктора, коли вони показують аналогічні значення змінної результату (будь то безперервна чи номінальна). Ці правила можуть залежати від розміру груп, що згортаються або створюються при розпаді, або від p-значення відповідних статистичних тестів. Я вважаю, що деякі програми класифікації та регресії (CART) можуть робити те саме. Інші респонденти повинні мати можливість говорити про подібні функції, що виконуються нейронною мережею або іншими програмами, що надаються через різні пакети обміну даними.


Чудова справа, @rolando - оскільки початковий пост стосується наборів даних про навчання та валідацію, я підозрюю, що ваша відповідь може бути кориснішою для @Figaro.
ashaw

Дякую вам обом за цінний внесок. @ rolando2 ви правдиво щодо моїх неоднозначних формулювань, алгоритмічним був напрямок, на який я прагну.
Фігаро
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.