Я маю поділитися кількома думками про зменшення розмірів у непідвладних навчальних проблемах. Відповідаючи, я припускав, що ваш інтерес полягає у "високому дотику", інтерпретації кластерів wrt wrt-кластера на відміну від автоматизованого підходу під ключ, чорного поля та "низького дотику" підходу машинного навчання, в якому інтерпретація свідомо не підкреслюється . Якби це було останнє, чому б ви навіть задавали питання? Також зауважте, що я протягом багатьох років мав багато досвіду роботи з кластерними рішеннями в широкому діапазоні бізнес-середовищ, включаючи стратегічний маркетинг B2C, технічні сфери B2B та освітню політику (кластеризація студентів та шкіл).
По-перше, у мене є питання щодо вашого коментаря щодо "групування різних наборів даних". Я не знав, що ти маєш на увазі під цим чи як це може вплинути на підхід, і сподівався, що ти можеш розробити.
Я хотів би оскаржити ваше припущення в №1 вище, що рішення, засновані на ПКС, "важко інтерпретувати". Причини навіть використання PCA як попереднього кроку кластеризації пов'язані з гігієною отриманого рішення, якщо багато алгоритмів кластеризації чутливі до надмірності функцій. PCA згортає цю надлишок у керовану жменю компонентів, тим самим мінімізуючи проблеми та труднощі, які ви зазначили щодо вибору функцій. Хоча це правда, що компоненти, що виводяться з PCA, розмивають деталізацію та специфіку окремих особливостей, це проблема, якщо ви покладаєтесь виключнощодо цих компонентів при аналізі результатів. Іншими словами, ви жодним чином не замикаєтесь на використанні лише компонентів для інтерпретації кластерів. Мало того, що вам не обов’язково навіть дбати про те, що означають розміри факторів. Вони є лише проміжним і (в кінцевому рахунку) одноразовим засобом, що сприяє прийняттю рішень. Але, кажучи про це, я відрізняюсь від багатьох практикуючих тим, що команди можуть, бажають і проводять тижні ретельно, будуючи «змістовне» рішення фактора. Для мене це неефективна витрата часу та грошей клієнта.
На цьому етапі відбуватиметься судно технічних міркувань. Якщо, наприклад, ваш алгоритм PCA не є інваріантним за шкалою (наприклад, OLS проти ML), то будь-яке отримане рішення PCA буде спотворено, завантажуючи більш сильні функції на великій дисперсії. У цих випадках ваші функції потрібно попередньо обробити або трансформувати певним чином, щоб вирівняти цю дисперсію. Тут існує величезна кількість можливостей, включаючи середню стандартизацію, стандартизацію діапазону або IQR, масштабне іпсативне тощо. Використовуйте цю трансформацію, яка забезпечує найкраще, найбільш інтерпретоване рішення.
Після створення кластерного рішення інтерпретація найкраще мотивується (на мій досвід) ігноруванням компонентів та складанням оригінальних функцій разом із будь-якою додатковою описовою інформацією, яка безпосередньо не використовується в рішенні. На даний момент декілька евристик є найкращими орієнтирами для якісного розуміння. Це може бути таким же простим, як створення електронної таблиці, яка профілює ваші кластери на основі середніх значень або медіанів для кожної функції (рядки аркуша), для кожного кластеру (стовпці), а також додатковий стовпчик, що представляє велике значення для вашої загальної вибірки . Потім, індексуючи кластерні середні показники для кожної функції проти великої середньої величини (і помноживши на 100), створюється евристика, яка нагадує показник IQ, наскільки приблизно "100" є "нормальним" IQ або середньою поведінкою, індекси 120+ свідчать про високу ймовірність того, що функція буде "правдивою" щодо поведінки кластера, а індекси, що дорівнюють 80 або менше, вказують на функції, які "не відповідають дійсності" кластеру. Ці показники 120+ і 80 або менше схожі на проксі-тести на значущість певної функції в русі рішення. Звичайно, ви можете переходити між груповими тестами на значущість і, залежно від розмірів вибірки, отримаєте відповіді, які залежать від цих швидких і брудних правил.
Гаразд ... після цього, припустимо, ви все ще проти використання PCA як прямого введення в алгоритм кластеризації, проблема залишається щодо вибору зменшеного набору функцій. PCA тут все ще може бути корисним, оскільки PCA подібні до регресії без залежної змінної. Основними функціями завантаження кожного компонента можуть стати вхідні дані в алгоритм кластера.
На вашу думку про велику кількість функцій і відносно невеликий розмір вибірки ваших даних, типове правило у багатьох багатоваріантних аналізах "повної інформації" - це як мінімум приблизно 10 спостережень на функцію. Існують деякі спеціалізовані методи, які можна використовувати для вирішення цього завдання. Наприклад, часткові найменші квадрати (PLS) були вперше розроблені Германом Уолдом у своїй книзі « Теоретичний емпіризм» 1990 року для використання в таких галузях, як хіміометрія, які стикаються з цією проблемою. Він є факторно-аналітичним за своєю суттю, але набагато менш суворий у вимаганні великого n для створення розмірів. Інші рішення включають випадкові підходи до машинного навчання, подібні до лісу, «поділяй і перемагай», використовувані з великою кількістю інформації. Ці методи розглянуті в цьому PDFhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
Але припустимо, ви вирішили, що ви все ще не хочете нічого спільного з факторним аналізом і мертві, щоб запустити якийсь контрольований "послідовний" процес відбору. На мій погляд, найважливіше питання полягає у тому, щоб не знайти постмеханічну метрику ефективності (Dunn Index), а більше визначити відповідний проксі - залежну змінну -, щоб навіть зробити такий підхід можливим. Це рішення повністю залежить від вашого судження та статусу малого та середнього бізнесу. Немає «найкращих практик», набагато менш легких відповідей на це та з огляду на те, як ви описали свої дані, немає невеликих викликів.
Після того, як це рішення буде прийнято, тоді є буквально сотні можливих варіантів варіантів вибору. Варіабельний вибір - це тематична область, про яку кожен статистик та їх брат опублікували документ. Ваш улюблений підхід, здається, "послідовний вибір вперед", чудово.
Варто зазначити, що існують контрольовані моделі навчання, які складаються в кластерне рішення як частина алгоритму. Приклади цього включають великі та дуже гнучкі підходи, відомі як моделі прихованого класу. Суть моделей ЖК полягає в тому, що вони двоступеневі: на першому етапі визначається DV та будується регресійна модель. На другому етапі будь-яка неоднорідність залишкового виходу з моделі - єдиний прихований вектор - поділяється на латентні "класи". У цьому обговоренні резюме тут є огляд моделювання ЖК ... Сумніви в мультиноміальній моделі логітного класу
Сподіваюсь, це допомагає.