Кластеризація розподілу ймовірностей - методи та показники?


13

У мене є кілька даних даних, кожен з яких містить 5 векторів агломерованих дискретних результатів, результати кожного вектора генеруються різним розподілом (конкретний вид якого я не впевнений, я найкраще здогадуюсь - Вейбул. Параметр форми змінюється десь навколо експоненціальної до потужності закон (від 1 до 0, приблизно).)

Я хочу використовувати алгоритм кластеризації на зразок K-Means для розміщення кожної точки даних у групах на основі атрибутів 5-ти її компонентів. Мені було цікаво, чи існують встановлені метрики відстаней, які були б вишуканими для цих цілей. У мене було три ідеї до цих пір, але я не досвідчений статистик (більше починаючий інформатик з видобутку даних), тому я мало уявляю, наскільки я не в дорозі.

  1. Оскільки я точно не знаю, з якими дистрибутивами я маю справу, мій грубий підхід до проблеми полягав у тому, щоб перерізати кожен з розподілів (у мене 5 за балом) у кожне з його окремих дискретних значень (я вкладаю кожен відповідний однаковій довжині з нулями в кінці) і використовувати кожне з цих значень як окремий атрибут для самої точки даних. Я спробував використовувати як відстань Манхеттена, так і евклідову відстань як показники на основі цих атрибутів, як для PDF, так і для CDF.

  2. Знову ж таки, оскільки я не знаю, які види розподілів у мене є, я зрозумів, що якщо я буду вимірювати відстань між загальними розподілами, я можу використати якийсь непараметричний тест попарно між розподілами, наприклад KS-тест , щоб знайти ймовірність того, що дані дистрибутиви були створені різними PDF-файлами. Я думав, що мій перший варіант (вище) із використанням відстані на Манхеттені буде якоюсь верхньою межею щодо того, що я можу отримати, використовуючи цей підхід (оскільки статистика KS - це максимальне абсолютне значення різниці CDF, де відстань на Манхеттені - це сума абсолютних значень різниць у PDF-файлах). Тоді я розглядав можливість комбінування різних значень KS або P-значень у кожній точці даних, ймовірно, використовуючи евклідову відстань, але, можливо, просто беручи максимум усіх цих значень.

  3. Нарешті, намагаючись використати те, що я мало можу тлумачити про форму розподілів, я подумав, що спробую оцінити параметри розподілів як відповідні кривій Вейбулла. Тоді я міг би кластеризувати розподіли на основі відмінностей двох параметрів розподілу Вейбулла, лямбда та k (масштаб і форма), ймовірно, нормалізованих відповідно до дисперсії цих параметрів або чогось подібного. Це єдиний випадок, коли я думав, що я маю уявлення про те, як нормалізувати параметри.

Отже, моє запитання полягає в тому, який захід / методи ви б рекомендували для кластеризації дистрибутивів? Я навіть на правильному шляху з будь-яким із них? Чи K-Means навіть хороший алгоритм для використання?

Редагувати: Уточнення даних.

Кожна точка даних (кожен об'єкт, Objякий я хочу кластеризувати) насправді містить буквально 5 vectorsдані. Я знаю, що в цих об'єктах може знаходитися рівно 5 фаз. Ми скажемо (для спрощення), що має кожен вектор length N.

Кожен з цих векторів (називайте його vector i) є розподілом ймовірності з цілим числом x-valuesвід 1 до N, де кожне відповідне значення y представляє ймовірність вимірювання value xв phase iоб'єкті Obj. N - це максимальне значення x, яке я очікую для вимірювання в будь-якій фазі об'єкта (це фактично не фіксоване число в моєму аналізі).

Я визначаю ці ймовірності наступним чином:

  1. Я беру один Objі покласти його в phase iпротягом k trials, приймаючи вимірювання на кожному випробуванні. Кожне вимірювання - це єдине ціле число. Я роблю це для кожної з 5 фаз одного об'єкта, і по черзі для кожного об'єкта. Мої необроблені дані вимірювань для одного об’єкта можуть виглядати так:

    Вектор 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Вектор 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Вектор 5. [16, ... ..., 0]

  2. Потім я нормалізую кожен з векторів самостійно щодо загальної кількості вимірювань у даному векторі. Це дає мені розподіл ймовірностей у тому векторі, де кожне відповідне значення y представляє ймовірність вимірювання value xв phase i.


1
Мені незрозуміло, як ваші точки даних можуть "містити" розподіли. Чи можете ви навести приклад? Крім того, Weibull не є дискретним розподілом вірогідності, тому бажано отримати додаткове уточнення.
mpiktas

@mpiktas: Кожна точка даних являє собою об'єкт, який має 5 різних фаз. Поведінка кожної фази об'єкта теоретично може бути представлена ​​функцією безперервного розподілу ймовірностей, але мої дані містять лише дискретні вибірки. Розподіл Вейбула - це, мабуть, "теоретична" функція, що стоїть за моїми даними, але самі дані є лише вимірюванням щільності через дискретні інтервали.
Машина тужить

Відповіді:


5

(Обчислювальна) Інформаційна геометрія - це поле, яке займається саме такими проблемами. K-означає має розширення, яке називається брегманським k-засобом, яке використовує розбіжності (квадрат якого Евклідова стандартних K-засобів є окремим випадком, але також і Куллбек-Лейблер). Дане розбіжність пов'язане з розподілом, наприклад, евклідовим до гаусського.

Ви також можете подивитися на роботу Frank Nielsen , наприклад ,

Ви також можете ознайомитись з відстанями Вассерстейна (оптимальним транспортом) , згаданими як "Переміщення Землі" у попередньому дописі.


3

У своїй роботі про алгоритм EP-Means Хендерсон та ін переглядають підходи до цієї проблеми та дають своє власне. Вони вважають:

  1. Кластеризація параметрів - визначає параметри розподілів на основі попередніх знань розподілу та кластера на основі цих параметрів
    • зауважте, що тут ви можете фактично використовувати будь-який функціонал даних, а не лише оцінки параметрів, що корисно, якщо ви знаєте, що ваші дані надходять з різних розподілів
  2. Бінінг гістологій - розділіть дані на корзини і розгляньте кожний бін як вимір, який слід використовувати в просторовій кластеризації
  3. L1

Інший метод, який я успішно використовував, - це об'єднати всі спостережувані точки з усіх розподілів окремо, а потім призначити розподілу i м'яку ймовірність, відповідну пропорції його точок, які знаходяться в кожному кластері. З іншого боку, набагато складніше відокремити розподіли таким чином. З іншого боку, він на зразок автоматичного регулювання та передбачає, що всі дистрибутиви однакові. Я б використовував його лише тоді, коли бажане властивість регуляризації.


1
$i$i$l_2$л2

1

Ви повинні продовжити в два етапи. (1) Зменшення даних та (2) Кластеризація.

На кроці (1) слід уважно ознайомитись із вашими даними та визначити розумний розподіл ймовірностей для ваших даних. Ви, здається, вже думали про цей крок. Наступний крок - оцінка параметрів цих розподілів. Ви можете встановити модель окремо для кожного кластеру, або може бути доречно використовувати більш складну модель, таку як узагальнена лінійна змішана модель.

На етапі (2) ви можете кластерувати на основі цих оцінок параметрів. На цьому етапі ви повинні мати невелику кількість оцінок параметрів на одиницю. Як описано у відповіді на цю публікацію , ви зможете скопіювати ці оцінки параметрів.

Ця відповідь обов'язково дещо розпливчаста - тут немає «консервованого» рішення, і для кожного кроку потрібно багато статистичного огляду, щоб вибрати з майже нескінченної кількості методів, які можуть бути актуальними, залежно від вашої унікальної проблеми. Постановка вашого запитання свідчить про те, що ви самооцінили себе великою кількістю статистичних знань, що похвально, але ви все ще маєте деякі принципові непорозуміння основних статистичних понять, наприклад, відмінність між розподілом ймовірності та спостереженнями від розподілу ймовірностей. . Подумайте про те, щоб взяти / перевірити курс математичної статистики або два.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.