Кластеризація - інтуїція за теоремою неможливості Кляйнберга


17

Я думав над тим, щоб написати публікацію в блозі про цей цікавий аналіз Клейнберга (2002), який досліджує труднощі кластеризації. Кляйнберг окреслює три, здавалося б, інтуїтивні дезидерати для функції кластеризації, а потім доводить, що такої функції не існує. Існує багато алгоритмів кластеризації, які задовольняють два з трьох критеріїв; однак жодна функція не може задовольнити всіх трьох одночасно.

Коротко та неофіційно, три окреслені ним десидерати:

  • Масштабна інваріантність : Якщо ми перетворимо дані так, щоб все було розтягнуто однаково у всіх напрямках, результат кластеризації не повинен змінюватися.
  • Послідовність : Якщо ми розтягнемо дані так, що відстані між кластерами збільшуються та / або відстані всередині кластерів зменшуються, результат кластеризації не повинен змінюватися.
  • Багатство : Функція кластеризації теоретично повинна бути здатна виробляти будь-який довільний розділ / кластеризацію точок даних (за відсутності знання про попарну відстань між будь-якими двома точками)

Запитання:

(1) Чи є добра інтуїція, геометрична картина, яка може виявити невідповідність між цими трьома критеріями?

(2) Це стосується технічних деталей статті. Вам потрібно буде прочитати посилання вище, щоб зрозуміти цю частину питання.

У статті мені доведення теореми 3.1 трохи важко дотримуватися у певних точках. Я застряг у "Нехай f - функція кластеризації, яка задовольняє послідовність. Ми стверджуємо, що для будь-якого розділу ΓRange(f) існують додатні дійсні числа a<b такі, що пара (a,b) є Γ - примушуючи ».

Я не бачу, як це може бути ... Чи не розділ нижче зустрічного прикладу, де a>b (тобто мінімальна відстань між кластерами перевищує максимальну відстань у кластерах)?

контрприклад?

Редагувати: це, очевидно, не контрприклад, я плутав себе (див. Відповіді).


Інші папери:


Щодо "послідовності": ця характеристика інтуїтивно бажана лише тоді, коли кластери вже добре відокремлені. Коли їх немає, виникає питання про кількість кластерів у даних - для аналізу, оскільки це непідконтрольне, це питання. Тоді цілком нормально очікувати, що по мірі поступового додавання відстані між кластерами (оскільки вони були створені вами) аналіз змінює завдання, які він виконує під час кластеризації.
ttnphns

Щодо "багатства": Вибачте, що я не зрозумів, що це означає (як мінімум, як ви сказали). Алгоритмів кластеризації багато, як можна розраховувати, що всі вони підкоряються певній фантазійній вимозі?
ttnphns

Що стосується вашої картини: для розпізнавання такої структури потрібні спеціальні методи кластеризації. Традиційні / оригінальні методи кластеризації випливають з біології та соціології, де кластери - це більш-менш сфероїдні щільні «острови», а не атолові кільця. Ці методи не можуть вимагати впоратись із даними на малюнку.
ttnphns

Можливо, вас також зацікавлять: Естівіл-Кастро, Володимир. "Чому так багато алгоритмів кластеризації: документ про позицію." Інформаційний бюлетень з розслідувань ACM SIGKDD 4.1 (2002): 65-75.
Anonymous-Mousse -Встановити Моніку

Я не читав статті. Але в багатьох алгоритмах кластеризації ви маєте деякий поріг відстані (наприклад, DBSCAN, ієрархічна кластеризація). Якщо ви масштабуєте відстані, то вам також потрібно відповідним чином масштабувати поріг. Таким чином, я не згоден з його вимогою щодо інваріантності масштабу. Я також не згоден з багатством. Не кожен розділ повинен бути правильним рішенням для кожного алгоритму. Є мільйони випадкових розділів.
Anonymous-Mousse -Встановити Моніку

Відповіді:


11

Так чи інакше, кожен алгоритм кластеризації спирається на якесь поняття «близькості» точок. Інтуїтивно зрозуміло, що ви можете використовувати поняття відносного (інваріантного масштабу) або абсолютне (послідовне) поняття близькості, але не те і інше .

Спершу спробую проілюструвати це прикладом, а потім продовжую говорити, як ця інтуїція відповідає теоремі Кляйнберга.

Показовий приклад

Припустимо , що ми маємо два множин і S 2 зS1S2 точок, розташованих у площині так:270

two sets of 270 points

Ви, можливо, не бачите балів на жодній з цих картинок, але це лише тому, що багато пунктів дуже близько один від одного. Коли ми збільшуємо масштаб, ми бачимо більше очок:270

set 1 with zoom

Ви, напевно, спонтанно погоджуєтесь, що в обох наборах даних точки розташовані у трьох кластерах. Однак виявляється, що якщо збільшити масштаб будь-якого з трьох кластерів , ви побачите наступне:S2

set 2 with zoom

Якщо ви вірите в абсолютне поняття близькості або в послідовність, ви все одно будете твердити, що незалежно від того, що ви щойно бачили під мікроскопом, складається з трьох кластерів. Дійсно, єдина відмінність між S 1 і S 2 полягає в тому, що всередині кожного кластера деякі точки тепер ближче один до одного. Якщо, з іншого боку, ви вірите у відносне поняття близькості чи інваріантності масштабу, ви відчуєте схильність стверджувати, що S 2 складається не з 3, а зS2S1S2S23 кластерів. Жодна з цих точок зору не є помилковою, але вам доведеться робити вибір так чи інакше.3×3=9

Випадок інваріантності ізометрії

Якщо порівняти вищезгадану інтуїцію з теоремою Клейнберга, ви виявите, що вони дещо розбігаються. Дійсно, теорема Кляйнберга говорить, що ви можете домогтися інваріантності та послідовності масштабів одночасно, доки не піклуєтесь про третю властивість, яку називають багатством. Однак багатство не є єдиною властивістю, яку ви втрачаєте, якщо одночасно наполягаєте на масштабній інваріантності та послідовності. Ви також втрачаєте іншу, більш фундаментальну властивість: ізометрію-інваріантність. Це властивість, яку я не хотів би пожертвувати. Оскільки це не з’являється в папері Кляйнберга, я зупинюсь на ньому на хвилину.

Коротше кажучи, алгоритм кластеризації є інваріантним ізометрією, якщо його вихід залежить тільки від відстаней між точками, а не від якоїсь додаткової інформації, наприклад, міток, які ви прикріплюєте до своїх точок, або від замовлення, яке ви накладаєте своїм точкам. Сподіваюся, це звучить як дуже м'який і дуже природний стан. Усі алгоритми, обговорені в статті Кляйнберга, є інваріантними ізометрією, за винятком алгоритму єдиного зв’язку із зупинкою кластера. Відповідно до опису Клейнберга, цей алгоритм використовує лексикографічне впорядкування точок, тому його вихід може дійсно залежати від того, як ви їх позначите. Наприклад, для набору з трьох рівновіддалених точок вихід алгоритму єдиного зв’язку з 2k2-умова зупинки кластера дасть різні відповіді залежно від того, ви позначаєте свої три точки як "кішка", "собака", "миша" (с <d <м) або як "Том", "Колос", "Джеррі" (Дж. <S <T):

clustering of {cat, dog, mouse} versus {Tom, Spike, Jerry}

Ця неприродна поведінка, звичайно, може бути легко виправлена, замінивши умову зупинки кластера кластером на стан (" k ) -кластер". Ідея полягає в тому, щоб просто не розривати зв'язки між рівновіддаленими точками, а не припиняти об'єднання кластерів, як тільки ми дійшли до більшості k кластерів. Цей відремонтований алгоритм все ще буде вироблятиk(k) k кластери більшу частину часу, і це буде інваріантним ізометрією та інваріантним масштабом. Відповідно до інтуїції, наведеної вище, вона більше не буде послідовною.k

Для точного визначення інваріантності ізометрії нагадаємо, що Клейнберг визначає алгоритм кластеризації на кінцевому наборі як карту, яка призначає кожній метриці на S розділ S : Γ : { metrics on  S } SSS ізометрією я між двома метрики d і d ' на S є перестановкою я : S S такещо d ' ( я ( х ) , я ( у ) ) = г ( х , у ) для всіх точки х і у в S .

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

Визначення: групування алгоритму є изометрия інваріантних , якщо вона задовольняє таку умову: для будь-якого метрики d і D ' , і будь-який изометрия I між ними, в точках я ( х ) і я ( у ) лежить в одній і той же кластері Г ( d ' ), якщо і лише тоді, коли початкові точки x і y лежать в одному кластері Γ ( d ) .Γddii(x)i(y)Γ(d)xyΓ(d)

Коли ми думаємо про алгоритми кластеризації, ми часто ототожнюємо абстрактний набір з конкретним набором точок в площині або в якомусь іншому навколишньому просторі і уявляємо, як змінювати метрику на S як переміщення точок S навколо. Дійсно, це та точка зору, яку ми взяли в наведеному вище ілюстративному прикладі. У цьому контексті інваріантність ізометрії означає, що наш алгоритм кластеризації нечутливий до обертання, роздумів та перекладів.SSS

a set of points in the plane, and two rotations of it

Варіант теореми Клейнберга

Інтуїція, наведена вище, охоплена наступним варіантом теореми Кляйнберга.

Теорема: Не існує нетривіального алгоритму кластеризації інваріантної ізометрії, який би був одночасно послідовним та інваріантним за шкалою.

Ось, а тривіальним алгоритмом кластеризації, я маю на увазі один із наступних двох алгоритмів:

  1. алгоритм, який призначається кожній метриці на S дискретний розділ, у якому кожен кластер складається з однієї точки,

  2. алгоритм, який призначається кожній метриці на S груповий розділ, що складається з одного кластера.

Твердження полягає в тому, що ці нерозумні алгоритми є єдиними двома алгоритмами інваріантності ізометрії, які є одночасно послідовними та інваріантними за масштабами.

Доведення: Нехай - скінченна множина, над якою повинен працювати наш алгоритм Γ . Нехай d - метрика на S, в якій будь-яка пара різних точок має одиничну відстань (тобто d ( x , y ) = 1 для всіх x y в S ). Як Γ є ізометрією інваріантом, є тільки дві можливості для Γ ( d ) : або Γ ( d ) є дискретним розділу, абоSΓdSd(x,y)=1xySΓΓ(d)Γ(d) Γ ( - це грудоподільна перегородка. Давайте спочатку розглянемо випадок, коли Γ ( d ) - дискретний розділ. З огляду на будь-яку метрику d на S , ми можемо змінити її масштаб так, щоб усі пари точок мали відстань1 під d . Тоді за послідовністю знаходимо, що Γ ( d ) = Γ ( d ) . Отже, у цьому випадку Γ - тривіальний алгоритм, який призначає дискретний розділ кожній метриці. По-друге, розглянемо випадок, що d )Γ(d)Γ(d)dS1dΓ(d)=Γ(d)ΓΓ(d) - кусковий перегородка. Ми можемо змінити масштаб будь-якої метрики на S, щоб усі пари точок мали відстань 1 , тому знову узгодженість означає, що Γ ( d ) = Γ ( d ) . Тож Γ також тривіальний у цьому випадку. ∎dS1Γ(d)=Γ(d)Γ

Звичайно, цей доказ дуже близький за духом до доказів Маргарети Акерман про оригінальну теорему Кляйнберга, про яку йшлося у відповіді Алекса Вільямса.


7

Це інтуїція, яку я придумав (фрагмент з моєї публікації в блозі тут ).

enter image description here

d1d2d3d2d3d1d1d3d2d3


Ви маєте на увазі лівий нижній бік для d2? Одна гарна річ у вашій схемі полягає в тому, що вона показує, як послідовність не є загально бажаною властивістю (або що вона занадто вільно сформульована).
xan

Так знизу вліво, відповідно відредагував відповідь. Спасибі!
Алекс Вільямс

Перш ніж я повністю зрозумів вашу відповідь, я придумав логіку, яка виявляється дуальною вашою: почніть з кластеризації, де всі точки знаходяться в одному кластері. Перетворіть його в будь-яку іншу композицію, зменшивши її до мініатюрної версії будь-якої іншої композиції та масштабувавши її до повнорозмірної версії іншої композиції.
xan
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.